Art & Photos

4 pages
40 views

Tecnologías de la lengua para análisis de opiniones en redes sociales

of 4
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Share
Description
Resumen: La reciente popularización de los medios web de comunicación social basados en microtextos, entre los que destaca Twitter, ha permitido globalizar la expresión de opiniones. Aunque los microtextos presentan características léxicas y
Transcript
  Tecnolog´ıas de la lengua para an´alisis de opiniones enredes sociales Language technologies for opinion analysis in social networks Manuel VilaresElena S´anchez Trigo Universidade de VigoE.S. de Enxe˜nar´ıa Inform´atica (Ourense) yFacultade de Filolox´ıa e Traduci´on (Vigo) { vilares, etrigo } @uvigo.es Carlos G´omez-Rodr´ıguezMiguel A. Alonso Universidade da Coru˜naFacultade de Inform´aticaCampus de Elvi˜na, A Coru˜na { cgomezr, alonso } @udc.es Resumen:  La reciente popularizaci´on de los medios web de comunicaci´on socialbasados en microtextos, entre los que destaca Twitter, ha permitido globalizar laexpresi´on de opiniones. Aunque los microtextos presentan caracter´ısticas l´exicas ysint´acticas propias respecto al lenguaje est´andar, ciertos aspectos b´asicos del len- guaje han de ser respetados para resultar legibles. En este proyecto proponemosexplotar este hecho para obtener una mejora del soporte ling¨u´ıstico integrado enel tratamiento de microtextos en nuestro ´ambito de inter´es natural, el espa˜nol yel gallego. Para ello ser´a preciso mejorar el rendimiento de las t´ecnicas actuales dean´alisis sobre texto est´andar, dise˜nar mecanismos de adaptaci´on a microtextos de aquellos modelos y m´etodos de an´alisis que son m´as efectivos en lenguaje est´andar; y realizar una proyecci´on de modelos, m´etodos y recursos efectivos en otras lenguas. Palabras clave:  An´alisis del sentimiento, miner´ıa de opiniones, an´alisis sint´actico, dependencias universales Abstract:  The recent popularization of social media based on microtexts, amongwhich Twitter stands out, has enabled a globalization of the expression of opinions.Although microtexts present some specific lexical and syntactic properties that differfrom those of standard text, certain basic aspects of language must be respected sothat they are intelligible. In this project, we propose to exploit this fact in orderto improve the linguistic support for processing microtexts in our natural sphereof interest: the Spanish and Galician languages. To do so, it will be necessary toimprove the performance of current parsing and analysis techniques on standard text,to design mechanisms so that models and methods effective for analyzing standardlanguage can be adapted to microtexts, and to project effective models, methodsand resources across languages. Keywords:  Sentiment analysis, opinion mining, parsing, universal dependencies 1 Introducci´ on  Cada vez es mayor el n´umero de usuarios queemplean los medios web de comunicaci´on so-cial basados en microtextos para compartirsus opiniones y experiencias acerca de pro-ductos, servicios o personas. La populariza-ci´on de estos medios, entre los que destacaTwitter, ha permitido globalizar la expresi´onde opiniones inspir´andose en la naturaleza delas interacciones humanas, favoreciendo la ge-neraci´on de comunidades virtuales que posi-bilitan la colaboraci´on remota y dando lugara una amplia colecci´on de recursos que permi-te dotarnos de una visi´on sobre pr´acticamen-te cualquier tema. Por ende, la explotaci´onde estos recursos resulta especialmente ´util enlos ´ambitos comercial y administrativo, don-de constituyen una fuente de informaci´on fia-ble en la estimaci´on de c´omo los art´ıculos oservicios son percibidos por el usuario. Porextensi´on, proporciona un punto de partidarazonable para detectar qu´e aspectos poseenuna buena acogida en un producto o servicio,y cu´ales no. Adem´as, dado que es com´un que los usuarios establezcan comparaciones conotras empresas o administraciones, ello per-mitir´a a estas conocer los puntos en los quenecesitan mejorar y en qu´e sentido.Esta situaci´on ha despertado un gran in-ter´es por el desarrollo de soluciones que po- Procesamiento del Lenguaje Natural, Revista nº 59, septiembre de 2017, p  p .  125-128recibido 24-03-2017 revisado 12-05-2017 aceptado 25-05-2017ISSN 1135-5948© 2017 Sociedad Española para el Procesamiento del Lenguaje Natural  sibiliten analizar y monitorizar este flujo in-gente de datos, algo que pasa por automati-zar este proceso, incorporando m´etodos inte-ligentes de acceso a la informaci´on. Las di-ficultades a˜nadidas que representan tanto laef´ımera vida ´util de esta informaci´on, como lautilizaci´on de lenguaje no est´andar y en dife-rentes idiomas, hacen de esta un ´area emer-gente de investigaci´on que requiere la con- junci´on de capacidades en campos como laling¨u´ıstica computacional, el aprendizaje au-tom´atico y la inteligencia artificial.A este respecto, el an´alisis de sentimien-to o miner´ıa de opiniones (MO) es un ´areade investigaci´on centrada en determinar au-tom´aticamente si en un texto se opina o no, sila polaridad o sentimiento que se expresa en´el es positiva, negativa o mixta; y en extraerautom´aticamente la percepci´on de un autorsobre aspectos concretos de un tema. Las so-luciones actuales de MO est´an muy limitadaspor su escaso recurso a las tecnolog´ıas de lalengua, al basarse en un procesado superficialque no tiene en cuenta las relaciones sint´acti-cas entre palabras ni sus roles sem´anticos enlas oraciones, lo cual resta capacidad de com-prensi´on en unos textos ya de por s´ı exiguos.Adem´as, la mayor´ıa de estas soluciones adop-tan al ingl´es como lengua base, con la consi-guiente ventaja para usuarios, organizacionesy empresas de pa´ıses angloparlantes.En este contexto se desarrolla TELEPA-RES (Tecnolog´ıas de la lengua para an´alisisde opiniones en redes sociales), un proyectode investigaci´on coordinado entre investiga-dores del Grupo COLE (www.grupocole.org)de la Universidade de Vigo (UVigo), del Gru-po LYS (www.grupolys.org) de la Universi-dade da Coru˜na (UDC) y del CITIUS (ci-tius.usc.es) de la Universidade de Santia-go de Compostela (USC). Ha obtenido fi-nanciaci´on del Ministerio de Econom´ıa yCompetitividad dentro del Programa Esta-tal de I+D+i Orientada a los Retos de laSociedad (FFI2014-51978-C2-1-R y FFI2014-51978-C2-2-R). Manuel Vilares coordina elproyecto y lidera junto con Elena S´anchez elsubproyecto en UVigo (en el que tambi´en seintegran los investigadores de la USC), mien-tras que Carlos G´omez-Rodr´ıguez y MiguelA. Alonso lideran el subproyecto en la UDC. 2 Desaf´ıos Describimos brevemente los principalesdesaf´ıos a los que hemos de enfrentarnos:1. La utilizaci´on masiva de microtextos, amenudo carentes de contexto ling¨u´ısticoy que necesitan, para su an´alisis, de unrefinamiento y actualizaci´on de las t´ecni-cas de lingu´ıstica computacional.2. El ruido en los textos, manifestadoa nivel l´exico en forma de escriturano convencional, utilizaci´on irregular demay´usculas y min´usculas; y abreviacio-nes idiosincr´asicas. A nivel sint´actico,en el uso tambi´en irregular de signosde puntuaci´on, y en la eliminaci´on dedeterminantes y otras part´ıculas cuan-do su inclusi´on provocar´ıa la superaci´ondel tama˜no m´aximo permitido en untuit (microtexto de Twitter). A nivelsem´antico, en el uso de emoticonos queayudan a proporcionar el contexto detextos extremadamente cortos (alegr´ıa,tristeza, enfado, etc.) lo que distorsionael tratamiento. Lo mismo ocurre a ni-vel pragm´atico, donde aquellos permitendistinguir expresiones literales de otrasque no lo son (iron´ıa, broma, etc.) y ayu-dan a trasladar al texto aspectos multi-modales del lenguaje como las expresio-nes faciales de cansancio, aburrimiento ointer´es.3. El multiling¨uismo, ya que menos del50% de los tuits est´an escritos en ingl´es,con una presencia relevante y crecientedel espa˜nol, portugu´es y japon´es (Car-ter, Weerkamp, y Tsagkias, 2013). Es-te hecho hace patente la necesidad dedesarrollar aplicaciones multiling¨ues enel ´ambito de la miner´ıa de textos, con-frontando la dificultad derivada de queel espa˜nol sea una lengua con un sopor-te moderado de las tecnolog´ıas del len-guaje, mientras que las restantes lenguasib´ericas var´ıen entre un soporte fragmen-tario y uno d´ebil. 3 Objetivos Mediante el desarrollo de este proyecto trata-mos de afrontar los desaf´ıos indicados ante-riormente con el fin de desarrollar un sistemaefectivo de MO sobre microtextos escritos enespa˜nol y gallego, para lo cual ser´a preciso:Mejorar el rendimiento de los algorit-mos de an´alisis sint´actico sobre textoest´andar, ya que de la calidad del an´ali-sis realizado depende en gran medida la Manuel Vilares, Elena Sánchez Trigo, Carlos Gómez-Rodríguez, Miguel A. Alonso126  aplicabilidad de los resultados a entornospr´acticos, como la MO.Mejorar el rendimiento de los sistemasde MO mediante la utilizaci´on de la es-tructura sint´actica para extraer la opi-ni´on vertida en un texto, con especialatenci´on al tratamiento de las variadasformas de negaci´on, las frases adversa-tivas y la diferenciaci´on entre texto enmodo realis (que se refiere eventos o ac-ciones reales) e irrealis (que expresa de-seo, potencialidad o condicionalidad).Definir modelos de aprendizaje que faci-liten la elecci´on de los mejores analiza-dores, minimizando el coste del procesode entrenamiento sin perjuicio de la ca-lidad.Definir t´ecnicas efectivas que permitanproyectar las herramientas y recursosdesarrollados para una lengua, a otradistinta. Ello permitir´a, por ejemplo, ob-tener un analizador sint´actico para unidioma en el que no est´a disponible uncorpus de textos anotados sint´actica-mente (como es el caso del gallego), apartir de los analizadores obtenidos pa-ra otros (como puede ser el espa˜nol) ques´ı disponen de tales corpus.Definir t´ecnicas efectivas de adaptaci´onde los analizadores a un dominio distin-to de aquel para el que fueron concebi-dos inicialmente, lo que permitir´a obte-ner herramientas para textos no conven-cionales, como es el caso de los microtex-tos presentes en los medios web de co-municaci´on social. Ello conlleva tambi´enmejorar el rendimiento de los algoritmosde an´alisis l´exico en este contexto, conespecial atenci´on al tratamiento de suspeculiaridades l´exicas: errores ortogr´afi-cos, abreviaturas, emoticonos y almoha-dillas. Todo ello permitir´a extraer uni-dades ling¨u´ısticas coherentes que conten-gan las expresiones de opini´on presentesen un enunciado, as´ı como su orientaci´onsem´antica o polaridad. 4 Resultados alcanzados An´alisis sint´actico : se han realizado desa-rrollos relevantes en analizadores de depen-dencias basados en grafos (G´omez Rodr´ıguez,2016b) y transiciones (G´omez Rodr´ıguez yFern´andez-Gonz´alez, 2016). Se ha descritola relaci´on entre la manera en que funcio-nan los analizadores basados en transicionesy la forma en que los humanos procesamosel lenguaje (G´omez Rodr´ıguez, 2016a). Sehan analizado las dependencias no proyec-tivas (Ferrer-i-Cancho y G´omez-Rodr´ıguez,2016a) y se han estudiado las propiedades ydistribuci´on estad´ıstica de las longitudes delas dependencias (Ferrer-i-Cancho y G´omez-Rodr´ıguez, 2016b; Esteban, Ferrer-i-Cancho,y G´omez-Rodr´ıguez, 2016). Se ha comparadola eficacia de analizadores sint´acticos, mode-los vectoriales y redes neuronales en tareasde similaridad l´exica y analog´ıa (Gamallo,2017). Sistemas de MO : se han dise˜nado eimplementado sistemas de miner´ıa de opi-niones multiling¨ues no supervisados (Vilares,G´omez-Rodr´ıguez, y Alonso, 2017) y supervi-sados (Vilares, Alonso, y G´omez-Rodr´ıguez,2017) capaces de proporcionar un an´alisis dela polaridad de una oraci´on teniendo en cuen-ta los fen´omenos sint´acticos que la condi-cionan (negaci´on, oraciones adversativas, in-tensificaci´on e irrealis), obteniendo resultadosm´as precisos que los sistemas que se quedanen un nivel l´exico. Mediante la aplicaci´on det´ecnicas de  deep learning   se obtuvo el segun-do puesto en las subtareas B y D en la cam-pa˜na de evaluaci´on SemEval 2016 task 4 (Vi-lares et al., 2016). Modelos de aprendizaje : se han di-se˜nado e implementado sendos algoritmos pa-ra la predicci´on del rendimiento en procesosde aprendizaje autom´atico y localizaci´on delas instancias para el muestreo (Vilares, Da-rriba, y Ribadas, 2017). Recursos ling¨u´ısticos : se ha compro-bado emp´ıricamente la efectividad de lasUniversal Dependencies en el procesamien-to multiling¨ue (Vilares, Alonso, y G´omez-Rodr´ıguez, 2016). Se ha creado Galician-TreeGal, un treebank de dependencias uni-versales manualmente revisado para galle-go (Garcia, G´omez-Rodr´ıguez, y Alonso,2016). Se ha creado el corpus EN-ES-CScon tuits en los que se utiliza m´as de unidioma (Vilares, Alonso, y G´omez-Rodr´ıguez,2017). Se ha creado el recurso Spanish SentiS-trength, cuya eficiencia y utilidad pr´actica hasido analizada sobre un conjunto de mensa- jes de naturaleza pol´ıtica (Vilares, Thelwall,y Alonso, 2015; Vilares y Alonso, 2016). Normalizaci´on de textos : se ha estu-diado la robustez de las t´ecnicas basadas en Tecnologías de la lengua para análisis de opiniones en redes sociales127  n-gramas de caracteres para la correcci´on depalabras en un entorno multiling¨ue (Vila-res et al., 2016a; Vilares et al., 2016b) y seha experimentado con t´ecnicas de deep lear-ning para la segmentaci´on de palabras (Do-val, G´omez-Rodr´ıguez, y Vilares, 2016). Bibliograf´ıa  Carter, S., W. Weerkamp, y M. Tsagkias.2013. Microblog language identification:overcoming the limitations of short, une-dited and idiomatic text.  Language Re-sources and Evaluation  , 47(1):195–215.Doval, Y., C. G´omez-Rodr´ıguez, y J. Vila-res. 2016. Segmentaci´on de palabras enespa˜nol mediante modelos del lenguaje ba-sados en redes neuronales.  Procesamientodel Lenguaje Natural  , 57:75–82.Esteban, J. L., R. Ferrer-i-Cancho, yC. G´omez-Rodr´ıguez. 2016. The sca-ling of the minimum sum of edge lengthsin uniformly random trees.  Journal of Statistical Mechanics: Theory and Experi-ment  , (2016):063401.Ferrer-i-Cancho, R. y C. G´omez-Rodr´ıguez.2016a. Crossings as a side effect of depen-dency lengths.  Complexity  , 21(S2):320–328.Ferrer-i-Cancho, R. y C. G´omez-Rodr´ıguez.2016b. Liberating language research fromdogmas of the 20th century.  Glottome-trics  , 33:33–34.Gamallo, P. Pendiente de publicaci´on. Com-paring explicit and predictive distributio-nal semantic models endowed with syn-tactic contexts.  Language Resources and Evaluation  .Garcia, M., C. G´omez-Rodr´ıguez, y M. A.Alonso. 2016. Creaci´on de un treebankde dependencias universales mediante re-cursos existentes para lenguas pr´oximas: elcaso del gallego.  Procesamiento del Len-guaje Natural  , 57:33–40.G´omez Rodr´ıguez, C. 2016a. Natural lan-guage processing and the now-or-neverbottleneck.  Behavioral and Brain Scien-ces  , 39:e74.G´omez Rodr´ıguez, C. 2016b. Restric-ted non-projectivity: Coverage vs. ef-ficiency.  Computational Linguistics  ,42(4):809–817.G´omez Rodr´ıguez, C. y D. Fern´andez-Gonz´alez. 2015. An efficient dynamicoracle for unrestricted non-projective par-sing. En  Proceedings of ACL-IJCNLP 2015  , p´aginas 256–261, Beijing, China.Vilares, D. y M. A. Alonso. 2016. A re-view on political analysis and social me-dia.  Procesamiento del Lenguaje Natural  ,56:13–23.Vilares, D., M. A. Alonso, y C. G´omez-Rodr´ıguez. 2016. One model, two langua-ges: training bilingual parsers with harmo-nized treebanks. En  Proceedings of ACL2016  , p´aginas 425–431, Berlin, Germany.Vilares, D., M. A. Alonso, y C. G´omez-Rodr´ıguez. 2017. Supervised senti-ment analysis in multilingual environ-ments.  Information Processing & Mana-gement  , 53(3):595–607.Vilares, D., Y. Doval, M. A. Alonso, yC. G´omez-Rodr´ıguez. 2016. Exploitingneural activation values for Twitter senti-ment classification and quantification. En Proceedings of SemEval-2016  , p´aginas 79–84, San Diego, California.Vilares, D., C. G´omez-Rodr´ıguez, y M. A.Alonso. 2017. Universal, unsupervised(rule-based), uncovered sentiment analy-sis.  Knowledge-Based Systems  , 118:45–55.Vilares, D., M. Thelwall, y M. A. Alonso.2015. The megaphone of the people? Spa-nish SentiStrength for real-time analysisof political tweets.  Journal of Information Science  , 41(6):799–813.Vilares, J., M. A. Alonso, Y. Doval, yM. Vilares. 2016a. Studying the ef-fect and treatment of misspelled que-ries in cross-language information retrie-val.  Information Processing & Manage-ment  , 52(4):646–657.Vilares, J., M. Vilares, M. A. Alonso, yM. P. Oakes. 2016b. On the feasibilityof character n-grams pseudo-translationfor cross-language information retrievaltasks.  Computer Speech and Language  ,36(36):136–164.Vilares, M., V. M. Darriba, y F. J. Ribadas.2017. Modeling of learning curves withapplications to POS tagging.  Computer Speech and Language  , 41:1–28. Manuel Vilares, Elena Sánchez Trigo, Carlos Gómez-Rodríguez, Miguel A. Alonso128
Related Documents
View more...
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks