Facebook Pixel Code
× Inicio Instituto Historia Misión y Visión Objetivos y funciones Sedes Directorio de contactos Organigrama Directora Código de Integridad Imagen institucional Programas académicos Maestrías Educación continua Aulas virtuales Información universitaria Bienestar universitario Servicios Reglamento estudiantil Organos de Gobierno Facultad Seminario Andrés Bello Contactos Facultad Seminario Andrés Bello Investigación Líneas de investigación Descripción de proyectos Perfiles investigadores Admisiones Atención al ciudadano PQRSD Glosario Preguntas frecuentes Carta trato digno al ciudadano Cronograma de participación ciudadana 2017 Enlaces Estrategia GEL Ofertas de empleo Trámites y servicios Notificaciones judiciales Caracterización de usuarios Encuesta de percepción Hoja de vida aspirantes Normatividad Sala de prensa Casos de éxito Noticias ICC en los medios Videos Galería de imágenes Emisora CyC Radio

Usted está en: Inicio / Noticias / Con inteligencia artificial ¿se puede hacer análisis de emociones para detectar y comprender las emociones humanas manifestadas en el lenguaje?

Noticias

Con inteligencia artificial ¿se puede hacer análisis de emociones para detectar y comprender las emociones humanas manifestadas en el lenguaje?


Un grupo de cuatro investigadores en lingüística computacional, entre ellos dos colombianos del Instituto Caro y Cuervo, realizaron un proyecto basado en WordNet donde proponen una nueva representación computacional para las palabras que desafía los métodos actuales basados en redes neuronales y aprendizaje profundo. Esa representación se aplicó a similitud léxica y análisis de emociones.

Su investigación fue publicada en la revista IEEE-Computer Intelligence Magazine, la #9 en el mundo en la categoría Computer Science/Artificial Intelligence según JCR.

Ver aticulo originalhttps://www.caroycuervo.gov.co/documentos/imagenes/word2set-preprint.pdf

El artículo explica cómo las computadoras están adquiriendo la capacidad de comunicarse con nosotros utilizando el lenguaje natural que utilizamos todos los días. Esto se está comenzando a lograr gracias a los avances de la computación en el aprendizaje maquinal (machine learning) y más recientemente en lo que se conoce como aprendizaje profundo (deep learning).  Estas tecnologías están presentes hoy en día en los asistentes personales automáticos como Alexa de Amazon, Siri de Apple o el asistente de Google.

Sin embargo, para “entrenar” estos cerebros artificiales se requieren grandes cantidades de datos. Por ejemplo, para que un cerebro artificial pueda aprender una tarea que es sencilla para los humanos, como determinar la similitud entre palabras o resolver analogías sencillas, este se debe entrenar “leyendo” o “procesando” muchísimos textos.  Para darse una idea,  los modelos más populares necesitan leer unos 100 billones de palabras, esto es el equivalente a 20 millones de Quijotes. Conseguir esa cantidad de texto en idiomas como el inglés o el español no es un problema, pero muchas lenguas minoritarias esto puede resultar imposible. Inclusive lenguas no tan minoritarias como el catalán o el quechua, las cuales cuentan cada una con unos 10 millones de hablantes, conseguir esa cantidad de texto es una tarea difícil.

En el caso del quechua podría ser necesario que cada hablante escribiera el equivalente a dos Quijotes para que cerebro artificial pueda “entender” el quechua. Pensemos en lo que significa esto en una como el wayuu en Colombia, la cual tiene a lo sumo unos 700,000 hablantes, o cualquiera de las otras 60 lenguas que se hablan en Colombia, cada una con muchos menos hablantes.  Esto significa que la promesa de que la computación fuese accesible para todos cuando las computadoras pudiesen hablar es actualmente solo una promesa para las lenguas mayoritarias.

Antes del “deep learning” la manera para que las inteligencias artificiales pudiesen entender el lenguaje humano consistía en construir manualmente unos diccionarios especiales para computadoras. El más famoso de estos diccionarios fue WordNet desarrollado en la Universidad de Princeton en los años 90s. WordNet tenía clasificadas más de 300 mil palabras del inglés con más de un millón de relaciones entre esas palabras conformando la red semántica de palabras más grande creada por la humanidad hasta ese momento. Aún con ese recurso, las computadoras no lograban comunicarse de manera natural con las personas. Con la llegada del aprendizaje profundo en la segunda década de este siglo, WordNet pasó a un segundo plano.

El aporte de los investigadores

El trabajo lo lideraron cuatro expertos: Sergio Jiménez y George Dueñas del Insituto Caro y Cuervo en colaboración con Fabio A. González, MindLab Research Group de la Universidad Nacional de Colombia;  y Alexander Gelbukh, CIC del Instituto Politécnico Nacional de México.

Su aporte a la ciencia consistió en “desempolvar” a WordNet y proponer una nueva manera de utilizar ese recurso de manera que pudiese competir con los cerebros artificiales modernos. La novedad de nuestro método consiste en que para determinar la similitud de un par de palabras, en lugar de buscar caminos entre las dos palabras en la red semántica (como se hacía hasta ahora) primero buscamos cientos de palabras relacionadas a cada una de las dos palabras y luego relacionamos estos cientos de palabras con otros algoritmos de aprendizaje maquinal.  El resultado fue que logramos resultados competitivos contra modelos muy populares como lo son Word2vec (de Google) y GloVe (de la Universidad de Stanford).

Otra contribución importante de este trabajo fue en el campo del análisis de emociones (sentiment analysis en inglés). Este campo de investigación es el que se ocupa de proveer a las inteligencias artificiales de la capacidad de detectar y comprender las emociones humanas manifestadas en el lenguaje.  Nuevamente, se comparamó el método propuesto contra Word2vec y GloVe en la tarea de identificar en las palabras el grado de antagonismo, amabilidad, sensibilidad (entre otros tipos de emociones) logrando mejores resultados.

¿Cuál es impacto esperado en el mundo?

Este trabajo renueva la promesa de la computación para todo el mundo sin discriminación de las lenguas minoritarias. Ahora, es posible que un equipo de lexicógrafos y lingüistas construyan manualmente una WordNet para una lengua minoritaria, y con esto, se abre la posibilidad de que los hablantes de esa lengua puedan hacer uso de muchas de las tecnologías que hasta el momento solo disfrutan los hablantes de las lenguas mayoritarias. Aunque para que esto sea una realidad se requiere de muchas otras tecnologías, esfuerzo y presupuesto, se ha dado el primer paso que abre la puerta a esa posibilidad en el futuro.

Aunque en el mundo hay países con mucha diversidad lingüística, como Papúa Nueva Guinea con más de 800 lenguas, Colombia es uno de los países con mayor diversidad en América. Este año 2019 es el año de las lenguas indígenas en Colombia, las cuales son más de 60 aparte del palenquero, el creole, el romaní, la lengua de señas colombiana y la de Providencia. Esta diversidad lingüística hace que para nosotros sea importante la investigación en las tecnologías que ayuden a una mejor comunicación entre TODOS los colombianos y no solo entre la mayoría.

Sobre los autores:

Sergio Jiménez:  Es investigador en ciencias de la computación formado completamente en la Universidad Nacional de Colombia sede Bogotá desde el pregrado hasta el doctorado. Se graduó como doctor en el 2015 con los máximos honores (tesis laureada) . Desde el 2017 está vinculado como investigador del Instituto Caro y Cuervo, y ahora es también docente de la Maestría en Lingüística del mismo instituto. En el año 2012 ganó una de las pasantías de que ofrece Microsoft para sus laboratorios de investigación en Redmond, Washington, los cuales están entre los líderes mundiales en investigación en inteligencia artificial.

https://sites.google.com/site/sergiojimenezvargas/

Fabio González:  Oriundo de Mariquita, Tolima, ha hecho una brillante carrera académica que va desde recibir la medalla Andrés Bello como mejor bachiller del Tolima, pregrado y maestría con honores en la Universidad Nacional de Colombia, maestría y doctorado en la Universidad de Memphis, hasta ser becario postoctoral del prestigioso Programa Fullbright. El doctor Fabio González es investigador más importante en Colombia en el campo de la computación y la inteligencia artificial. http://dis.unal.edu.co/~fgonza/index.html

Alexander Gelbukh:  Es un prolífico científico ruso quien emigró luego de la Perestroica en los años 90 a México y ha trabajado desde entonces en el Centro de Investigación en Computación del Instituto Politécnico Nacional. Ahora es miembro de la Academia Mexicana de Ciencias y presidente de la Sociedad Mexicana de Inteligencia Artificial (2012-2014). Es un ciudadano del mundo y amigo de Colombia, donde nos ha visitado muchas veces y ha contribuido a la formación de varios científicos en el campo del a inteligencia artificial y el procesamiento del lenguaje natural.

http://web.archive.org/web/20170714044819/http://www.conacytprensa.mx/index.php/sociedad/personajes/12175-alexander-gelbukh-el-matematico-ruso-que-cumple-20-anos-incentivando-ciencia-en-mexico

https://www.gelbukh.com/

George Dueñas: Joven investigador, lingüista (premio XX mejores trabajos de grado UN)  y magíster (laureado) en educación de la Universidad Nacional de Colombia sede Bogotá. Ha sido investigador del Instituto Caro y Cuervo, docente de la Universidad Nacional y ahora inicia su doctorado en el Centro de Investigación en Computación del IPN en México.


Calendario de actividades


Español para extranjeros

Spanish in Colombia

Study Spanish at the Instituto Caro y Cuervo

SIELE 2017

Sitios de Interés

Educación continua

CyC Radio Emisora virtual Instituto Caro y Cuervo

La Casa de las palabras


Gestión del Riesgo Patrimonial

Madrugón al Bicentenario

Portal para niños

Portal de niños

Redes sociales

Institución de Educación Superior por autorización del Ministerio de Educación Nacional según el artículo 21 de la Ley 30 de 1992.
Reconocimiento personería jurídica: Ley 5 de 1942. Código SNIES:9108. Vigilada Mineducación. Entidad adscrita al Ministerio de Cultura.