Alumnos del IPN desarrollan aplicación móvil para el fortalecimiento de las lenguas indígenas mexicanas.

Ciudad de México  mayo de 2022.- El Instituto Politécnico Nacional (IPN) se coloca nuevamente a la vanguardia en el desarrollo de la Inteligencia Artificial y Tecnologías de la Información mediante INDLEX (Indigenous lexicon), que es la  aplicación móvil  para el registro de las lenguas indígenas mexicanas que aportará profundos impactos sociales  para el uso y preservación de este acervo nacional.

El desarrollo de este proyecto que se encuentra a cargo de alumnos pertenecientes al Laboratorio de Lenguaje Natural y Procesamiento de Texto, del Centro de Investigación en Computación (CIC) el cual  innovará en el uso de las tecnologías por su aplicación en la recolección y documentación sistematizada de las lenguas indígenas mexicanas en sus versiones vivas.

Christian Efraín Maldonado Sifuentes, responsable técnico del equipo, comentó que “INDLEX brindará, opciones para tomar fotos, subir imágenes representativas del vocablo traducido, así como la oportunidad de grabar audios propios con la pronunciación de cada palabra y hacer seguimiento de la evolución de los alfabetos. Los investigadores de campo tendrán métodos de trabajo más efectivos y modernos para interactuar con las comunidades de hablantes, sistematizar y compartir vocabularios con el resto de la comunidad científica”.

Existen 68 lenguas indígenas en México que suman más de 7 millones de hablantes y 25 millones de personas que se identifican con dichos grupos lingüísticos aún sin hablar la lengua. Así mismo, las lenguas indígenas han sido reconocidas por la UNESCO como “herencia insustituible para la humanidad y […] un patrimonio invaluable para la sociedad [1]”. Debido a falta de mecanismos efectivos para su documentación, estas lenguas se encuentran en declive y alto riesgo de extinción.

“En este proyecto utilizaremos técnicas de programación novedosas que permitan brindar a los hablantes bilingües –indígena/español–, una manera sencilla y rápida de registrar traducciones, y realizar anotaciones de multimedia en su lengua y variante indígena. La información recolectada por INDLEX servirá a investigadores de humanidades y de inteligencia artificial que requieran mayores recursos léxicos y desarrollar tecnologías del lenguaje en beneficio de las comunidades indígenas de México, explicó Christian Efraín Maldonado Sifuentes.

En el mundo existen cerca de 7000 lenguas habladas y se estima que la mitad están en peligro de desaparecer en el transcurso de este siglo. Por ello se han desarrollado esfuerzos como los de Broadwell et al, 2020 y Harrison et al 2019, para el rescate de las lenguas en peligro de desaparecer.

Christian Efraín Maldonado Sifuentes precisó que existen iniciativas de otros países, tales como living dictionaries o living tongues con tecnologías para la documentación sistemática de lenguas, “sin embargo en México carecemos de ello aún y queda en evidencia en los repositorios de talking dictionaries, living dictionaries, qué son las tecnologías extranjeras las tienen mayor disponibilidad de recursos lingüísticos de lenguas indígenas mexicanas que las que tenemos en nuestros sistemas nacionales, y mientras nuestras lenguas originarias siguen a la espera de mayor atención tecnológica para el rescate de este importante patrimonio nacional”.

La aplicación INDLEX busca simplificar la recolección de traducciones de palabras y recursos multimedia representados en múltiples lenguas indígenas de México y sus más de 360 variantes lingüísticas. Permitirá interfaz sencilla y amigable para ser usada por cualquier persona bilingüe (indígena/español); operar en condiciones de baja conectividad, o utilizar la app sin conexión a internet empleando tecnología de sincronización de datos; Implementar una base de datos abierta que almacene múltiples traducciones de cada vocablo por lengua y variante, permitiendo la expresión natural de los hablantes; desarrollar un sistema multi-usuario para que diversos hablantes puedan trabajar con un solo dispositivo. Asimismo, fácil acceso a los datos para que investigadores de diferentes áreas y disciplinas puedan hacer uso de los mismos con fines académicos y de preservación de lenguas.

En el equipo, cuyo co-responsable técnico es el Dr. Grigori Sidorov, del  Centro de Investigación en Computación del IPN, participan los alumnos Jason Efrain Angel Gil, José Eduardo Valdés Rojas, José Ricardo Jimenez Yáñez, Alain Pacchiano Alemán, Sergio Gabriel Sánchez Valencia, Christen Danae Maldonado Ortega. Han participado como autores, co-organizadores y asistentes en prestigiosos congresos internacionales de la inteligencia artificial, y el procesamiento de datos donde se resaltan las aplicaciones a comunidades de lenguas  entre las que destacan  AmericasNLP y la Escuela de verano de NAACL. Así mismo, son organizadores del 2do. congreso de Procesamiento de Lenguaje Natural para Lenguas Indígenas (PLN Indígenas), colaboradores en la asociación de  NLP for Social Good y fundadores de AMNLP, asociación que busca el avance de las minorías mediante el procesamiento de lenguaje natural. Tiene una colaboración cercana con el equipo de activistas, investigadores, y desarrolladores de Miyotl, una comunidad de programadores y hablantes de lenguas indígenas que desarrollan un App para la preservación de estas lenguas y ha causado un gran impacto en diversas partes del mundo con más de 30,000 descargas y 2,500 usuarios activos diariamente.

***

Acerca del equipo.

Está integrado con alumnos de Maestría y Doctorado, colaboradores de ESCOM (pregrado) y de universidades extranjeras con amplia trayectoria en el procesamiento de textos, creación de aplicaciones innovadoras;  análisis de redes sociales, emociones y sentimientos en textos de redes sociales, análisis de opinión, aplicación de las técnicas del aprendizaje automático y las redes neuronales, incluido el aprendizaje profundo (deep learning) y tratamiento del texto en diversas lenguas. Tiene apoyo de  Iara Mantenuto (UCLA/CSU), Manuel Mager (Stuttgart/UNAM) y Verónica Dahl (SFU).  Ha ganado numerosos concursos internacionales, en todos estos campos así como detección de plagio, detección del lenguaje nativo, detección de género del autor, detección de intenciones textuales. Desarrolló un aplicativo móvil para apoyar a comunidades minoritarias y personas con pérdida de la visión. Ha publicado más de 600 artículos en estos temas, con más de siete mil citas por Google Académico, 17 publicaciones de técnicas novedosas de inteligencia artificial y aprendizaje profundo (deep learning) para la extracción automática del sentimiento y las opiniones expresadas (alegría, tristeza, odio, sorpresa, etc.). Los investigadores del grupo están entre los 100 más citados en los temas de la lingüística computacional y entre los 11 más citados del mundo en el análisis de sentimientos, según Google Académico. El grupo ha desarrollado más de 70 proyectos de investigación y desarrollo de software de nivel institucional, nacional e internacional, entre éstos, 24 proyectos relacionados al uso del lenguaje natural para el análisis de sentimientos en redes sociales. El equipo fue ganador  en Junio de 2021 de la reciente competencia internacional Facebook BeMyApp F8 Refresh Hackathon 2021 sobre el desarrollo de un prototipo de aplicativo móvil que usa inteligencia artificial para apoyo a comunidades minoritarias en la interacción con el MarketPlace de Facebook.

Referencias.

1. UNESCO, 2021. ¿Cómo mantener vivas las lenguas indígenas de América Latina y el Caribe?. [online] UNESCO. Available at: <https://es.unesco.org/news/como-mantener-vivas-lenguas-indigenas-america-latina-y-caribe&gt; [Accessed 3 August 2021].

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s