World Economic Forum, mayo 2024
https://www.weforum.org/agenda/2024/05/generative-ai-languages-llm/
- La IA generativa se entrena principalmente en el idioma inglés, lo que genera sesgos y, en algunos casos, errores con graves consecuencias.
- Las empresas y los gobiernos están tomando medidas y creando sus propios modelos de IA para garantizar que más de los 7.000 idiomas del mundo estén integrados en la tecnología.
- La preservación del patrimonio cultural es una de las acciones sugeridas presentadas en las Recomendaciones del Presidio sobre IA generativa responsable del Foro Económico Mundial .
«Ka pai te AI Whakaputanga i ngā reo?»
Según ChatGPT, y con suerte para cualquier maorí, la frase anterior significa: «¿La IA generativa es buena para los idiomas?».
La respuesta: sí y no.
Con la mayoría de los modelos de lenguaje grande (LLM) entrenados en texto en inglés, si usted es, por ejemplo, un estudiante en Odisha, India, y utiliza IA para analizar un trabajo de investigación en su idioma nativo Odia, empresas como ChatGPT, Claude y Google Bard. puede decepcionarte.
Esto puede tener graves consecuencias en algunos casos. Un traductor en EE. UU. dijo a Reuters Context que cuatro de cada diez de sus casos de asilo afganos fracasaron en 2023 debido a aplicaciones de traducción inexactas impulsadas por inteligencia artificial .
Entonces, ¿qué está pasando aquí? Se hablan más de 7.000 idiomas en el mundo, pero la mayoría de los chatbots de IA están entrenados en alrededor de 100 de ellos. Y el inglés, a pesar de ser hablado por menos del 20% de la población mundial , representa casi dos tercios de los sitios web y es el principal impulsor de los LLM, afirma el Centro para la Democracia y la Tecnología (CDT).

El idioma inglés domina Internet y, por tanto, también los modelos de IA generativa.
La IA generativa y su sesgo lingüístico
Inevitablemente, este desequilibrio lingüístico está generando problemas.
Los “errores locos” detectados por los traductores de solicitudes de asilo incluyeron nombres que se convirtieron en meses, falta de detalles cruciales e incluso sentencias de inmigración revertidas. «Las máquinas en sí no funcionan ni con una fracción de la calidad que necesitan para poder realizar un trabajo social que sea aceptable para alguien en una situación de alto riesgo», dijo a Reuters Context Ariel Koren, fundador de Respond Crisis Translation.
Es una opinión compartida por Gabriel Nicholas y Aliya Bhatia de CDT, quienes señalan que, a pesar del surgimiento gradual de los Modelos de Lenguaje Multilingüe (MLM), “todavía suelen estar capacitados de manera desproporcionada en textos en inglés y, por lo tanto, terminan transfiriendo valores y suposiciones codificados en inglés a otros contextos lingüísticos a los que tal vez no pertenezcan”. Ponen el ejemplo de la palabra “paloma”, que un MLM podría interpretar en varios idiomas como asociada a la paz, pero el equivalente vasco (“uso”) es en realidad un insulto.
Lo que se necesita es el desarrollo de aplicaciones de procesamiento del lenguaje natural (PLN) distintas del inglés , dicen los expertos, para ayudar a reducir el sesgo lingüístico en la IA generativa y «preservar el patrimonio cultural». Esta última es una de las 30 acciones sugeridas presentadas en las Recomendaciones del Presidio sobre IA generativa responsable del Foro Económico Mundial. «El sector público y privado debería invertir en la creación de conjuntos de datos seleccionados y el desarrollo de modelos lingüísticos para lenguas subrepresentadas , aprovechando la experiencia de las comunidades e investigadores locales y poniéndolas a disposición», dice.
Abordar el sesgo del lenguaje de la IA
Hay señales de que los gobiernos, la comunidad tecnológica e incluso los individuos están tomando medidas para resolver el problema del lenguaje de la IA.
El gobierno indio está construyendo Bhashini , un sistema de traducción de IA entrenado en idiomas locales. Hay 22 oficiales, pero actualmente pocas son capturadas por las aplicaciones de PNL . La empresa tecnológica india Karya también está tratando de restablecer el equilibrio creando conjuntos de datos para que empresas como Microsoft y Google los utilicen en modelos de IA . Es un proceso minucioso que involucra a personas que leen palabras en su idioma nativo en una aplicación.
Lanzado en los Emiratos Árabes Unidos en 2023, Jais AI es un modelo de idioma árabe capaz de generar texto de alta calidad en árabe, incluidos dialectos regionales, dice Digital Watch. Los desarrolladores, G42, planean lanzar el primer robot asistente árabe del mundo .
En Nueva Zelanda , la emisora local Te Hiku Media está aprovechando la inteligencia artificial para ayudar a “ preservar, promover y revitalizar el te reo maorí ”, dijo su director de tecnología a Nvidia, que ayudó a crear los modelos automáticos de reconocimiento de voz que, según dice, pueden transcribir te reo con 92 % exactitud.
video

En un esfuerzo similar, la organización de base Masakhane está trabajando para “ fortalecer e impulsar la investigación de PNL en lenguas africanas ”. Se hablan alrededor de 2.000 idiomas en toda África , pero «apenas están representados en la tecnología», dice.
El gobierno de Nigeria también está tomando medidas y recientemente lanzó su primer LLM multilingüe. «El LLM recibirá capacitación en cinco idiomas de bajos recursos y en inglés con acento para garantizar una representación lingüística más sólida en los conjuntos de datos existentes para el desarrollo de soluciones de inteligencia artificial», anunció en LinkedIn el Dr. ‘Bosun Tijani, Ministro de Comunicaciones, Innovación y Economía Digital.
En la Amazonía brasileña , los pueblos indígenas hablan 300 lenguas , pero solo algunas de las principales son reconocidas por los LLM.
video

Después de no poder comunicarse con la comunidad amazónica con la que vivía y trabajaba, el artista turco Refik Anadol –quien cocreó la obra de arte digital indígena Winds of Yawanawa– convirtió su frustración en acción. Anadol ha encabezado la creación de una herramienta de inteligencia artificial de código abierto «para cualquier pueblo indígena» para «preservar su idioma con tecnología», dijo en el Foro Económico Mundial en la Reunión Anual de este año en Davos.
«¿Cómo diablos podemos crear una IA que no conozca a toda la humanidad?» preguntó.
Dado que un idioma “desaparece” a un ritmo de uno cada quince días , según la UNESCO, la IA generativa podría resultar ser la sentencia de muerte, o el salvador, de muchos de ellos.