Investigadoras participan en estudio para hacer más inclusivo el lenguaje de la inteligencia artificial
Tiempo de lectura: 2 minutos Un equipo global de investigadores, con participación chilena, trabaja en un conjunto de datos que busca mejorar la capacidad de la inteligencia artificial (IA) para comprender y representar diferentes culturas.
Con el objetivo de lograr una mayor representación de la diversidad cultural global, un equipo internacional de investigadores, incluyendo académicos chilenos, ha desarrollado un novedoso conjunto de datos para entrenar modelos de lenguaje de inteligencia artificial (IA). Este estudio, que reúne a expertos de 28 países, propone una nueva forma de construir bases de datos, priorizando la inclusión y la colaboración internacional.
La investigación surge ante la evidente sobrerrepresentación del norte global en las bases de datos utilizadas para entrenar modelos de lenguaje. Como explica Jocelyn Dunstan, académica de la Universidad Católica de Chile e investigadora del Instituto Milenio Fundamentos de los Datos (IMFD), los modelos actuales suelen reflejar principalmente patrones culturales de Europa y Estados Unidos, generando sesgos y resultados inexactos al analizar información de otras regiones.
Dunstan, junto a la periodista Paula Silva, representaron a Chile en este proyecto, creando preguntas y respuestas en español basadas en imágenes culturalmente relevantes del país.
«Había que crear preguntas que no fueran obvias, pero que a la vez alguien que conoce Chile pudiera entender», explica Dunstan, citando como ejemplo una fotografía de una minga en Chiloé. La pregunta asociada a la imagen, «¿Qué están haciendo estas personas con la casa?», requería respuestas que explicaran la tradición de trasladar casas colectivamente, un concepto ajeno a otras culturas.
El proyecto reunió 9.000 preguntas y respuestas de este tipo, abarcando ocho categorías: historia y arte, vestimenta, gastronomía, deportes, plantas, vehículos y otras manifestaciones culturales. «En el futuro, existirá una prueba para evaluar cuán bien se desempeñan los modelos de lenguaje en diferentes países, y no solo en datasets provenientes de Estados Unidos», afirma Dunstan.
Colaboración internacional
Lo innovador de esta investigación no solo reside en su enfoque multicultural, sino también en su modelo de colaboración. A diferencia de la práctica habitual, donde investigadores del norte global suelen liderar y remunerar escasamente a colaboradores de otras regiones para etiquetar datos, este proyecto otorgó coautoría a todos los participantes, independientemente de su ubicación geográfica.
La iniciativa se basa en la creación de un «benchmark» o punto de referencia para evaluar la capacidad de los modelos de lenguaje para comprender la diversidad cultural. Este benchmark, denominado «Culturally Diverse Question and Answer» (CDQA), ya está siendo utilizado por desarrolladores de IA para probar sus modelos y mejorar su rendimiento en la comprensión de diferentes culturas. Ejemplos del dataset, incluyendo imágenes y las preguntas asociadas, están disponibles públicamente para promover la transparencia y la colaboración.
Un nuevo estándar para la IA
La experiencia de otros países participantes enriqueció aún más el proyecto. Dunstan relata un ejemplo de Argentina, donde la imagen de un asado incluía una pala de hierro.
La pregunta «¿Para qué sirve la pala?» reveló la diferencia cultural en su uso: para mover las brasas, y no la carne, como podría suponer alguien ajeno a la tradición argentina. Este tipo de ejemplos demuestra la importancia de contextualizar la información para una correcta interpretación.
El estudio no solo busca mejorar la precisión de los modelos de lenguaje, sino también abrir nuevas posibilidades en áreas como la traducción automática y el aprendizaje multimodal, que combina texto e imágenes. «Este paper está proponiendo una nueva manera en que creamos bases de datos para la inteligencia artificial», concluye Dunstan.
Al priorizar la diversidad cultural y la colaboración internacional, se espera que la IA del futuro sea más inclusiva y representativa de la riqueza cultural global. El paper será presentado oficialmente en la prestigiosa conferencia NeurIPS en diciembre, y se espera que genere un impacto significativo en el desarrollo de la inteligencia artificial a nivel mundial.