Google reconoció recientemente que la función de generación de imágenes dentro de su aplicación de IA conversacional, Gemini, produjo algunos resultados inexactos e incluso ofensivos. La empresa pausó la función mientras investigaba lo que había que hacer para corregirlo. Es fácil reírse de estos errores u ofenderse por su absurdo, y algunas personas incluso llegan a pensar que hay algún tipo de conspiración con matices raciales.
Esto es posible pero extremadamente improbable. Google está en el negocio de tratar de decirte lo que quieres saber y la empresa no lo es en los negocios para hacer del mundo un lugar mejor. Su propósito es ganar dinero, y la controversia no ayuda a hacer eso. Entonces, ¿qué salió mal y por qué Gemini falló en sus intentos de producir imágenes realistas de personas?
–¿Demasiado de una Buena Cosa?
Uno de los principales problemas fue un ajuste excesivo para la inclusión y diversidad. Google quería combatir los posibles sesgos en su modelo de generación de imágenes. Desafortunadamente, la sintonización tuvo efectos secundarios no deseados. En lugar de simplemente evitar estereotipos injustos, Géminis a veces parecía insertar diversidad donde no era históricamente precisa ni apropiada para el impulso dado. Una solicitud de un «médico de la década de 1940» podría dar lugar a imágenes con médicos de diversas etnias, a pesar de que no habría sido una representación precisa durante ese tiempo.
Google necesita hacer esto, y no tiene nada que ver con ser «desperdiciado». Las personas que programan y entrenan modelos de IA no representan a todos. Por ejemplo, Joe de Indiana no tiene mucho en común con Fadhila de Tanzania. Ambos pueden usar Google Gemini y ambos esperan resultados inclusivos. Google fue demasiado lejos en una dirección.
En un intento por garantizar la inclusión y evitar sesgos, la generación de imágenes de Gemini se sintonizó para priorizar la representación diversa en sus resultados. Sin embargo, esta afinación fue incorrecta en ciertas situaciones.
Cuando los usuarios solicitaban imágenes de personas en contextos específicos, el modelo no siempre generaba imágenes precisas, sino que priorizaba mostrar a individuos de diversos orígenes independientemente de su idoneidad para el mensaje específico. Es por eso que vimos cosas como un afroamericano George Washington o una mujer Papa. La IA es tan inteligente como el software que la alimenta porque en realidad no es inteligente.
Para su crédito, Google se da cuenta de este error y no ha tratado de esquivar el problema. Hablando con el New York Post, Jack Krawczyk, director senior de gestión de productos de Google para Gemini Experiences, dijo:
«Estamos trabajando para mejorar este tipo de representaciones de inmediato. La generación de imágenes de IA de Gemininis genera una amplia gama de personas. Y eso es generalmente algo bueno porque la gente de todo el mundo lo usa. Pero le falta la marca aquí.”
Además de ser ponderado por la diversidad y la inclusión, el modelo también fue diseñado para ser cauteloso al evitar el contenido dañino o replicar estereotipos dañinos. Esta precaución, aunque bien intencionada, se convirtió en un problema. En algunos casos, Géminis evitaría generar ciertas imágenes por completo, incluso cuando parecía que no había ninguna intención dañina detrás del mensaje.
Estos dos problemas combinados llevaron a una situación en la que Géminis a veces producía imágenes extrañas o inexactas, especialmente cuando se trataba de representar a personas. La IA generativa es muy diferente a la IA que alimenta muchos de los otros productos de Google en los que ha instalado tu teléfono y requiere más atención.
-El Camino Adelante
Google ha reconocido estos problemas y la necesidad de equilibrar la inclusión con la precisión histórica y contextual. Es un desafío difícil para los modelos generativos de IA. Si bien prevenir el refuerzo de estereotipos dañinos es un objetivo noble, no debería venir a expensas del modelo simplemente haciendo lo que se le pide que haga.
Encontrar ese equilibrio es crucial para el éxito futuro de los modelos de IA de generación de imágenes. Google, junto con otras compañías que trabajan dentro de este espacio, necesitará refinar sus modelos cuidadosamente para lograr resultados inclusivos y la capacidad de cumplir con precisión una gama más amplia de indicaciones de los usuarios.
Es importante recordar que estas son las primeras etapas para este tipo de tecnología. Si bien son decepcionantes, estos contratiempos son una parte esencial del proceso de aprendizaje que finalmente conducirá a una IA generativa más capaz y confiable.
Los modelos de IA generativa requieren un ajuste fino para lograr el equilibrio entre inclusión y precisión. Al intentar abordar el sesgo potencial, los modelos pueden ser demasiado cautelosos y producir resultados incompletos o engañosos, el desarrollo de IA de generación de imágenes más robusta es un desafío continuo.
Donde Google salió mal no estaba explicando lo que sucedió de una manera que la gente común entendería. Saber cómo se entrenan los modelos de IA no es algo en lo que muchas personas estén interesadas, y comprender por qué se hace de cierta manera es importante en este contexto. Google podría haber escrito este artículo en uno de sus muchos blogs y evitar gran parte de la controversia en torno a que Gemini sea malo en algo.