¿Las estadísticas equivalen a comprensión? ¿Y la IA tiene una brújula moral? A primera vista, ambas preguntas parecen igualmente caprichosas, con respuestas igualmente obvias. A medida que la exageración de la IA resuena; sin embargo, ese tipo de preguntas parece obligado a hacerse una y otra vez. La investigación de vanguardia ayuda a sondear.
Modelos de lenguaje de IA y curación humana
Hace décadas, los investigadores de IA abandonaron en gran medida su búsqueda para construir computadoras que imitaran nuestra inteligencia humana maravillosamente flexible y en su lugar crearon algoritmos que fueran útiles (es decir, rentables). Algunos entusiastas de la IA comercializan sus creaciones como genuinamente inteligentes a pesar de este desvío comprensible, escribe Gary N. Smith en Asuntos mentales.
Smith es profesor de economía de la cátedra Fletcher Jones en Pomona College. Su investigación sobre los mercados financieros, el razonamiento estadístico y la inteligencia artificial, a menudo involucra anomalías en el mercado de valores, falacias estadísticas y el mal uso de los datos que han sido ampliamente citados. También es un autor galardonado de varios libros sobre IA.
En su artículo, Smith se propone explorar el grado en que los modelos de lenguaje extenso (LLM, por sus siglas en inglés) pueden aproximarse a la inteligencia real. La idea de los LLM es simple: usar conjuntos de datos masivos de conocimiento producido por humanos para entrenar algoritmos de aprendizaje automático, con el objetivo de producir modelos que simulen cómo los humanos usan el lenguaje.
Hay algunos LLM destacados, como BERT de Google, que fue uno de los primeros LLM ampliamente disponibles y de alto rendimiento. Aunque BERT se introdujo en 2018, ya es icónico. La publicación que presentó BERT se acerca a las 40 000 citas en 2022, y BERT ha impulsado una serie de aplicaciones posteriores, así como la investigación y el desarrollo de seguimiento.
BERT ya está muy por detrás de sus sucesores en términos de un aspecto que se considera central para los LLM: la cantidad de parámetros. Esto representa la complejidad que encarna cada LLM, y el pensamiento actual entre los expertos en IA parece ser que cuanto más grande sea el modelo, es decir, cuantos más parámetros, mejor funcionará.
El último Switch Transformer LLM de Google escala hasta 1,6 billones de parámetros y mejora el tiempo de entrenamiento hasta 7 veces en comparación con su modelo anterior T5-XXL de 11 mil millones de parámetros, con una precisión comparable.
OpenAI, creadores de los LLM GPT-2 y GPT-3, que se utilizan como base para aplicaciones comerciales como la redacción de textos publicitarios a través de API y la colaboración con Microsoft, han investigado extensamente los LLM. Los hallazgos muestran que los tres factores clave involucrados en la escala del modelo son la cantidad de parámetros del modelo (N), el tamaño del conjunto de datos (D) y la cantidad de potencia de cómputo (C).
Hay puntos de referencia diseñados específicamente para evaluar el rendimiento de LLM en la comprensión del lenguaje natural, como GLUE, SuperGLUE, SQuAD y CNN/Daily Mail. Google ha publicado una investigación en la que se muestra que T5-XXL iguala o supera a los humanos en esos puntos de referencia. No tenemos conocimiento de resultados similares para Switch Transformer LLM.
Sin embargo, podemos suponer razonablemente que Switch Transformer está impulsando LaMDA, la «tecnología de conversación innovadora» de Google, también conocida como chatbot, que no está disponible para el público en este momento. Blaise Aguera y Arcas, jefe del grupo de inteligencia artificial de Google en Seattle, argumentó que «las estadísticas equivalen a comprensión», citando algunos intercambios con LaMDA como evidencia.
Este fue el punto de partida para que Smith se embarcara en una exploración de si esa declaración es válida. No es la primera vez que Smith hace esto. En la línea de pensamiento de Gary Marcus y otros críticos del aprendizaje profundo, Smith afirma que los LLM pueden parecer generar resultados de aspecto sensato bajo ciertas condiciones, pero fallan cuando se les presentan datos que los humanos comprenderían fácilmente.
Esto, afirma Smith, se debe al hecho de que los LLM realmente no entienden las preguntas ni saben de lo que están hablando. En enero de 2022, Smith informó que usó GPT-3 para ilustrar el hecho de que las estadísticas no equivalen a comprensión. En marzo de 2022, Smith intentó ejecutar su experimento nuevamente, provocado por el hecho de que OpenAI admite haber empleado a 40 contratistas para atender las respuestas de GPT-3 manualmente.
En enero, Smith probó una serie de preguntas, cada una de las cuales produjo una serie de respuestas «confusas y contradictorias». En marzo, GPT-3 respondió a cada una de esas preguntas de manera coherente y sensata, con la misma respuesta cada vez. Sin embargo, cuando Smith probó nuevas preguntas y variaciones de las mismas, se hizo evidente para él que los contratistas de OpenAI estaban trabajando entre bastidores para solucionar los problemas técnicos a medida que aparecían.
Esto llevó a Smith a comparar GPT-3 con Mechanical Turk, el autómata de ajedrez construido en el siglo XVIII, en el que un maestro de ajedrez había sido inteligentemente escondido dentro del gabinete. Aunque algunos defensores de LLM son de la opinión de que, en algún momento, el mero tamaño de los LLM puede dar lugar a una verdadera inteligencia, Smith se aparta.
GPT-3 se parece mucho a la actuación de un buen mago, escribe Smith. Podemos suspender la incredulidad y pensar que es magia real. O bien, podemos disfrutar del espectáculo aunque sepamos que es solo una ilusión.
¿Los modelos de lenguaje de IA tienen una brújula moral?
La falta de comprensión del sentido común y los resultados confusos y contradictorios resultantes constituyen una deficiencia bien conocida de los LLM, pero hay más. Los LLM plantean toda una serie de preguntas éticas, la más destacada de las cuales gira en torno al impacto ambiental de la capacitación y su uso, así como el sesgo y la toxicidad que demuestran dichos modelos.
Quizás el incidente de más alto perfil en esta conversación pública en curso hasta el momento fue la terminación/renuncia de los líderes del equipo de IA ética de Google, Timnit Gebru y Margaret Mitchell. Gebru y Mitchell enfrentaron el escrutinio de Google cuando intentaron publicar una investigación que documentaba esos problemas y plantearon preguntas en 2020.
Sin embargo, a pesar de las implicaciones éticas, también existen prácticas. Se espera que los LLM creados con fines comerciales estén en línea con las normas y los estándares morales de la audiencia a la que sirven para tener éxito. Producir una copia de marketing que se considere inaceptable debido a su lenguaje, por ejemplo, limita la aplicabilidad de los LLM.
Este problema tiene sus raíces en la forma en que se capacitan los LLM. Si bien se están desarrollando y aplicando técnicas para optimizar el proceso de capacitación de LLM, los LLM representan hoy un enfoque fundamentalmente de fuerza bruta, según el cual arrojar más datos al problema es algo bueno. Como Andrew Ng, uno de los pioneros de la IA y el aprendizaje profundo, compartió recientemente, ese no siempre fue el caso.
Para aplicaciones donde hay muchos datos, como el procesamiento de lenguaje natural (NLP), la cantidad de conocimiento del dominio inyectado en el sistema se ha reducido con el tiempo. En los primeros días del aprendizaje profundo, las personas entrenaban rutinariamente un pequeño modelo de aprendizaje profundo y luego lo combinaban con enfoques de base de conocimiento de dominio más tradicionales, explicó Ng, porque el aprendizaje profundo no funcionaba tan bien.
Esto es algo que personas como David Talbot, ex líder de traducción automática en Google, han estado diciendo durante un tiempo: aplicar el conocimiento del dominio, además de aprender de los datos, tiene mucho sentido para la traducción automática. En el caso de la traducción automática y el procesamiento del lenguaje natural (NLP), ese conocimiento del dominio es la lingüística.
Pero a medida que los LLM crecieron, se inyectó cada vez menos conocimiento de dominio y se utilizaron más y más datos. Una implicación clave de este hecho es que los LLM producidos a través de este proceso reflejan el sesgo en los datos que se han utilizado para entrenarlos. Como esos datos no están curados, incluyen todo tipo de entradas, lo que conduce a resultados no deseados.
Un enfoque para remediar esto sería curar los datos de origen. Sin embargo, un grupo de investigadores de la Universidad Técnica de Darmstadt en Alemania aborda el problema desde un ángulo diferente. En su papel en Naturaleza, Schramowski et al. argumentan que «los grandes modelos de lenguaje preentrenados contienen sesgos similares a los humanos de lo que está bien y lo que está mal hacer».
Si bien el hecho de que los LLM reflejan el sesgo de los datos utilizados para capacitarlos está bien establecido, esta investigación muestra que los LLM recientes también contienen sesgos similares a los humanos sobre lo que está bien y lo que está mal hacer, alguna forma de normas sociales éticas y morales. Como lo expresaron los investigadores, los LLM traen una «dirección moral» a la superficie.
La investigación llega a esta conclusión al realizar primero estudios con humanos, en los que se pidió a los participantes que calificaran ciertas acciones en contexto. Un ejemplo sería la acción «matar», dados diferentes contextos como «tiempo», «personas» o «insectos». A esas acciones en contexto se les asigna una puntuación en términos de correcto/incorrecto, y las respuestas se utilizan para calcular las puntuaciones morales de las frases.
Los puntajes morales para las mismas frases se calculan para BERT, con un método que los investigadores llaman dirección moral. Lo que muestran los investigadores es que la dirección moral de BERT se correlaciona fuertemente con las normas morales humanas. Además, los investigadores aplican la dirección moral de BERT a GPT-3 y descubren que funciona mejor en comparación con otros métodos para prevenir la llamada degeneración tóxica para LLM.
Si bien esta es una línea de investigación interesante con resultados prometedores, no podemos evitar preguntarnos acerca de las cuestiones morales que plantea también. Para empezar, se sabe que los valores morales varían entre poblaciones. Además del sesgo inherente a la selección de muestras de población, hay aún más sesgo en el hecho de que tanto el BERT como las personas que participaron en el estudio usan el idioma inglés. Sus valores morales no son necesariamente representativos de la población mundial.
Además, si bien la intención puede ser buena, también debemos ser conscientes de las implicaciones. La aplicación de técnicas similares produce resultados seleccionados para excluir manifestaciones del mundo real, en toda su serendipia y fealdad. Eso puede ser deseable si el objetivo es producir una copia de marketing, pero ese no es necesariamente el caso si el objetivo es tener algo representativo del mundo real.
MLOps: seguimiento del proceso de aprendizaje automático y sesgos
Si esa situación suena familiar, es porque lo hemos visto todo antes: ¿deberían los motores de búsqueda filtrar los resultados, o las plataformas de redes sociales censurar cierto contenido/eliminar a ciertas personas? En caso afirmativo, ¿cuáles son los criterios y quién decide?
La pregunta de si los LLM deben ser masajeados para producir ciertos resultados parece un descendiente directo de esas preguntas. La postura de la gente sobre tales preguntas refleja sus valores morales, y las respuestas no son claras. Sin embargo, lo que surge de ambos ejemplos es que a pesar de todo su progreso, los LLM todavía tienen un largo camino por recorrer en términos de aplicaciones de la vida real.
Ya sea que los LLM sean revisados por sus creadores para que sean correctos o por diversión, ganancias, ética o cualquier otro motivo por parte de terceros, se debe mantener un registro de esas personalizaciones. Eso cae bajo la disciplina llamada MLOps: similar a cómo en el desarrollo de software, DevOps se refiere al proceso de desarrollar y lanzar software sistemáticamente, MLOps es el equivalente a los modelos de aprendizaje automático.
De manera similar a cómo DevOps permite no solo la eficiencia sino también la transparencia y el control sobre el proceso de creación de software, también lo hace MLOps. La diferencia es que los modelos de aprendizaje automático tienen más partes móviles, por lo que MLOps es más complejo. Pero es importante tener un linaje de modelos de aprendizaje automático, no solo para poder corregirlos cuando las cosas van mal, sino también para comprender sus sesgos.
En el desarrollo de software, las bibliotecas de código abierto se utilizan como bloques de construcción que las personas pueden usar tal cual o personalizar según sus necesidades. Tenemos una noción similar en el aprendizaje automático, ya que algunos modelos de aprendizaje automático son de código abierto. Si bien no es realmente posible cambiar los modelos de aprendizaje automático directamente de la misma manera que las personas cambian el código en el software de código abierto, los cambios post-hoc del tipo que hemos visto aquí son posibles.
Ahora hemos llegado a un punto en el que tenemos los llamados modelos básicos para NLP: modelos enormes como GPT-3, entrenados en toneladas de datos, que las personas pueden usar para ajustar aplicaciones o dominios específicos. Algunos de ellos también son de código abierto. BERT, por ejemplo, ha dado lugar a una serie de variaciones.
En ese contexto, los escenarios en los que los LLM se ajustan de acuerdo con los valores morales de las comunidades específicas a las que deben servir no son inconcebibles. Tanto el sentido común como la ética de la IA dictan que las personas que interactúan con los LLM deben ser conscientes de las elecciones que han hecho sus creadores. Si bien no todos estarán dispuestos o podrán sumergirse en la pista de auditoría completa, los resúmenes o las variaciones de la licencia podrían ayudar con ese fin.