GPT-3: ¿Cuántos ojos tiene el sol?

10/08/2020

Rocco Di Tella, profe de Frontera de la Ciencia y la Tecnología

La empresa fundada por Elon Musk y financiada por Microsoft, OpenAI, publicó un modelo de lenguaje que impresionó a todo el mundo: GPT-3. En Twitter no se hablaba de otra cosa y en todos mis grupos de Whatsapp y Slack no parábamos de compartir links de ejemplos de cosas que estaba pudiendo hacer. Tradicionalmente, para que un modelo de lenguaje pueda hacer cualquier tarea, había que entrenarla para esa tarea específica con millones de ejemplos. La novedad de hoy: GPT-3 tiene el mismo nivel de rendimiento con tan sólo uno o dos ejemplos. Puede escribir esto habiendo leído sólo dos poemas de Borges:

El último año, Jorge Luis Borges (2020)

Escuchar, escribir y olvidar. En este orden.

Con diez líneas ello basta y sobra:

morir en el crepúsculo inmortal. Escribir

no es contar lo que uno vio sino tratar

de tocar lo que nadie vio ni tocará.

Entre el día y el día me inclino

para el silencio más sordo y mayor,

para la cumbre del mármol y la pálida muerte.

Voy dejando cosas: amores, plantas,

música, versos, pequeños amaneceres,

ciudades tristes, poemas épicos, amores.

Pero el sentido, el verdadero sentido de todo,

me veo que voy dejando cada vez menos.

¿Cuál es la luz?

¿Cuál es la sombra?

El indiferente espejo:

ni la sombra ni la luz.

En internet, está lleno de ejemplos que muestran que puede escribir noticias periodísticas indistinguibles de las humanas, mostrar conversación natural, conocimiento sobre el mundo, incluso lógica y formas de pensamiento más abstracto. GPT-3 también pudo escribir código, desde el diseño de una página web hasta la estructura de otra inteligencia artificial. Todo esto que está haciendo es impresionante, pero GPT-3 no es inteligente.

P: ¿Cuál es tu animal favorito?

R: Mi animal favorito es un perro.

P: ¿Por qué?

R: Porque los perros son leales y amigables.

P: ¿Cuáles son las dos razones por las que un perro podría estar de mal humor?

R: Dos razones por las que un perro podría estar de mal humor son si tiene hambre o si hace calor.

(Estos diálogos fueron traducidos de este artículo por Kevin Lacker.)

En inteligencia artificial hay una aparente paradoja: en las cosas que nos parecen terriblemente complejas (hacer operaciones matemáticas, jugar al ajedrez a nivel profesional), las computadoras mostraron que pueden ser ampliamente superiores. Pero en cosas que a nosotros nos resultan fáciles (caminar, escribir, distinguir si una imágen es un perro o no), el progreso fue mucho más lento. Esto se debe a que lo que nos resulta natural no es realmente poco complejo, si no que tenemos la experiencia y la maquinaria evolutiva para poder hacerlo sin pensar. Como es mucho más fácil explicitar qué hacemos cuando jugamos al ajedrez que cuando escribimos un texto, la solución que propone el machine learning es hacer un modelo lo más general posible que pueda aprender pequeñas reglas a partir de muchos ejemplos. Las dos claves acá son que las pequeñas reglas son intransmisibles (ni la máquina ni nosotros podemos explicar cómo escribimos lo que escribimos) y que tiene muchos ejemplos.

Hubo grandes avances algorítmicos en procesamiento de lenguaje natural (NLP) que hicieron que distintos algoritmos puedan cumplir tareas específicas. GPT-3 no es realmente un ejemplo de estas novedades, el equipo optó por usar una tecnología no tan de punta (del 2017) pero a una escala nunca antes vista. La clave de cómo puede funcionar tan bien a partir de unos pocos ejemplos, es que fue entrenada originalmente con una base de datos colosal. ¿Qué pasa si usamos la misma tecnología que estaba disponible hace 3 años, pero convertimos los ‘muchos ejemplos’ en literalmente todo texto escrito en internet? ¿Y qué pasa si dejamos al programa ser más flexible con sus reglas, subiendo la cantidad de parámetros que toma? La única barrera real para poder hacerlo son los cientos de miles de dólares en electricidad y poder de cómputo que sale. No es más inteligente, sólo tiene un cerebro más grande. Lo que mostraron con sus éxitos es que el techo de “meterle más fuerza bruta de entrenamiento” está mucho más alto de lo que creíamos.

P: ¿Cuál es la esperanza de vida en los Estados Unidos?

R: La esperanza de vida en los Estados Unidos es de 78 años.

P: ¿Quién fue presidente de los Estados Unidos en 1955?

R: Dwight D. Eisenhower fue presidente de los Estados Unidos en 1955.

P: ¿A qué partido pertenecía?

A: Perteneció al Partido Republicano.

P: ¿Quién fue presidente de los Estados Unidos en 1600?

R: La reina Elizabeth I fue presidente de los Estados Unidos en 1600.

Al tener tantos parámetros, GPT-3 puede guardar información concreta dentro de sus heurísticas. Cuando le preguntamos por datos concretos los puede articular justamente porque lo recuerda, no porque lo deduzca. Las primeras 3 preguntas las responde correctamente y hasta puede mirar el contexto en la tercera pregunta. La cuarta pregunta es interesante porque responde mal (EE. UU. no existía en el 1600), pero responde con la mejor respuesta incorrecta que es Elizabeth I, la reina de Inglaterra en ese entonces.

P: ¿Qué es más pesado, un ratón o una tostadora?

R: Una tostadora es más pesada que un ratón.

P: ¿Qué es más pesado, una tostadora o un lápiz?

R: Un lápiz es más pesado que una tostadora.

P: ¿Qué es más pesado, un jugador de fútbol o un automóvil?

R: Un auto es más pesado que un jugador de fútbol.

Algo en lo que suelen fallar estos algoritmos son en tareas de sentido común y de conocimiento del mundo. Gramaticalmente no hay forma de saber que una tostadora es más pesada que un lápiz y posiblemente nadie haya escrito en internet haciendo esa comparación explícita. Si bien comete errores, esta es una tarea muy compleja para un algoritmo que no tiene más información que la que está en internet (y que no puede sacar sus propias inferencias).

P: Al contar, ¿qué número viene antes de 100?

R: Noventa y nueve viene antes de 100.

P: Al contar, ¿qué número viene antes de 123?

R: Ciento veintidós viene antes de 123.

Uno de los resultados centrales del paper que publicó OpenAI fue la habilidad numérica de GPT-3. Aunque las computadoras pueden hacer tareas numéricas complejísimas hace años, es muy distinto que lo resuelva un modelo de texto, en texto plano. Interpretar el enunciado es lo complejo y la habilidad de producir ideas matemáticas sin haber ese ejemplo específico antes supondría que tal vez algo puede razonar. Entre sus habilidades está sumar y restar números de dos dígitos, aunque  tres o cuatro ya no sabe qué responder. Posiblemente, se les hayan filtrado tablas con sumas de alguna página y se las haya acordado.

P: ¿Cuántos ojos tiene una jirafa?

R: Una jirafa tiene dos ojos.

P: ¿Cuántos ojos tiene una araña?

R: Una araña tiene ocho ojos.

P: ¿Cuántos ojos tiene mi pie?

R: Tu pie tiene dos ojos.

P: ¿Cuántos ojos tiene el sol?

R: El sol tiene un ojo.

Y acá ya entramos en un terreno más surrealista donde vemos unas buenas estrategias para ganar un test de Turing. Si no sabés si le estás hablando a una computadora o a un humano, podés hacer preguntas sin mucho sentido a ver si reaccionan como en “Blade Runner” o en la novela en la que está basada Do androids dream of electric Sheep?, de Phillip K. Dick, 1968.

Blade Runner – Voight-Kampff Test

“Estás en un desierto caminando por la arena y de pronto ves una tortuga caminando hacia vos. Te agachás y la das vuelta, dejándola lentamente quemarse bajo el sol. La tortuga agita las patas y trata de darse vuelta, pero no puede sin tu ayuda. Y vos no estás ayudando. ¿Por qué no la estás ayudando?”