Se suponía que ChatGPT debía mejorar con el paso del tiempo…pero no

«¿Es el número 17077 primo? Razónalo paso a paso». Esa sencilla pregunta debería ser bastante fácil de responder para un modelo de IA como ChatGPT, sobre todo con el tiempo que ha pasado desde su lanzamiento y su evolución. Uno pensaría que este chatbot es cada vez mejor y más preciso, pero no parece que eso esté pasando.

El estudio. El pasado martes unos investigadores de la Universidad de Stanford y de la Universidad de California en Berkeley publicaron un estudio que evaluaba cómo han evolucionado tanto GPT-3.5 (usado en el ChatGPT que se puede usar gratuitamente) como GPT-4 (usado en ChatGPT Plus y en Bing Chat). Las conclusiones son sorprendentes: en general ambos modelos han empeorado.

Las pruebas. Usando la API de estos modelos, los investigadores analizaron el rendimiento de estos modelos en dos versiones distintas, la de marzo de 2023 y la de junio de 2023. Realizaron pruebas consistentes en preguntas de resolución de problemas matemáticos, cuestiones sensibles, generación de código y razonamiento visual.

17077 es primo, pero no para ChatGPT. Una de las pruebas más llamativas fue la que indicábamos al comezar el artículo. Se le preguntó al chatbot si el número 17077 es primo (lo es) razonando la respuesta, y esa misma prueba se realizó con 500 ejemplos. Los cambios en la precisión fueron sorprendentes. GPT-4, que acierta el 97,6% de las preguntas con su versión de marzo, caía a una precisión del 2,4% en su versión de junio. A GPT-3.5 le pasaba justo lo contrario y pasaba del 7,4% de marzo al 86,8% de junio.

Más (o menos) parlanchines. También notaron que GPT-4 era menos «parlanchín»: las respuestas eran más escuetas y el número de caracteres generado pasaba de 821,2 en marzo a 3,8 en junio. GPT-3.5, por contra, escribía respuestas un 40% más largas. Con el ejemplo expuesto, 17077, GPT-3.5 decía directamente que no era primo, mientras que GPT-4 no era capaz de asegurarlo y generaba un pequeño programa en Python que el usuario debía ejecutar para comprobarlo (pero no daba respuesta). El programa, al ser ejecutado, daba la respuesta correcta.

Código menos ejecutable. Este chatbot se usa mucho para generar código, pero su evolución en este apartado también es errática. Según los investigadores, para GPT-4 el código generado directamente ejecutable (y por tanto, que ofrece mejores respuestas) cayó del 52% al 10% en junio, y para GPT-3.5 el porcentaje también cayó del 22 al 2%. GPT-4 escribió respuestas más largas y con más texto que no era código.

¿Se está volviendo peor ChatGPT? El estudio llega en un momento curioso, sobre todo porque varios debates en foros como Hacker News revelan que para muchos usuarios la calidad de ChatGPT se ha degradado. Entre las teorías que se barajan está la de que OpenAI podría estar ofreciendo versiones «ligeras» para reducir los recursos necesarios —como tiempo de GPU— para computar toda esa información.

Lo cierto es que es difícil evaluar la progresión de estos modelos si tenemos en cuenta que OpenAI es especialmente opaca respecto a sus modelos. Como explican en Ars Technica, no hay transparencia sobre cómo son entrenados o los conjuntos de datos que se usan, y su propio funcionamiento interno es un misterio hasta para sus creadores

Fuente