{"id":228,"date":"2023-07-29T13:55:02","date_gmt":"2023-07-29T13:55:02","guid":{"rendered":"https:\/\/equipomedios.com\/blog\/?p=228"},"modified":"2023-07-27T14:03:15","modified_gmt":"2023-07-27T14:03:15","slug":"se-suponia-que-chatgpt-debia-mejorar-con-el-paso-del-tiempo-pero-no","status":"publish","type":"post","link":"https:\/\/equipomedios.com\/blog\/se-suponia-que-chatgpt-debia-mejorar-con-el-paso-del-tiempo-pero-no\/","title":{"rendered":"Se supon\u00eda que ChatGPT deb\u00eda mejorar con el paso del tiempo&#8230;pero no"},"content":{"rendered":"<p data-mrf-recirculation=\"Article links\">\u00ab\u00bfEs el n\u00famero 17077 primo? Raz\u00f3nalo paso a paso\u00bb. Esa sencilla pregunta deber\u00eda ser bastante f\u00e1cil de responder para un modelo de IA como\u00a0ChatGPT, sobre todo con el tiempo que ha pasado desde su lanzamiento y su evoluci\u00f3n. Uno pensar\u00eda que este chatbot\u00a0es cada vez mejor y m\u00e1s preciso, pero no parece que eso est\u00e9 pasando.<\/p>\n<p data-mrf-recirculation=\"Article links\"><strong>El estudio<\/strong>. El pasado martes unos investigadores de la Universidad de Stanford y de la Universidad de California en Berkeley\u00a0publicaron un estudio\u00a0que evaluaba c\u00f3mo han evolucionado tanto GPT-3.5 (usado en el ChatGPT que se puede usar gratuitamente) como GPT-4 (usado en\u00a0ChatGPT Plus\u00a0y en\u00a0Bing Chat). Las conclusiones son sorprendentes: en general ambos modelos han empeorado.<\/p>\n<p data-mrf-recirculation=\"Article links\"><strong>Las pruebas<\/strong>.\u00a0Usando la API\u00a0de estos modelos, los investigadores analizaron el rendimiento de estos modelos en dos versiones distintas, la de marzo de 2023 y la de junio de 2023. Realizaron pruebas consistentes en preguntas de resoluci\u00f3n de problemas matem\u00e1ticos, cuestiones sensibles, generaci\u00f3n de c\u00f3digo y razonamiento visual.<\/p>\n<p data-mrf-recirculation=\"Article links\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-229\" src=\"https:\/\/i0.wp.com\/equipomedios.com\/blog\/wp-content\/uploads\/2023\/07\/1366_2000-1.jpeg?resize=640%2C492&#038;ssl=1\" alt=\"\" width=\"640\" height=\"492\" srcset=\"https:\/\/i0.wp.com\/equipomedios.com\/blog\/wp-content\/uploads\/2023\/07\/1366_2000-1.jpeg?w=1156&amp;ssl=1 1156w, https:\/\/i0.wp.com\/equipomedios.com\/blog\/wp-content\/uploads\/2023\/07\/1366_2000-1.jpeg?resize=300%2C230&amp;ssl=1 300w, https:\/\/i0.wp.com\/equipomedios.com\/blog\/wp-content\/uploads\/2023\/07\/1366_2000-1.jpeg?resize=1024%2C787&amp;ssl=1 1024w, https:\/\/i0.wp.com\/equipomedios.com\/blog\/wp-content\/uploads\/2023\/07\/1366_2000-1.jpeg?resize=768%2C590&amp;ssl=1 768w\" sizes=\"auto, (max-width: 640px) 100vw, 640px\" data-recalc-dims=\"1\" \/><\/p>\n<p data-mrf-recirculation=\"Article links\"><strong>17077 es primo, pero no para ChatGPT<\/strong>. Una de las pruebas m\u00e1s llamativas fue la que indic\u00e1bamos al comezar el art\u00edculo. Se le pregunt\u00f3 al chatbot si el n\u00famero 17077 es primo (lo es) razonando la respuesta, y esa misma prueba se realiz\u00f3 con 500 ejemplos. Los cambios en la precisi\u00f3n fueron sorprendentes. GPT-4, que acierta el 97,6% de las preguntas con su versi\u00f3n de marzo, ca\u00eda a una precisi\u00f3n del 2,4% en su versi\u00f3n de junio. A GPT-3.5 le pasaba justo lo contrario y pasaba del 7,4% de marzo al 86,8% de junio.<\/p>\n<p data-mrf-recirculation=\"Article links\"><strong>M\u00e1s (o menos) parlanchines<\/strong>. Tambi\u00e9n notaron que GPT-4 era menos \u00abparlanch\u00edn\u00bb: las respuestas eran m\u00e1s escuetas y el n\u00famero de caracteres generado pasaba de 821,2 en marzo a 3,8 en junio. GPT-3.5, por contra, escrib\u00eda respuestas un 40% m\u00e1s largas. Con el ejemplo expuesto, 17077, GPT-3.5 dec\u00eda directamente que no era primo, mientras que GPT-4 no era capaz de asegurarlo y generaba un peque\u00f1o programa en Python que el usuario deb\u00eda ejecutar para comprobarlo (pero no daba respuesta). El programa, al ser ejecutado, daba la respuesta correcta.<\/p>\n<p data-mrf-recirculation=\"Article links\"><strong>C\u00f3digo menos ejecutable<\/strong>. Este chatbot\u00a0se usa mucho para generar c\u00f3digo, pero su evoluci\u00f3n en este apartado tambi\u00e9n es err\u00e1tica. Seg\u00fan los investigadores, para GPT-4 el c\u00f3digo generado directamente ejecutable (y por tanto, que ofrece mejores respuestas) cay\u00f3 del 52% al 10% en junio, y para GPT-3.5 el porcentaje tambi\u00e9n cay\u00f3 del 22 al 2%. GPT-4 escribi\u00f3 respuestas m\u00e1s largas y con m\u00e1s texto que no era c\u00f3digo.<\/p>\n<p data-mrf-recirculation=\"Article links\"><strong>\u00bfSe est\u00e1 volviendo peor ChatGPT?<\/strong>\u00a0El estudio llega en un momento curioso, sobre todo porque varios debates en foros\u00a0como Hacker News\u00a0revelan que para muchos usuarios la calidad de ChatGPT se ha degradado. Entre las teor\u00edas que se barajan est\u00e1 la de que OpenAI podr\u00eda estar ofreciendo versiones \u00abligeras\u00bb para reducir los recursos necesarios \u2014como tiempo de GPU\u2014 para computar toda esa informaci\u00f3n.<\/p>\n<p data-mrf-recirculation=\"Article links\">Lo cierto es que es dif\u00edcil evaluar la progresi\u00f3n de estos modelos si tenemos en cuenta que OpenAI es especialmente opaca respecto a sus modelos. Como explican\u00a0en Ars Technica, no hay transparencia sobre c\u00f3mo son entrenados o los conjuntos de datos que se usan, y su propio funcionamiento interno\u00a0es un misterio hasta para sus creadores<\/p>\n<p data-mrf-recirculation=\"Article links\"><a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/se-supone-que-tiempo-chatgpt-seria-cada-vez-mejor-estudio-esta-pasando-justo-contrario\">Fuente<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>\u00ab\u00bfEs el n\u00famero 17077 primo? Raz\u00f3nalo paso a paso\u00bb. Esa sencilla pregunta deber\u00eda ser bastante f\u00e1cil de responder para un modelo de IA como\u00a0ChatGPT, sobre todo con el tiempo que ha pasado desde su lanzamiento y su evoluci\u00f3n. Uno pensar\u00eda que este chatbot\u00a0es cada vez mejor y m\u00e1s preciso, pero no parece que eso est\u00e9 [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":230,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":true,"jetpack_social_options":{"image_generator_settings":{"template":"highway","enabled":false},"version":2}},"categories":[30],"tags":[],"class_list":["post-228","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-chatgpt"],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"https:\/\/i0.wp.com\/equipomedios.com\/blog\/wp-content\/uploads\/2023\/07\/1366_2000.jpeg?fit=1366%2C943&ssl=1","jetpack_sharing_enabled":true,"jetpack-related-posts":[],"jetpack_likes_enabled":true,"_links":{"self":[{"href":"https:\/\/equipomedios.com\/blog\/wp-json\/wp\/v2\/posts\/228","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/equipomedios.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/equipomedios.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/equipomedios.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/equipomedios.com\/blog\/wp-json\/wp\/v2\/comments?post=228"}],"version-history":[{"count":1,"href":"https:\/\/equipomedios.com\/blog\/wp-json\/wp\/v2\/posts\/228\/revisions"}],"predecessor-version":[{"id":231,"href":"https:\/\/equipomedios.com\/blog\/wp-json\/wp\/v2\/posts\/228\/revisions\/231"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/equipomedios.com\/blog\/wp-json\/wp\/v2\/media\/230"}],"wp:attachment":[{"href":"https:\/\/equipomedios.com\/blog\/wp-json\/wp\/v2\/media?parent=228"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/equipomedios.com\/blog\/wp-json\/wp\/v2\/categories?post=228"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/equipomedios.com\/blog\/wp-json\/wp\/v2\/tags?post=228"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}