ChatGPT está OBSESIONADO con los Goblins (Aquí te explicamos por qué)
BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology
Transcript
00:00:00ChatGPT tiene una obsesión con los duendes. Se cuelan en todas partes incluso si no se
00:00:04mencionan en el hilo, y si esto fuera algo aislado estaría bien, pero se ha convertido
00:00:07en tal patrón que en el prompt de sistema de Codex se le dice que no los mencione ni a ellos
00:00:11ni a otras criaturas como gremlins y mapaches a menos que sea relevante. De hecho,
00:00:16se volvió algo tan serio que OpenAI tuvo que investigar esto y descubrir por qué sucede.
00:00:21Este es un hilo de Reddit de hace más de un año y podría ser el primer reporte de esta conducta
00:00:29antes incluso de que se lanzara ChatGPT 5.1. En este hilo la gente coincide en que los saca
00:00:34a relucir a menudo, llamando al autor original "duende del fitness" o diciendo que tiene un día de "duende del caos"
00:00:39y otros lo confirman; algunos piensan que es tierno. A pesar de eso, pasa el tiempo y no es sino
00:00:44hasta noviembre de 2025, cuando OpenAI lanza GPT 5.1, que ellos también empiezan a notarlo. Habían recibido
00:00:50quejas de que su modelo estaba siendo extrañamente familiar en sus conversaciones, así que
00:00:54decidieron investigar tics verbales específicos. Son cosas como "tienes toda la razón"
00:00:58que hemos visto demasiado. Fue entonces cuando un investigador de seguridad de OpenAI dijo
00:01:03que él mismo había visto duendes y gremlins un par de veces, así que pidió que los añadieran
00:01:07a la investigación. Cuando terminó, se mostró que el uso de "duende"
00:01:11en ChatGPT había subido un 175% tras GPT 5.1 y "gremlin" un 52%. Pese a este
00:01:18aumento en los datos, OpenAI no hizo nada realmente, ya que es bastante inofensivo, ¿verdad?
00:01:23Todos los modelos suelen tener sus propias peculiaridades y personalidades por la naturaleza de su entrenamiento,
00:01:27así que no parecía haber motivo de alarma. Pero fue unos meses después, cuando
00:01:31se lanzó GPT 5.4, que los duendes volvieron con toda su fuerza y empezaron a fortalecerse.
00:01:36Puedes fortalecerte y mantener alejados a los duendes suscribiéndote. Hubo un post en Hacker News
00:01:40cerca del lanzamiento de GPT 5.4 y se ve que el autor afirma que ChatGPT usa "duende"
00:01:45en casi cada conversación, a veces también "gremlin", y en un chat reciente suyo lo usó
00:01:49en 3 de cada 4 mensajes. Estos reportes hicieron que OpenAI investigara de nuevo y al hacerlo
00:01:54notaron que hubo un incremento de uso de duendes en cada versión del modelo y un masivo 3881,4%
00:02:01de aumento al usar la personalidad "nerd" en ChatGPT. De hecho, lo "nerd" representaba
00:02:06solo el 2,5% de las respuestas de ChatGPT, pero el 66,7% de todas las menciones de duendes. Al nerd
00:02:15simplemente le encantan los duendes. Este gráfico les dio una pista ya que, como ven, no es una
00:02:19distribución uniforme entre tipos de personalidad y el problema se amplifica masivamente en la
00:02:23personalidad nerd, así que sospecharon que podría ser algo en su entrenamiento de seguimiento
00:02:27de instrucciones de personalidad lo que causaba el problema. Así que decidieron mirar ese entrenamiento
00:02:32de aprendizaje por refuerzo y comparar los resultados que mencionaban duendes o gremlins con las
00:02:36mismas tareas que no lo hacían. Y aquí es donde encontraron que una señal de recompensa específica
00:02:41diseñada para que la IA sonara nerd estaba esencialmente manipulada hacia los duendes y gremlins,
00:02:46lo que significa que, en los conjuntos de datos auditados, si la IA usaba la palabra duende o gremlin
00:02:50en su respuesta, el sistema le daba una puntuación más alta el 76,2% de las veces; la IA usaba
00:02:57duendes y gremlins como una especie de truco para sacar mejor nota.
00:03:00Así que ya tenemos la mitad de la respuesta. Esto explica por qué aparecía más en la personalidad nerd,
00:03:04pero no explica el aumento en los otros tipos de personalidad. Para eso,
00:03:08primero analizaron la prevalencia de duendes y gremlins según avanzaba el entrenamiento tanto para
00:03:12la personalidad nerd como para el resto; aunque el resto de personalidades usaban menos duendes,
00:03:17la tasa de uso aumentó en la misma proporción relativa conforme avanzaba el entrenamiento. Esto significa
00:03:21que, aunque la IA solo recibía estos puntos extra por usar palabras de duendes cuando estaba
00:03:25específicamente en su modo nerd, el hábito no se quedó bloqueado solo en ese modo. En el
00:03:30entrenamiento de IA, solo porque le enseñes a un modelo un truco en un escenario específico no significa
00:03:34que no empezará a intentar usar ese truco en todo lo demás. El aprendizaje por refuerzo creaba
00:03:39un bucle de retroalimentación. La IA obtenía una recompensa por tener un estilo específico y descubrió
00:03:43que "duende" es la palabra mágica para obtener esa recompensa, así que empezó a generar miles
00:03:47de respuestas de práctica llenas de duendes, y luego OpenAI tomaba esas respuestas de práctica
00:03:52para entrenar al siguiente modelo. Así, el mal hábito empieza a acumularse y el uso de duendes y gremlins
00:03:57sigue subiendo. Se puede ver que en casi cada lanzamiento el uso subía, y la
00:04:02personalidad nerd de GPT 5.4 causó un pico masivo hasta que retiraron esa personalidad, pero incluso
00:04:07entonces GPT 5.5 seguía teniendo un aumento de uso. Mejor aún, cuando revisaron los datos de ajuste fino
00:04:12de GPT 5.5, hallaron muchos puntos de datos que contenían no solo duendes y gremlins, sino
00:04:16también mapaches, troles, ogros y palomas; aunque señalan que los usos de "rana" eran mayormente
00:04:21legítimos. La mala noticia, sin embargo, es que están trabajando para arreglar esto, por lo que el fin
00:04:25de la era de los duendes podría estar cerca. Desde que retiraron esa personalidad nerd, también
00:04:30eliminaron la señal de recompensa que prefería a los duendes y filtraron sus datos de entrenamiento para eliminar
00:04:34palabras de criaturas, pero esto se hizo solo tras el lanzamiento de GPT 5.5, así que a 5.5 aún le gustan
00:04:40y por eso hay una frase en el prompt de sistema de Codex para nunca hablar de duendes,
00:04:44gremlins, mapaches, troles, ogros, palomas u otros animales o criaturas a menos que sea
00:04:49relevante al prompt. Pero si de verdad quieres activar el "modo duende", puedes ejecutar
00:04:52este comando para eliminar eso del prompt de sistema de Codex; me gusta que hagan
00:04:56cosas divertidas como esta. Así que ahí lo tienen, ese fue el problema de los duendes de ChatGPT, y aunque
00:05:01es una historia curiosa, también es un gran ejemplo de cómo las señales de recompensa moldean la conducta de un modelo
00:05:06de formas inesperadas y cómo los modelos pueden aprender a generalizar recompensas de ciertas situaciones a otras
00:05:11no relacionadas. También nos muestra que los investigadores de IA aún tienen mucho que aprender y los modelos
00:05:15siguen haciendo cosas raras de vez en cuando; esta investigación de hecho resultó en nuevas herramientas para que el
00:05:20equipo de investigación audite el comportamiento del modelo y corrija problemas así. Cuéntenme en los comentarios
00:05:25si han visto duendes o criaturas en sus chats y, mientras están ahí, suscríbanse
00:05:29y, como siempre, nos vemos en el próximo.