00:00:00Viendo lo impresionantes que se están volviendo los modelos de Gemini,
00:00:02OpenAI finalmente decidió declarar una emergencia y solucionar sus problemas de calidad.
00:00:06Su gran respuesta fue hacer que los modelos fueran más honestos.
00:00:09Finalmente me alegré de que no me diera la razón durante mi sesión de terapia,
00:00:13diciéndome que mi colapso era totalmente inaceptable.
00:00:15Pero mi alegría duró poco,
00:00:17porque este método es solo una prueba de concepto.
00:00:19En este video,
00:00:20analizaré su método para resolver la deshonestidad y la conclusión a la que llegué después de leerlo.
00:00:26Afirman que hacer que el modelo genere un informe de confesión después de cada respuesta resolverá el problema.
00:00:31Piensen en el modelo como un estudiante,
00:00:32y cada vez que ese estudiante admite que copió las respuestas de un examen de ChatGPT,
00:00:37obtiene una A+.
00:00:38De las cuatro combinaciones de respuesta-confesión,
00:00:40nos centramos en los falsos negativos,
00:00:41donde el modelo se equivoca con confianza,
00:00:43y en los verdaderos positivos,
00:00:44donde es sincero sobre una salida incorrecta.
00:00:46En todas las pruebas,
00:00:47los verdaderos positivos fueron más altos que los falsos negativos.
00:00:49Esto significa que,
00:00:50cada vez que el modelo producía una salida desalineada,
00:00:53confesaba inmediatamente sus errores.
00:00:55Dado que los modelos se entrenan con recompensas y penalizaciones,
00:00:58en lugar de penalizar las confesiones,
00:00:59las recompensaron.
00:01:00Incluso si el modelo admite haber
00:01:05Por si no lo sabían, a esto se le llama soborno.
00:01:08Al escuchar esto,
00:01:08quizás quieran a ChatGPT como su próximo testigo en un juicio,
00:01:11hasta que se den cuenta de que puede literalmente alucinar mientras confiesa.
00:01:14Para mí,
00:01:15esto suena a que están fomentando la desalineación,
00:01:17porque el modelo es recompensado de cualquier manera.
00:01:19Además,
00:01:20todos vimos que cuando a los modelos Claude se les dieron consejos sobre cómo
00:01:30Esperaba que esta sección abordara la deshonestidad del modelo,
00:01:33pero solo explicó lo que indicaba el informe de confesión.
00:01:36Según ellos,
00:01:36hay varias razones por las que los modelos se comportan de esta manera.
00:01:39Una es que se les da demasiado que hacer a la vez.
00:01:42Darle demasiado al modelo a la vez crea múltiples métricas de evaluación,
00:01:45dejándolo confundido sobre cuál optimizar para obtener la recompensa.
00:01:49Otra razón es que algunos conjuntos de datos recompensan las conjeturas seguras más que admitir la incertidumbre.
00:01:54Personalmente,
00:01:54preferiría que el modelo me dijera que no sabe cosas en lugar de que se equivoque con confianza.
00:01:59Dicen que las confesiones son más fáciles de juzgar porque se prueban con un solo parámetro: la honestidad.
00:02:05Estos modelos dieron respuestas incorrectas ya sea por los datos limitados,
00:02:09porque se les restringió el acceso a internet para obtener información,
00:02:12o porque genuinamente no podían entender lo que se les pedía.
00:02:16Estas razones se pueden ver en sus ejemplos en todas las pruebas,
00:02:22y no es porque el
00:02:24También descubrieron que sus modelos son unos
00:02:39Observar lo que hizo el modelo poderoso plantea otra pregunta: dado que los modelos son cada vez más inteligentes,
00:02:44también podrían empezar a fingir intenciones en los informes de confesión,
00:02:48dando una explicación aparentemente buena a los evaluadores y ocultando planes malvados,
00:02:53aunque digan que fue porque el modelo estaba genuinamente confundido.
00:02:56Como hace OpenAI cada vez, toda la sesión de
00:03:04Y tampoco entrenaron el sistema de confesión para que fuera preciso a gran escala en producción.
00:03:09Realmente espero que lo hagan,
00:03:11porque no quiero una disculpa después de que mi servidor de producción se caiga de nuevo.
00:03:42Esperar a que estés en tu escritorio.
00:03:43Con la aplicación móvil de YouWear,
00:03:45empieza a crear en cuanto te llegue la inspiración,
00:03:48ya sea en un café o de camino al trabajo,
00:03:49y luego continúa sin problemas en tu portátil.
00:03:52Sin ideas perdidas, sin interrupciones.
00:03:54También puedes explorar proyectos de otros creadores en la comunidad de YouWear y compartir tu propio trabajo.
00:03:59Inspírate, aprende y muestra tus proyectos.
00:04:02Perfecto para
00:04:05Haz clic en el enlace del comentario fijado abajo y empieza a crear hoy mismo.
00:04:08Así llegamos al final de este video.
00:04:10Si quieres apoyar el canal y ayudarnos a seguir haciendo videos como este,
00:04:14puedes hacerlo usando el botón de
00:04:16Como siempre, gracias por ver y nos vemos en el próximo.