Panel de Programación para el Futuro

VVercel
Computing/SoftwareManagementInternet Technology

Transcript

00:00:00(música alegre) - Bienvenidos al panel El Futuro de la Programación con IA.
00:00:04Gracias por leer el memo en el que se dice que deben venir todos de negro.
00:00:07(risas) Bueno, quería hacer algunas presentaciones.
00:00:12Os conozco a todos de diferentes maneras,
00:00:14pero probablemente la audiencia no os conoce tan bien.
00:00:17Matan, ¿por qué no empiezas tú?
00:00:19¿Cuál es la posición de Factory en el mundo más amplio de la programación con IA?
00:00:26- Sí,
00:00:26en Factory nuestra misión es llevar la autonomía a la ingeniería de software.
00:00:32Y en términos más concretos,
00:00:33hemos construido agentes de desarrollo de software end-to-end llamados droids.
00:00:38No solo se enfocan en la programación en sí,
00:00:40sino en todo el ciclo de vida del desarrollo de software.
00:00:43Cosas como documentación,
00:00:45pruebas,
00:00:45revisión de código,
00:00:46todas esas partes tedious para que puedas disfrutar las partes divertidas como la programación en sí.
00:00:52Y para las partes de la programación que no quieres hacer,
00:00:54los droids también pueden hacerlo.
00:00:56Así que construyes droids.
00:00:58Construyes droids.
00:00:59Y OpenAI obviamente no necesita presentación,
00:01:02pero tu rol en el equipo de codecs,
00:01:05te vi aparecer en el video de codecs.
00:01:08Así es como supe que eras tú quien estaba trabajando en ello.
00:01:10¿Pero cómo piensas en codecs estos días ya que se ha expandido bastante?
00:01:14- Sí,
00:01:15a principios de este año lanzamos nuestro primer agente de programación.
00:01:19Trabajé en el CLI de codecs,
00:01:20llevando el poder de nuestros modelos de razonamiento a las computadoras de las personas.
00:01:26Luego lanzamos codecs cloud donde podías distribuir y delegar esas tareas para que funcionen en la nube.
00:01:31Y durante los últimos meses,
00:01:32hemos estado unificando estas experiencias.
00:01:34Para que funcionen lo más sin problemas posible.
00:01:36Nuestro enfoque es cómo hacer que los fundamentos,
00:01:39las primitivas sean lo más útiles posible.
00:01:41Acabamos de lanzar el SDK de codecs de dev day.
00:01:43Creo que una de las direcciones clave que hemos estado viendo es no solo usar agentes de programación o de ejecución de código para programar,
00:01:50sino también para tareas de propósito general.
00:01:52Y así,
00:01:53ya sea try to be the agent,
00:01:54en el que trabajé a principios de este año que ejecuta código en segundo plano para lograr algunas tareas,
00:01:59pero empezando a permitir que nuestros desarrolladores construyan sobre no solo los modelos de razonamiento,
00:02:03sino también cosas como el sandboxing y todas las otras primitivas que integramos en codecs.
00:02:07- Genial.
00:02:09¿V0?
00:02:10- El objetivo de V0 es permitir que los desarrolladores hagan programación agéntica impulsada por la vista previa.
00:02:16Así que hoy cuando construyes aplicaciones web,
00:02:19probablemente tengas un agente abierto,
00:02:20tu IDE abierto,
00:02:21algo de código,
00:02:22y luego una vista previa de lo que estás construyendo.
00:02:25Usualmente estás ejecutando un servidor de desarrollo.
00:02:26Con V0,
00:02:27nuestro objetivo es permitirte simplemente tener un agente ejecutándose y hacer prompts directamente contra tu aplicación en ejecución.
00:02:32Y así es como pensamos que el futuro de la experiencia de desarrollador se desarrollará.
00:02:35- Bueno, genial.
00:02:36Y todos tienen diferentes áreas de acceso a tus agentes de programación.
00:02:40Así que creo que una de las cosas que queremos abordar es qué tan importante es local versus nube.
00:02:45Comenzaste localmente con nube,
00:02:47comenzaste con nube con local,
00:02:49ahora eres solo nube.
00:02:50¿Cuál es la proporción?
00:02:52¿Eventualmente todos se van a fusionar?
00:02:55- Sí, quizás pueda empezar ahí.
00:02:58Creo que al final,
00:02:59el punto de estos agentes es que sean lo más útiles posible y tengan una silueta muy similar a la de un humano con el que podrías trabajar.
00:03:08Y no tienes humanos locales y humanos remotos que solo funcionen en ciertos entornos.
00:03:16Generalmente,
00:03:17los humanos pueden ser útiles ya sea en una reunión donde se te ocurre una idea o sentándose lado a lado en una computadora.
00:03:24Así que asintóticamente,
00:03:25necesitan convertirse en lo mismo,
00:03:28pero creo que a corto plazo,
00:03:30lo remoto es típicamente más útil para tareas más pequeñas de las que estás más seguro de que puedas delegar de manera confiable.
00:03:39Mientras que local es cuando quieres estar un poco más cerca del agente,
00:03:44quizás sea una tarea más grande o más complicada que vas a estar monitoreando activamente.
00:03:49Y quieres que sea local para que si algo sale mal,
00:03:52no tengas que descargar esa rama y empezar a trabajar en ella,
00:03:55sino que estés ahí para guiarlo.
00:03:57- Sí, quizás solo soy codicioso, pero quiero ambos.
00:04:00Y creo que tener una modalidad,
00:04:02según lo señala Matan,
00:04:04donde me gusta pensar en cuáles son las formas principales de colaboración que tengo con mis compañeros de trabajo.
00:04:11A menudo comienza con algo como una sesión de brainstorming en una pizarra y estamos improvisando algo en una sala.
00:04:17Cuando estábamos construyendo,
00:04:19un buen ejemplo fue agents.md,
00:04:20que son nuestras instrucciones personalizadas diseñadas para ser genéricas en diferentes agentes de programación.
00:04:26La forma en que comenzó fue que Romain y yo estábamos en una sala ideando esto.
00:04:31Luego comenzamos a hacer un brainstorm en una pizarra,
00:04:33tomamos una foto y luego lo iniciamos en el CLI de codecs localmente,
00:04:36justo como en un taller en una aplicación Next.js en la que podíamos trabajar,
00:04:40nos fuimos a comer,
00:04:40regresamos.
00:04:41Tenía una buena cantidad de la estructura central.
00:04:44Y a partir de ahí, pudimos iterar un poco más de cerca.
00:04:46Así que tener ese tipo de experiencia de pair programming y de lluvia de ideas.
00:04:49Y luego creo que con respecto al segundo punto sobre qué tipo de tareas delegas,
00:04:53creo que históricamente tareas más pequeñas y bien definidas donde estás muy claro sobre cuál es el resultado,
00:04:59es la modalidad correcta si haces fire and forget.
00:05:02Pero creo que lo que estamos comenzando a ver es que hace aproximadamente dos meses lanzamos GBD5 codecs.
00:05:08Y creo que una de las principales diferencias es que realmente puede hacer estas tareas más largas,
00:05:12más complejas y más ambiguas,
00:05:13siempre y cuando estés claro sobre lo que quieres al final.
00:05:16Así que puede trabajar durante horas.
00:05:18Creo que ese cambio a medida que los modelos aumentan su capacidad comenzará a permitir más casos de uso.
00:05:24- Sí.
00:05:24Sí,
00:05:25creo que hay tres partes para hacer que un agente funcione.
00:05:27Está el loop del agente en sí,
00:05:29las llamadas de herramientas que hace,
00:05:30y luego los recursos sobre los que necesitan actuar esas llamadas.
00:05:34Si vas con nube o local primero depende de dónde estén esos recursos,
00:05:37¿verdad?
00:05:37Si estás tratando de trabajar en un sistema de archivos local,
00:05:39esos son los recursos a los que necesitas acceder.
00:05:41Tiene mucho sentido que tu loop de agente se ejecute localmente,
00:05:43¿verdad?
00:05:44Si accedes a recursos que típicamente existen en la nube,
00:05:47extrayendo de GitHub,
00:05:48directamente de un repositorio de terceros de algún tipo,
00:05:50entonces tiene sentido que tu agente comience en la nube,
00:05:53¿verdad?
00:05:54En última instancia,
00:05:55sin embargo,
00:05:55estos recursos existen en ambos lugares,
00:05:57¿verdad?
00:05:57Todo desarrollador espera que un agente pueda trabajar tanto en el sistema de archivos local como en un PR abierto que podría estar alojado en GitHub.
00:06:04Y entonces realmente no importa por dónde empieces,
00:06:06creo que todos están convergiendo en el mismo lugar,
00:06:08que es que tu loop de agente debe poder ejecutarse en cualquier lugar,
00:06:11tus llamadas de herramientas deben poder ser transmitidas desde la nube localmente o desde una copia de seguridad local a la nube.
00:06:16Y luego todo depende de dónde estén ubicados los recursos sobre los que realmente quieres actuar.
00:06:20- Sí, genial.
00:06:22Bueno,
00:06:22estábamos charlando fuera del escenario y buscábamos preguntas polémicas y cosas así.
00:06:27Realmente me gustó esta y creo que es muy oportuna.
00:06:31¿Generan basura como forma de vida?
00:06:33¿Estamos en peligro de estar potencialmente en una burbuja de hype
00:06:40donde creemos que este es un camino sostenible hacia la AGI?
00:06:44- Bueno,
00:06:45creo que para empezar,
00:06:46podrías decir que la basura de un hombre es el tesoro de otro,
00:06:49lo cual hasta cierto punto podría ser cierto.
00:06:52Por ejemplo,
00:06:53si tienes un repositorio que no tiene documentación en absoluto.
00:07:00Podrías usar muchas de las herramientas de las que hemos estado hablando para generar documentación para ese repositorio.
00:07:08¿Va a ser la documentación más finamente elaborada?
00:07:13No, pero ¿está proporcionando valor?
00:07:16Sí,
00:07:16en mi opinión,
00:07:17porque tener que hurgar en una base de código heredada muy antigua que no tiene documentación es mucho más difícil que revisar algo de documentación algo improvisada.
00:07:26Y así creo que lo importante es descubrir dónde puedes usar estas herramientas para obtener ventaja y el grado en que es basura realmente depende de cuánta dirección proporcionas.
00:07:38Así que si solo dices construye una aplicación que haga esto,
00:07:41probablemente obtendrás una aplicación genérica improvisada que hace -- - Es púrpura.
00:07:44- Sí, azul, púrpura como desvanecimiento, sí.
00:07:48Mientras que si en cambio eres muy metódico sobre exactamente lo que quieres,
00:07:52proporcionas las herramientas para ejecutar pruebas y verificar algunas de las capacidades que estás solicitando.
00:07:58Creo que eso lo hace mucho más estructurado,
00:08:01de manera similar a si contratarас a un ingeniero junior para tu equipo y solo dijeras,
00:08:06hey,
00:08:07ve y haz esto.
00:08:08Probablemente obtendrán un resultado mediano porque no tienen otra especificación de la que partir.
00:08:14Y es bastante ambiguo lo que realmente quieres que se haga.
00:08:19- Creo que la palabra clave allí es ventaja, ¿verdad?
00:08:21Lo que los agentes de programación con IA te permiten hacer es hacer 10 veces más de lo que podrías hacer tú solo con un piso bastante alto,
00:08:27¿verdad?
00:08:27Entonces si graficas nivel de habilidad contra qué tan útil es un agente o qué tan útil es en realidad generando no-basura,
00:08:33probablemente hay un piso bastante bajo si no tienes habilidad.
00:08:36Pero aún tienes un piso bastante alto, ¿verdad?
00:08:38Los agentes son bastante buenos listos para usar.
00:08:39Si no sabes nada sobre desarrollo,
00:08:41el agente va a hacer mucho más de lo que podrías hacer.
00:08:44Pero a medida que alcanzas niveles de habilidad cada vez más altos,
00:08:46ingenieros sénior,
00:08:47principal y distinguido usan los agentes de manera diferente.
00:08:50Los usan para mejorar las cosas que ya podrían hacer.
00:08:53Ya sabes,
00:08:53un ingeniero principal podría escribir manualmente 5,
00:08:56000 líneas de código al día.
00:08:57Con agentes,
00:08:58pueden escribir como 50,
00:08:59000 líneas de código al día.
00:09:00Y realmente opera al nivel de calidad de los inputs y el conocimiento que pones allí.
00:09:04Así que creo que estamos,
00:09:06ya sabes,
00:09:07aumentando lentamente el piso con el tiempo,
00:09:09construyendo mejores agentes.
00:09:11Pero creo que es una forma de obtener ventaja.
00:09:14Es una forma de que aceleres los tipos de cosas que ya puedes hacer,
00:09:17hacerlas más rápido.
00:09:18Y para las personas que no tienen habilidades,
00:09:20es cuando realmente puedes aumentar el piso de lo que puede hacer.
00:09:23- Absolutamente,
00:09:24y solo para añadir a estos dos puntos,
00:09:26creo que son herramientas y amplificadores del oficio.
00:09:29Si lo tienes, puedes hacer más de ello.
00:09:31Si no, es más difícil, pero sí aumenta el piso.
00:09:34Creo que eso realmente vale la pena señalar.
00:09:36Creo que para las personas que solo están tratando de construir su primer prototipo,
00:09:40están tratando de iterar una idea que mencionó el ejemplo anterior.
00:09:44No es que no pudiera hacer un front end que sea como un sitio impulsado por contenido,
00:09:49es que simplemente no tenía tiempo.
00:09:51Y fue más divertido simplemente dibujar en una pizarra,
00:09:53hablar,
00:09:54tener una conversación,
00:09:55y luego pasarlo a un agente.
00:09:57Pero creo que un ejemplo interesante de esto fue cuando estábamos construyendo iteraciones mucho más tempranas de codecs hace más de un año.
00:10:03Y estábamos presentando a dos arquetipos diferentes,
00:10:06gente que hacía mucha ingeniería de productos donde estaban acostumbrados a usar herramientas de estilo de loop interno local donde estaban acostumbrados a simplemente chatear e iterar.
00:10:19Y luego una modalidad completamente diferente cuando hablábamos con gente del equipo de razonamiento donde se sentarían quizás cinco minutos solo definiendo la tarea y tendrían un ensayo de longitud,
00:10:28como un problema de palabras para que el agente saliera y hiciera,
00:10:31y luego funcionaría durante una hora.
00:10:33Y eso era efectivamente 01 o versiones anteriores de ello.
00:10:37Y creo que la parte interesante allí fue simplemente la forma en que las personas le darían la tarea al agente era completamente diferente según su comprensión de qué creen que necesita.
00:10:48Y así creo que realmente anclarse en la especificidad,
00:10:51siendo muy claro sobre lo que quieres que sea el resultado.
00:10:55Y creo que hay un elemento más amplio que es una responsabilidad tanto para nosotros como constructores de agentes como para las personas que entrenan modelos aumentar realmente ese piso y asegurar que el techo para las personas con alta artesanía,
00:11:07con alto gusto puedan ejercer eso de la forma que consideren conveniente.
00:11:11- Creo que algo que mencionaste me trajo esta idea a la mente que hemos empezado a notar.
00:11:16Así que nuestra audiencia objetivo es la empresa.
00:11:19Y algo que hemos visto ocurrir una y otra vez es que hay una modalidad muy interesante en términos de adopción del desarrollo nativo de agentes.
00:11:28Y en particular,
00:11:29normalmente los desarrolladores de carrera más temprana están más abiertos de mente para comenzar a construir de una manera nativa de agentes,
00:11:36pero no tienen la experiencia de gestionar equipos de ingeniería.
00:11:39Así que quizás no sean los más familiarizados con la delegación de una manera que funcione muy bien.
00:11:44Mientras tanto,
00:11:44los ingenieros más experimentados tienen mucha experiencia delegando.
00:11:47Saben que si no especifico exactamente estas cosas,
00:11:50no se hará.
00:11:51Y así son realmente buenos escribiendo ese párrafo,
00:11:54pero son bastante tercos y en realidad no quieren cambiar la forma en que construyen y tendrás que arrancarles Emacs de sus manos muertas y frías.
00:12:03Así que es un equilibrio interesante allí.
00:12:05- Es tan divertido que digas eso.
00:12:06Algo similar que hemos visto en la empresa es que los ingenieros senior,
00:12:10gente de más arriba,
00:12:11escriben tickets.
00:12:12Así que en realidad harán el trabajo de escribir toda la especificación de lo que necesita ser hecho.
00:12:16Lo entregan a un ingeniero junior para que lo haga realmente.
00:12:18El ingeniero junior toma ese ticket muy bien escrito y se lo da al agente para hacerlo,
00:12:21¿verdad?
00:12:21Así que simplemente estás aprovechando la idea de que el ingeniero junior realmente hará el trabajo del agente porque está más cómodo haciéndolo.
00:12:28Pero el ingeniero senior es la persona que realmente es muy buena escribiendo la especificación,
00:12:32muy buena en entender cuáles deben ser las decisiones arquitectónicas y poniéndolo en algún tipo de ticket.
00:12:37- Sí,
00:12:38para los que no lo saben,
00:12:39Matan y Factory en general han estado escribiendo y abogando por la era del desarrollo nativo de agentes.
00:12:44Así que pueden leer más en su sitio web.
00:12:45Creo que una cosa,
00:12:47por cierto,
00:12:47que quiero plantear quizás es una aclaración de terminología,
00:12:51que aumentar el piso para ti es algo bueno.
00:12:54Creo que en realidad otras personas dicen bajar el piso también significa lo mismo.
00:12:57Básicamente es sobre el nivel de habilidad y lo que pueden hacer y simplemente dar a las personas más recursos para eso.
00:13:05Creo que también la otra cosa es que mucha gente está pensando en la capa del modelo,
00:13:13¿verdad?
00:13:13Obviamente ustedes poseen sus propios modelos,
00:13:17ustedes dos no.
00:13:18Y creo que hay un tema candente de conversación en el valor en este momento.
00:13:22Airbnb,
00:13:23Brian Chesky ha dicho que la mayoría del valor aparentemente se basa en Quinn.
00:13:28¿Qué tan importante son los modelos abiertos para ustedes y pueden,
00:13:32pueden opinar también,
00:13:33pero qué tan importante es una estrategia de modelos abiertos para ambos?
00:13:37- Estaría curioso de escucharte primero.
00:13:38- Sí.
00:13:38Bueno, amo los modelos abiertos.
00:13:42Creo que una de las cosas importantes acerca de poder hablar sobre modelos,
00:13:46creo que la apertura es realmente clave para lo que considero un ciclo de vida de desarrollo sostenible donde con Codex CLI,
00:13:52lo abrimos desde el principio y parte de la prioridad era entender que un modelo abierto estaba en el horizonte.
00:13:58Querías asegurarte de que pudiéramos documentar lo mejor posible cómo usar nuestros modelos de razonamiento.
00:14:03Vimos mucha confusión sobre qué tipo de herramientas darle,
00:14:06cuál debería ser el entorno,
00:14:07los recursos.
00:14:08Y así quisimos asegurar que eso fuera lo más claro posible y luego también asegurar que funcionara bien con modelos abiertos.
00:14:12Así que creo que definitivamente hay muchos casos de uso,
00:14:16especialmente cuando entras en casos de uso integrados o casos donde no quieres que los datos salgan del perímetro.
00:14:23Hay muchas razones muy buenas por las que querrías hacer eso.
00:14:26Y luego creo que el beneficio de los modelos alojados en la nube,
00:14:30y eso es lo que vemos con muchos modelos abiertos.
00:14:33Terminan siendo,
00:14:33no se ejecutan en el dispositivo,
00:14:35pero en realidad se alojan en la nube de todos modos,
00:14:38quizás por eficiencia,
00:14:39quizás por costo,
00:14:40todavía hay mucho valor en solo la pura inteligencia que obtienes al usar un modelo mucho más grande.
00:14:46Y ese es el motivo por el que vemos que las personas realmente se inclinan hacia modelos de O3 a GBD5 a GBD5 Codex.
00:14:52Todavía hay mucho valor en eso.
00:14:53Ahora vemos que ese problema pendiente aún se resuelve donde cada par de meses hay un modelo nuevo,
00:15:01muy pequeño,
00:15:02muy muy impresionante.
00:15:04Y creo que eso es la magia si consideramos a principios de este año,
00:15:07tuvimos O3 mini como la frontera y dónde estamos ahora.
00:15:10Y así sí,
00:15:11creo que hay un montón de valor en modelos abiertos,
00:15:14pero aún,
00:15:15creo que personalmente,
00:15:16desde una perspectiva de uso,
00:15:18más valor en usar los alojados en la nube.
00:15:21- Sí, solo voy a intercalar un poco.
00:15:23Ford realmente se preocupa por la privacidad,
00:15:25la seguridad,
00:15:26la robustez del agente.
00:15:27Y así que si lo ves, habla con él más sobre eso.
00:15:30Pero para ustedes dos,
00:15:32quizás quieran empezar con cuál es el porcentaje de tokens de modelo abierto generado en sus respectivas aplicaciones.
00:15:39¿Y va a subir o bajar?
00:15:42- Así que supongo que quizás para empezar,
00:15:44porque creo que lo que dijiste es realmente interesante.
00:15:47Hace un par de semanas,
00:15:48cuando lanzamos nuestra herramienta de CLI de Factory,
00:15:50la gente estaba realmente interesada porque también lanzamos con ella nuestra puntuación en este benchmark llamado Terminal Bench.
00:15:57Y una de las primeras solicitudes era,
00:15:59¿pueden ustedes poner los modelos de código abierto a prueba?
00:16:02Porque nuestro agente droid es completamente agnóstico al modelo.
00:16:04Así que inmediatamente las personas como,
00:16:06lanza los modelos de código abierto y muéstrame cómo se desempeña.
00:16:09Y creo que algo que fue particularmente sorprendente fue que los modelos de código abierto,
00:16:14y en particular GLM,
00:16:15fueron realmente,
00:16:16realmente buenos.
00:16:17De hecho fueron obviamente menos efectivos que los modelos fronterizos,
00:16:22pero no por un margen enorme.
00:16:24Creo que así que una cosa que fue notable fue que cuando comparamos los modelos de código abierto,
00:16:29de los siete que estaban en la parte superior,
00:16:32uno de ellos fue hecho en Estados Unidos por vuestro servidor aquí,
00:16:35lo que creo que es algo de lástima.
00:16:37Como el hecho de que con mucho de los modelos fronterizos,
00:16:41es Estados Unidos en toda la junta.
00:16:43Pero luego cuando se trata de código abierto,
00:16:45estamos dejando mucho que desear allí.
00:16:47Así que creo que eso es una cosa notable y creo que algo que,
00:16:50al menos cuando vi eso,
00:16:51realmente creo que debería haber como un llamado a las armas allí en términos de cambiar eso.
00:16:56Porque creo que para responder tu pregunta,
00:16:58lo que encontramos es que desde que lanzamos soporte para modelos de código abierto,
00:17:03el porcentaje de personas que están usando modelos de código abierto ha aumentado dramáticamente.
00:17:08Parcialmente por costos y eso,
00:17:10ya sabes,
00:17:10te permite,
00:17:11digamos en ese ejemplo de documentación,
00:17:13quizás quieras generar documentación,
00:17:15pero no quieras que sea como,
00:17:16ya sabes,
00:17:17en súper razonamiento alto,
00:17:18al máximo,
00:17:19como costándote mil dólares,
00:17:20pero solo quieres obtener como un primer pase inicial.
00:17:24Y también a las personas les gusta tener un poco más de control.
00:17:28Y siento que obtienen mucho más de ese control con algunos de estos modelos de código abierto,
00:17:34tanto control como costo y solo como observabilidad en lo que está sucediendo allí.
00:17:39Así que la demanda ha crecido a un punto donde en realidad no esperaba hace un año.
00:17:43Creo que hace un año,
00:17:44estaba menos seguro de los modelos de código abierto de lo que estoy ahora,
00:17:48abiertos,
00:17:49pero sí.
00:17:49- Sí,
00:17:50creo que usamos tanto modelos de código abierto como de fuente cerrada en nuestro pipeline de agente general.
00:17:55Y creo que la forma en que los pensamos es que hay dos casos de uso diferentes para una llamada de LLM.
00:17:58Uno es que quieres razonamiento de última generación.
00:18:01Es una pregunta muy, muy abierta.
00:18:02En realidad no sabes cuál es la respuesta.
00:18:04El objetivo es como,
00:18:05la función objetivo no está muy bien definida.
00:18:07En esos casos,
00:18:08los modelos de fuente cerrada todavía son de última generación cuando se trata de razonamiento e inteligencia.
00:18:13Usamos modelos de fuente cerrada casi exclusivamente para ese tipo de casos de uso.
00:18:16Hay un segundo caso de uso donde tenemos una tarea más de nicho con una función objetivo mucho más clara.
00:18:22En esos casos,
00:18:23casi siempre intentamos fine-tunear un modelo de código abierto.
00:18:26Estamos bien tomando una reducción del 20% tal vez en términos de capacidad de razonamiento para que podamos realmente fine-tunear un caso de uso muy,
00:18:34muy específico.
00:18:35Y creo que descubrimos que los modelos de código abierto están alcanzándonos muy,
00:18:39pero muy rápido.
00:18:39Hace año y medio era impensable para nosotros poder usar modelos de código abierto como parte de la tubería de v0.
00:18:45Hoy,
00:18:45cada parte de la tubería nos preguntamos: ¿podemos incorporar modelos de código abierto aquí?
00:18:49¿Podemos reemplazar lo que hacemos actualmente con modelos de frontera de código cerrado con un ajuste fino de un modelo de código abierto?
00:18:57Y hemos visto mucho éxito con Qwen,
00:19:00QEMI-K2,
00:19:00modelos de ese tipo.
00:19:02Voy a destacar esto como uno de los mayores cambios que he visto en todo el sector.
00:19:07A principios de año hice un podcast con Ankur de BrainTrust,
00:19:10y dijo que el uso de modelos de código abierto es aproximadamente del 5% en lo que BrainTrust ve,
00:19:16y va bajando..
00:19:17Y ahora creo que razonablemente va a estar entre el 10 y 20% para todos.
00:19:22Creo que es interesante que incluso los modelos de código cerrado estén invirtiendo más en sus modelos pequeños.
00:19:29Los Haikus,
00:19:30GPT-4o Minis,
00:19:30Gemini Flashes del mundo,
00:19:32que creo también es que esta clase de modelos es la que más compite con el código abierto.
00:19:38Es la clase de modelos pequeños compitiendo contra un ajuste fino de un modelo de código abierto.
00:19:42Y creo que hay casos de uso donde simplemente sería excesivo usar un modelo de frontera,
00:19:48y si lo es,
00:19:48entonces obviamente estarás incentivado a usar algo más rápido y barato.
00:19:53Y creo que parte de esta diferencia en términos de porcentaje de uso es que hay un umbral en el que los modelos abiertos cruzan el punto donde para la mayoría de tareas es suficiente,
00:20:05y luego para algunas tareas especializadas necesitas ese potencial extra.
00:20:10Creo que estamos llegando ahí con algunos de estos modelos abiertos,
00:20:13por eso sospecho que veremos más uso en el futuro.
00:20:16Sí, genial, eso es muy alentador.
00:20:18Así que tenemos un poco de tiempo para hacer la pregunta de cierre: ¿hay algo que tus agentes no pueden hacer hoy que desearías que pudieran hacer y que probablemente harán el próximo año?
00:20:27¿Empiezo yo?
00:20:31Claro.
00:20:32Sí,
00:20:32creo que lo que hemos visto este último año,
00:20:35quizás empezando como punto de referencia con o1,
00:20:38hace poco más de un año,
00:20:40o la vista previa de o1,
00:20:41lo que hemos visto desde entonces,
00:20:43cuando estaba usando puntos de control muy tempranos de ese modelo,
00:20:47era genial comparado con 4o,
00:20:49pero aún tenía mucho por mejorar.
00:20:51No lo metería,
00:20:52yo estaba en el equipo de seguridad en ese momento,
00:20:55y había mucho trabajo y tareas que simplemente no podía delegar a ese modelo.
00:21:00Y cuando lo comparamos con hoy,
00:21:02donde puedo tomar una tarea bastante bien definida,
00:21:04digamos dos oraciones,
00:21:05algunos puntos clave para tu observación,
00:21:07como aquí están los riesgos que creo que te van a atascar,
00:21:10y luego vuelvo 30 minutos después,
00:21:12una hora después,
00:21:13ya está hecho.
00:21:14Hemos visto casos donde está funcionando durante muchas horas,
00:21:17quizás incluso siete u ocho horas,
00:21:19efectivamente una jornada laboral completa que paso mucho de mi día en reuniones,
00:21:23así que no tengo necesariamente ese bloque sólido de tiempo.
00:21:26Pero eso es solo la mitad de lo que realmente trata la ingeniería.
00:21:30Parte es programación,
00:21:31parte es arquitectura,
00:21:32resolución de problemas y depuración.
00:21:34La otra mitad es escribir documentación,
00:21:36entender el sistema,
00:21:37convencer a la gente.
00:21:39Así que creo que lo que empezaremos a ver es este súper colaborador donde lo que queremos traer,
00:21:45ya sea en códecs o estas otras interfaces a través del modelo de códecs,
00:21:50es el colaborador ideal con el que quieres trabajar.
00:21:53La persona a la que primero recurres,
00:21:56ese colega favorito con el que quieres intercambiar ideas,
00:21:59eso es realmente lo que queremos ver,
00:22:01al menos con códecs.
00:22:02Para nosotros,
00:22:03hemos visto mucho progreso rápido en dos frentes diferentes.
00:22:07El primero es cuántos pasos puedes esperar razonablemente que un agente pueda hacer y obtener resultados razonables.
00:22:14El año pasado, probablemente uno, máximo tres, ¿verdad?
00:22:17Si querías salida confiable con más del 90% de éxito,
00:22:19probablemente estabas ejecutando uno a tres pasos de agente.
00:22:22Hoy,
00:22:22la mayoría de herramientas ejecutan cinco a 20 sin realmente excelentes tasas de confiabilidad,
00:22:28más del 90% de éxito.
00:22:29Creo que el próximo año,
00:22:30vamos a agregar eso como 100 más,
00:22:31200 más,
00:22:32ejecutar toneladas de pasos todo a la vez,
00:22:34tener tareas de larga duración durante varias horas y estar seguros de que obtendrás una salida al final que será útil.
00:22:40El segundo es en términos de qué recursos pueden ser consumidos.
00:22:42Hace un año,
00:22:43era lo que sea que pusieras en el formulario de indicaciones,
00:22:45eso era prácticamente todo.
00:22:47Hoy,
00:22:47ahora puedes configurar conexiones externas a través de MCP o haciendo llamadas API directamente en tu aplicación.
00:22:55Puedes hacer eso si eres conocedor,
00:22:57tienes la capacidad de configurar cosas.
00:22:58Y creo que en un año, simplemente sucederá.
00:23:00Como simplemente funcionará.
00:23:02El objetivo es que no necesites saber qué fuentes de contexto debes darle al agente.
00:23:06El agente realmente irá y encontrará esas fuentes de contexto de forma proactiva.
00:23:09Ya estamos empezando a ver eso hoy,
00:23:12pero aún no estoy muy seguro de que sea muy confiable y útil hoy.
00:23:16Creo que para el próximo año,
00:23:17eso será el modo predeterminado.
00:23:18Sí, estaría de acuerdo con eso.
00:23:19Creo que los agentes pueden hacer básicamente todo hoy,
00:23:22pero el grado en que lo hacen de forma confiable y proactiva es creo que el parámetro que va a cambiar.
00:23:29Pero ese es un parámetro que también depende del usuario.
00:23:31Como si eres un usuario que no está realmente cambiando su comportamiento y encontrando al agente donde está,
00:23:36entonces podrías obtener menor confiabilidad y proactividad.
00:23:38Mientras que si configuras correctamente tu arnés o configuras correctamente tu entorno,
00:23:42podrá hacer más de eso de manera confiable y más proactivamente.
00:23:45Sí, increíble.
00:23:46Bueno, se nos acabó el tiempo.
00:23:48Mi contribución es visión por computadora.
00:23:49Todos prueben Atlas.
00:23:51Todos prueben más casos de uso de visión por computadora,
00:23:54pero gracias mucho por su tiempo.
00:23:55Gracias a ustedes.
00:23:56(el público aplaude) (música alegre)

Key Takeaway

Los agentes de programación con IA están transformando el desarrollo de software al actuar como amplificadores de productividad que dependen críticamente de la claridad en las instrucciones y la especificidad de las tareas, convergiendo hacia sistemas híbridos locales-nube con creciente adopción de modelos de código abierto.

Highlights

Los agentes de programación con IA amplían significativamente la productividad de los ingenieros, permitiendo que un ingeniero senior escriba 50,000 líneas de código al día en lugar de 5,000, pero la calidad depende de la claridad de las instrucciones proporcionadas.

La distinción entre desarrollo local versus en la nube no es definitiva: el futuro requiere que los agentes puedan ejecutarse en ambos entornos según dónde se encuentren los recursos y necesidades del usuario.

Los modelos de código abierto están cerrando rápidamente la brecha con los modelos de frontera, especialmente en tareas especializadas mediante fine-tuning, con un crecimiento esperado del 10-20% en su uso durante el próximo año.

El valor clave de los agentes está en ser herramientas amplificadoras del oficio: elevan el piso para principiantes mientras permiten que expertos sean mucho más productivos en lo que ya saben hacer.

La especificidad en la definición de tareas es crítica para obtener resultados de calidad; los ingenieros experimentados entienden intuitivamente cómo delegar efectivamente al escribir especificaciones detalladas.

Los agentes evolucionarán para ser colaboradores proactivos que encuentren automáticamente fuentes de contexto y ejecuten cientos de pasos de manera confiable durante horas, sin que los usuarios necesiten especificar cada recurso.

Timeline

Introducción al Panel y Presentación de Participantes

Se inicia el panel titulado 'El Futuro de la Programación con IA' con una bienvenida humorística sobre el código de vestimenta de negro. El moderador presenta a los participantes principales: Matan de Factory, representantes de OpenAI y Vercel, cada uno trayendo perspectivas diferentes sobre agentes de programación con IA. El objetivo es explorar cómo diferentes empresas están abordando el desarrollo de agentes de software y su impacto en la ingeniería moderna.

Factory y el Concepto de Droids para Desarrollo de Software

Matan explica que Factory ha construido agentes de desarrollo de software end-to-end llamados 'droids' que van más allá de la programación, cubriendo documentación, pruebas y revisión de código. Estos droids automatizan las tareas tedious para permitir que los ingenieros se enfoquen en las partes creativas del desarrollo. La misión es llevar autonomía completa al ciclo de vida del desarrollo de software, eliminando trabajo repetitivo mientras mantiene el control en decisiones importantes.

OpenAI Codex y su Evolución desde CLI hacia Ecosistema Unificado

El representante de OpenAI describe la evolución del producto, comenzando con el CLI de Codex que trae modelos de razonamiento a máquinas locales, pasando por Codex Cloud para tareas distribuidas en la nube, y recientemente unificando estas experiencias. Se destaca el lanzamiento del SDK de Codex y la dirección de permitir agentes para tareas de propósito general más allá de programación. El enfoque es hacer que las primitivas fundamentales sean lo más útiles posible, permitiendo que desarrolladores construyan sobre modelos de razonamiento y herramientas de sandboxing integradas.

Vercel V0 y la Programación Agéntica Impulsada por Vista Previa

Se presenta V0 de Vercel como una herramienta que permite programación agéntica impulsada por vista previa en tiempo real. En lugar de tener abiertos separadamente un IDE y una vista previa, V0 permite que un agente ejecute prompts directamente contra una aplicación en ejecución. Este enfoque reduce la fricción entre idealización y construcción, representando la visión futura de cómo los desarrolladores interactuarán con herramientas de programación con IA, especialmente en desarrollo web.

Debate sobre Desarrollo Local versus Nube: Convergencia Esperada

Los panelistas discuten la importancia relativa de ejecutar agentes localmente versus en la nube. Se establece que eventualmente deben converger hacia el mismo lugar, pero a corto plazo tienen propósitos diferentes: lo remoto es mejor para tareas pequeñas y bien definidas de las que estás seguro, mientras que lo local es mejor para tareas complejas donde quieres supervisión activa. Se argumenta que la decisión depende fundamentalmente de dónde residan los recursos con los que el agente necesita trabajar, y que los agentes deben poder ejecutarse en cualquier lugar con herramientas transmisibles entre entornos. Un ejemplo concreto describe cómo se usó Codex localmente durante ideación en pizarra y luego en una aplicación Next.js, mostrando la importancia de tener ambas modalidades disponibles.

Calidad versus Basura: La Importancia de la Especificidad en las Tareas

Se aborda la preocupación sobre si los agentes generan 'basura', argumentando que el valor depende de la claridad de las instrucciones. Un repositorio sin documentación puede obtener documentación generada por IA que, aunque sea 'improvisada', sigue siendo más útil que nada. La metáfora de contratar un ingeniero junior ilustra cómo ambigüedad resulta en resultados mediocres. Se enfatiza que los agentes son amplificadores del oficio: aumentan la productividad de ingenieros experimentados de 5,000 a 50,000 líneas de código diarias, mientras que también elevan el piso de lo que pueden hacer los principiantes. Los agentes no reemplazan habilidad; amplifican la que ya existe.

Diferencias en Adopción: Ingenieros Jóvenes versus Experimentados

Se discute un patrón interesante en adopción empresarial: ingenieros de carrera temprana son más abiertos a desarrollo nativo de agentes pero carecen de experiencia delegando, mientras que ingenieros experimentados saben cómo especificar exactamente lo que necesitan pero frecuentemente se resisten a cambiar su flujo de trabajo. Factory observa que en empresas, ingenieros senior escriben especificaciones detalladas que entregan a ingenieros junior, quienes luego delegan a agentes. Esto crea un flujo natural donde la fortaleza de cada nivel contribuye: seniors hacen arquitectura y especificación, juniors intermedian con agentes que implementan. Se menciona agents.md como ejemplo de instrucciones personalizadas diseñadas para ser genéricas entre diferentes agentes, desarrolladas en forma colaborativa iniciando en sesiones de brainstorming en pizarra.

Capacidades Ampliadas de Modelos y Tareas Más Largas y Complejas

Se hace referencia al lanzamiento reciente de GPT-5 Codex hace aproximadamente dos meses, que ha permitido a los agentes ejecutar tareas más largas, complejas y ambiguas durante horas si el usuario es claro sobre el resultado deseado. Esto representa un cambio fundamental donde el modelo puede trabajar de manera mucho más autónoma en problemas que antes habrían requerido intervención frecuente. El progreso continuo en capacidades de modelos está directamente habilitando nuevos casos de uso que eran imposibles hace meses, demostrando la trayectoria rápida de mejora en razonamiento y ejecución de agentes de programación.

Infraestructura de Agentes: Loop, Herramientas y Recursos

Se conceptualiza que hacer funcionar un agente requiere tres componentes: el loop del agente en sí, las llamadas a herramientas que realiza, y los recursos sobre los que esas herramientas actúan. La decisión de ejecutar localmente o en nube depende de dónde residan típicamente esos recursos, pero finalmente todos esperan que un agente pueda trabajar con ambos: sistema de archivos local y repositorios remotos en GitHub. La visión es que el loop del agente sea ubicuo, las herramientas se transmitan flexiblemente entre entornos nube-local, y todo dependa pragmáticamente de dónde estén los datos que necesitan ser modificados. Esto indica una arquitectura futura más integrada y flexible que las soluciones actualmente compartimentadas.

Modelos Abiertos versus Cerrados: Convergencia y Nichos Especializados

Los panelistas discuten la importancia creciente de modelos de código abierto en su infraestructura de agentes. Factory reporta que cuando pusieron a prueba modelos abiertos como GLM en su benchmark Terminal Bench, los resultados fueron impresionantemente cercanos a modelos fronterizos, aunque no idénticos. Se observa que la demanda de modelos abiertos ha crecido significativamente desde el lanzamiento, impulsada por factores de costo, control y observabilidad. Vercel utiliza un enfoque híbrido: modelos cerrados para razonamiento de última generación en problemas abiertos, y modelos abiertos fine-tuneados para tareas especializadas con objetivos claros. Se menciona que hace año y medio era impensable usar código abierto en partes del pipeline V0, mientras que hoy constantemente se investiga su incorporación. El porcentaje de tokens de modelos abiertos ha aumentado de aproximadamente 5% a principios de año a una proyección de 10-20% en el futuro cercano. Se destaca que incluso proveedores de modelos cerrados están invirtiendo en versiones más pequeñas (Haiku, GPT-4o Mini, Gemini Flash) que compiten directamente con código abierto fine-tuneado.

Futuro de Agentes: Pasos Múltiples, Tareas Largas y Descubrimiento Automático de Contexto

Se proyecta que en el próximo año, los agentes evolucionarán dramáticamente en tres dimensiones clave. Primero, la cantidad de pasos que un agente puede ejecutar confiablemente crecerá de 1-3 hace un año a 100-200+, manteniendo tasas de éxito superiores al 90%. Segundo, las tareas de larga duración ejecutarán durante horas (incluso duraciones de jornada laboral completa), permitiendo que ingenieros deleguen trabajo que luego revisen. Tercero, y más crucialmente, los agentes pasarán de requerir que el usuario especifique todas las fuentes de contexto a descubrirlas automáticamente y proactivamente. Actualmente esto requiere conocimiento técnico para configurar MCPs o APIs, pero el objetivo es que funcione automáticamente sin intervención del usuario. OpenAI destaca que quieren crear el 'súper colaborador' ideal: el colega al que recurres primero para intercambiar ideas. El progreso en confiabilidad y proactividad, más que en capacidades brutas, será el parámetro que más cambiará, aunque también dependerá de cómo usuarios configuren sus entornos. Se cierra con una referencia a visión por computadora como área de investigación adicional, sugiriendo que la expansión de agentes irá más allá de programación pura.

Community Posts

View all posts