00:00:00Seguro que alguna vez has intentado convertir correos, PDFs o transcripciones en datos estructurados
00:00:04y la cosa se complicó rápidamente.
00:00:07Todo el mundo piensa que lo difícil es crear la aplicación.
00:00:09No es así.
00:00:10Lo difícil es el texto, porque gran parte de los datos del mundo real no están estructurados
00:00:15y la mayoría de los procesos fallan justo ahí.
00:00:16Uno esperaría que la solución fuera contratar más personal o usar más NLP, pero algunos desarrolladores
00:00:21están haciendo justo lo contrario.
00:00:22Esto es Lang Extract.
00:00:23Es una herramienta gratuita de código abierto de Google que está creciendo discretamente y a gran velocidad.
00:00:27Publicamos vídeos constantemente.
00:00:29No olvides suscribirte.
00:00:32Vale, Lang Extract suena a una librería de extracción más, y a primera vista
00:00:40podría parecerlo, pero esto es lo que la hace diferente.
00:00:43Lang Extract es una librería de Python que usa LLMs como Gemini o GPT para extraer datos
00:00:49estructurados de textos complejos.
00:00:51Extrae entidades, atributos y relaciones en formatos limpios como JSON o incluso
00:00:57HTML interactivo.
00:00:58El motivo final por el que interesa a los desarrolladores es que cada extracción está vinculada al
00:01:02fragmento de texto exacto del que proviene.
00:01:04Esto significa que, en lugar de decir "Confía en mí
00:01:09que he utilizado".
00:01:10Ese es el gran cambio.
00:01:11Básicamente, el flujo de trabajo es: se introduce el prompt, se realiza la extracción
00:01:15y obtienes un resultado estructurado que puedes verificar de verdad.
00:01:19Antes de explicar por qué los desarrolladores están dejando atrás el NLP tradicional, dejadme
00:01:24mostraros cómo funciona para que podáis probarlo.
00:01:27Bien, veamos un ejemplo sencillo.
00:01:29En pantalla tenemos el texto no estructurado de unas notas clínicas que he encontrado;
00:01:33ahora mismo es solo texto.
00:01:34Está en un archivo de texto.
00:01:36Un humano puede leerlo y extraer lo importante, pero para un ordenador no tiene sentido.
00:01:41Primero, he clonado el repositorio de Git e instalado los requisitos; después,
00:01:45necesitaba mi clave de API de Gemini, que guardé en un archivo .env.
00:01:49Luego escribí este script de Python para ejecutarlo y describir en mi prompt
00:01:54qué quería extraer.
00:01:56Por eso hace falta tener nociones de Python.
00:01:58He definido todas mis entidades, atributos y relaciones en este prompt.
00:02:02No hay datos de entrenamiento ni ajuste del modelo (tuning).
00:02:05Entonces ejecuto Lang Extract y obtengo un JSON estructurado.
00:02:09Fijaos bien en esta parte, porque es lo fundamental.
00:02:12Cada campo extraído está vinculado a la frase exacta de la que proviene
00:02:18dentro de mi JSON.
00:02:19Así, al revisar, depurar o explicarlo a otros, ya no hay que adivinar nada.
00:02:23Pero una de las funciones más geniales que he visto es la página HTML interactiva que genera automáticamente.
00:02:29Aquí puedes hacer clic en una entidad y verla resaltada en el texto original,
00:02:33lo que permite una revisión visual rápida de todos los términos que buscabas.
00:02:38Por eso es vital para depuración, auditorías y revisiones.
00:02:42Y si necesitas hacerlo a gran escala, el modo batch te permite procesar miles de documentos
00:02:46de forma más eficiente.
00:02:48Como veis, tiene una pinta estupenda.
00:02:50Esto me ha parecido genial, sobre todo lo del HTML.
00:02:52¿Por qué los desarrolladores están abandonando el NLP de la vieja escuela por esto?
00:02:56Porque el texto desordenado no solo es molesto, ¿verdad?
00:02:59Lo es, pero además resulta caro.
00:03:01Cuesta tiempo y provoca fallos.
00:03:03Por eso vemos Lang Extract en sectores donde la precisión y la trazabilidad son críticas.
00:03:08Como extraer datos estructurados de notas clínicas pudiendo auditar
00:03:12exactamente de dónde han salido.
00:03:13Eso es un avance enorme.
00:03:14O quizás convertir opiniones y tickets de soporte en grafos de conocimiento en lugar de
00:03:18enormes y pesados archivos CSV.
00:03:20Como todo este tipo de herramientas, tiene sus pros y sus contras.
00:03:24Eso influirá en cómo decidáis utilizarla.
00:03:26En cuanto a lo bueno, hay mucho que destacar.
00:03:27La configuración es sencilla, ¿no?
00:03:29Haces un pip install, escribes el prompt y listo.
00:03:31Los resultados fundamentados reducen la desconfianza en los LLM porque puedes verificarlo todo,
00:03:36y no estás atado a un solo modelo.
00:03:37Funciona tanto en local como en la nube.
00:03:39Ambas opciones sirven y gestiona documentos largos mejor que la mayoría de herramientas.
00:03:43Es gratuito, de código abierto y evoluciona rápido.
00:03:45También hay desventajas: a gran escala, sigues pagando los costes del LLM.
00:03:51Si el texto es muy ruidoso, las extracciones pueden ser incompletas.
00:03:53Está pensado para Python, así que si no lo conoces, habrá una curva de aprendizaje,
00:03:57aunque Python es fantástico.
00:03:58No es ideal para aplicaciones en tiempo real de ultra baja latencia.
00:04:01¿Por qué debería importarte?
00:04:02Porque Lang Extract baja la barrera para trabajar con datos no estructurados sin crear
00:04:07modelos personalizados ni procesos frágiles.
00:04:09Hace que los resultados de los LLM sean fiables para producción porque están vinculados
00:04:14a su origen, especialmente en sectores como finanzas, sanidad o cumplimiento normativo,
00:04:19donde esto es realmente crucial.
00:04:21Además, encaja en arquitecturas modernas: RAG, búsquedas, grafos de conocimiento o analítica.
00:04:26Sea lo que sea que estés construyendo.
00:04:27Si los datos no estructurados te frenan, esta herramienta puede hacerte subir de nivel.
00:04:31Si trabajas con datos, y seamos sinceros, probablemente sea así, vale la pena echarle un vistazo.
00:04:35Nos vemos en el próximo vídeo.