Claude Code + RAG-Anything = ILIMITADO

CChase AI
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Casi todos los sistemas RAG sufren exactamente del mismo problema.
00:00:04Solo pueden manejar documentos de texto.
00:00:06Así que si intentas darle imágenes, tablas, gráficos, lo que sea,
00:00:10la mayoría de los sistemas RAG simplemente no pueden manejarlo.
00:00:12Y cuando les mostré Light RAG ayer,
00:00:13sufría exactamente del mismo problema.
00:00:16Pero hoy les voy a mostrar la solución.
00:00:19Y esa solución es RAG Anything.
00:00:20RAG Anything resuelve este problema de los documentos por nosotros.
00:00:23Puede manejar imágenes.
00:00:24Puede manejar tablas.
00:00:25Puede manejar gráficos.
00:00:25Y nos permite crear un sistema RAG
00:00:28que realmente trabaje con los documentos que utilizas.
00:00:31RAG Anything es del mismo equipo que creó Light RAG.
00:00:34Se conecta directamente al sistema Light RAG
00:00:36que ya construimos ayer.
00:00:37Así que es muy fácil introducir esto en nuestro stack.
00:00:40Y hoy les voy a mostrar exactamente cómo configurarlo
00:00:43y cómo funciona internamente.
00:00:44Para que puedan empezar a usar uno de los sistemas RAG
00:00:46más potentes que existen.
00:00:48Por si no quedó lo suficientemente claro en la introducción,
00:00:50voy a asumir que ya han visto
00:00:52el video de ayer sobre Light RAG.
00:00:54Pondré un enlace arriba si aún no lo han hecho,
00:00:56porque hoy voy a asumir que ya han configurado
00:00:58su servidor de Light RAG.
00:00:59Entienden cómo funciona RAG y entienden
00:01:02todo este asunto del grafo de conocimiento.
00:01:03Porque RAG Anything es esencialmente un contenedor
00:01:06alrededor de Light RAG.
00:01:07Seguiremos teniendo la misma interfaz web de Light RAG
00:01:10con algunas diferencias,
00:01:11pero todo lo que se introduce en RAG Anything,
00:01:13ya saben, estos documentos que no son de texto,
00:01:15acaban llegando al mismo grafo de conocimiento.
00:01:17Le haremos las mismas preguntas.
00:01:19Usaremos la misma API para consultarlo
00:01:22a través de Claude Code, tal como hicimos ayer.
00:01:24Y la funcionalidad que vamos a añadir hoy
00:01:26es significativa.
00:01:28No basta con construir un sistema RAG que sea puramente texto.
00:01:30No operamos en un mundo que es puramente texto.
00:01:32¿A cuántos de ustedes les han dado un documento PDF
00:01:34que técnicamente ni siquiera es texto, sino que está escaneado?
00:01:36Light RAG no puede manejar eso, RAG Anything sí.
00:01:39Ahora nos pondremos un poco técnicos hoy.
00:01:40Miraremos bajo el capó y explicaré exactamente
00:01:43cómo funciona todo este sistema.
00:01:44Pero, en términos generales, ¿qué es lo que hace?
00:01:46RAG Anything solo está analizando los documentos
00:01:49que no son de texto.
00:01:50Básicamente hace exactamente lo mismo que Light RAG,
00:01:52excepto con estos documentos que no son texto.
00:01:55Y después de crear su propio grafo de conocimiento
00:01:56y su propia base de datos vectorial,
00:01:58lo fusiona con el de Light RAG,
00:02:00por eso todo termina en un solo lugar,
00:02:04limpio y ordenado, para que podamos hacer preguntas.
00:02:06Ahora, el único inconveniente de RAG Anything
00:02:08es que es un poco más pesado.
00:02:09Tenemos que descargar algunos modelos que residen en nuestro equipo
00:02:12y que ayudan a procesar estos documentos que no son texto.
00:02:14Y cuando se trata de ingerir documentos que no son texto,
00:02:18no podemos hacerlo realmente a través de la interfaz de Light RAG.
00:02:22Tenemos que usar un script.
00:02:23Por suerte, aquí es donde entra Claude Code.
00:02:25Así que para ti, el usuario, después de configurar todo esto,
00:02:28lo único que tienes que hacer para ingerir documentos sin texto
00:02:31es decirle a Claude Code: oye, adelante,
00:02:33usa la habilidad RAG Anything e ingiere este documento.
00:02:36Es así de sencillo.
00:02:37Y haces las preguntas de la misma manera que antes.
00:02:39Así que realmente no está nada mal.
00:02:40Y de nuevo, obtienes toda esta funcionalidad solo con eso.
00:02:43Ahora, antes de entrar en cómo funciona RAG Anything,
00:02:46quiero promocionar rápidamente mi masterclass de Claude Code
00:02:49que salió hace un par de semanas,
00:02:50y es el mejor lugar para pasar de cero a desarrollador de IA,
00:02:53especialmente si no vienes de un entorno técnico.
00:02:55Actualizo esto literalmente todas las semanas.
00:02:57Habrá una nueva actualización mañana.
00:02:59Así que si eres alguien que realmente intenta dominar
00:03:01Claude Code y no tiene idea de por dónde empezar,
00:03:03bueno, esto es para ti.
00:03:05Hay un enlace a eso en los comentarios.
00:03:07Está dentro de Chase AI Plus.
00:03:09También tengo la comunidad gratuita Chase AI.
00:03:11Si esto es demasiado para ti,
00:03:12o si apenas estás comenzando.
00:03:14El enlace está en la descripción.
00:03:15Allí es donde también encontrarás los prompts y habilidades
00:03:19de los que voy a hablar hoy.
00:03:20Así que asegúrate de echarle un vistazo de todos modos.
00:03:22Ahora hablemos de RAG Anything
00:03:23y de cómo funciona realmente esta herramienta.
00:03:25Para ser honesto, es bastante simple y se explica por sí solo.
00:03:28Así que para no hacerles perder el tiempo,
00:03:29voy a dejar esta imagen unos 10 segundos,
00:03:32y luego pasaremos a lo siguiente.
00:03:34Muy bien, bastante bien.
00:03:39Bien, sigamos adelante.
00:03:41Es broma.
00:03:42En realidad, están pasando bastantes cosas.
00:03:44Esta imagen lo hace parecer más confuso de lo que es.
00:03:46Y si entienden lo que hicimos el otro día con Light RAG,
00:03:50si recuerdan toda esa charla, estarán bien.
00:03:52RAG Anything funciona de forma similar,
00:03:55solo que con unos pocos pasos extra.
00:03:56Y quiero repasarlos,
00:03:57porque creo que es importante entender
00:03:58cómo funcionan estas cosas.
00:04:00Creo que en la IA en general,
00:04:01es fácil enfocarse solo en lo práctico.
00:04:04Como: "solo quiero saber cómo instalarlo, Chase,
00:04:05y luego cómo usarlo".
00:04:06Está bien, puedes saltar adelante si eres así.
00:04:08Pero creo que si quieres ser un desarrollador de IA más maduro
00:04:11y quieres diferenciarte
00:04:13de cualquier operario que podría reemplazarte,
00:04:15que solo da a aceptar, aceptar, aceptar y copia
00:04:17prompts y habilidades,
00:04:18entonces creo que es importante tener cierto
00:04:21conocimiento de la arquitectura,
00:04:22porque esto es lo que te va a separar
00:04:23de los demás.
00:04:24Y no solo en cuanto a cómo usar este sistema RAG,
00:04:27sino en proyectos de mayor nivel y envergadura, ¿verdad?
00:04:30Así es como empiezas a crear tus propias habilidades,
00:04:34a volverte realmente bueno en esto.
00:04:35Así que hablemos de ello.
00:04:37RAG Anything.
00:04:38Hablemos del problema, ¿de acuerdo?
00:04:40El problema es que tengo un PDF que está escaneado
00:04:44y que no es realmente texto,
00:04:45y aun así necesito meterlo en mi sistema RAG.
00:04:46Light RAG no puede manejarlo.
00:04:48Entonces llega RAG Anything, ¿verdad?
00:04:51El de la llama genial con las gafas de sol.
00:04:53Lo primero que ocurre
00:04:56es que voy a ingerir este documento en RAG Anything.
00:05:00Y lo primero que hará
00:05:02es utilizar un programa llamado MinerU,
00:05:05que se ejecuta en tu computadora localmente y gratis.
00:05:08Y básicamente va a descomponer este documento
00:05:11en las partes que lo componen.
00:05:12MinerU es un proyecto de código abierto.
00:05:14De nuevo, es esencialmente un procesador de documentos
00:05:16que incluye varios modelos pequeños especializados.
00:05:19Lo único que necesitan saber si esto les asusta,
00:05:21es que es de código abierto.
00:05:22Pondré un enlace abajo.
00:05:23Y de nuevo, esto es lo que estará funcionando
00:05:25y haciendo la mayor parte del trabajo por nosotros hoy.
00:05:26Así que MinerU mira este documento y dice:
00:05:29"Vale, esto es un encabezado".
00:05:32Crea un recuadro alrededor del encabezado.
00:05:33Dice: "Esto es texto".
00:05:36Dice: "Esto es una tabla".
00:05:39Dice: "Esto es una imagen de un gráfico de barras".
00:05:41Y dice: "Esto es una ecuación escrita en LaTeX".
00:05:44Lo que ha hecho es mirar el documento
00:05:47y desglosarlo en sus partes especiales.
00:05:50MinerU no entiende lo que hay dentro.
00:05:52MinerU no está leyendo el texto.
00:05:53No capta el texto.
00:05:55No entiende de qué trata la tabla.
00:05:56Solo sabe que es una tabla, texto o imagen, ¿vale?
00:06:01A partir de ahí, va a enviar estos componentes
00:06:05a modelos individuales especializados que forman parte de MinerU.
00:06:10Todo esto es invisible para ti.
00:06:12Todo sucede automáticamente internamente.
00:06:15Uno de los modelos se llama, por ejemplo, PaddleOCR.
00:06:20Ese es el que va a analizar el texto.
00:06:21MinerU envía ese bloque de texto a PaddleOCR
00:06:24en tu computadora, y este va a extraer el texto.
00:06:28Así que ahora, en lugar de ser texto escaneado,
00:06:30es texto real que dice: la empresa X reportó un sólido Q3 23.
00:06:34Resultados con crecimiento de ingresos, bla, bla, bla.
00:06:36¿Verdad? Lo mismo con este texto.
00:06:40Lo mismo con la tabla, ¿vale?
00:06:41También la va a convertir en texto,
00:06:43algo que un LLM pueda manejar.
00:06:45Lo mismo con las ecuaciones en LaTeX.
00:06:47Tiene todo un modelo que maneja eso.
00:06:48Esto ya no es LaTeX, ahora es texto.
00:06:52Excepto las imágenes.
00:06:54Ya sea un gráfico de barras o simplemente...
00:06:57en realidad es cualquier cosa que no pueda transformar en texto.
00:07:00Lo que va a hacer en su lugar
00:07:01es tomar una captura de pantalla,
00:07:03y esto es importante, ¿de acuerdo?
00:07:05Así que ahora esto es una captura de pantalla.
00:07:07Es una imagen. Me encanta.
00:07:11Entonces, ¿qué tenemos?
00:07:13Insertamos un documento que no es de texto.
00:07:16Ha sido identificado en sus partes componentes,
00:07:18y hemos tomado esos componentes
00:07:20y los hemos dividido en dos categorías, ¿verdad?
00:07:22Tenemos el cubo de texto y el cubo de imagen.
00:07:26Es importante darse cuenta de esto.
00:07:28Hay dos caminos que se pueden seguir, imagen o texto.
00:07:31Muy bien, ¿están conmigo?
00:07:32Así que lo que va a hacer ahora
00:07:34es que terminamos de usar estos modelos internos.
00:07:36Ahora necesitamos traer a los pesos pesados.
00:07:37Ahora necesitamos traer algo como GPT 5.4 Mini.
00:07:40Cabe señalar que ese no es necesariamente el caso.
00:07:42Podrías mantener todo esto local si quisieras.
00:07:44Podrías hacer algo como Ollama.
00:07:45Así que ahora tomo el cubo de texto y lo envío a GPT 5.4 Mini.
00:07:50E incluyo un prompt que dice:
00:07:52"Quiero que desgloses este texto para dos cosas".
00:07:55"Quiero que tomes ese texto
00:07:57y lo desgloses en entidades y relaciones".
00:08:01¿Recuerdan las entidades y relaciones?
00:08:03¿Recuerdan nuestro grafo de conocimiento?
00:08:05Entidad, entidad, y el tipo de relación entre ellas.
00:08:09Bien, y quiero que lo desgloses
00:08:13en lo que serán embeddings para una base de datos vectorial.
00:08:17Así que embeddings, incrustar,
00:08:21y luego simplemente diré entidades más relaciones.
00:08:26Ahora, pensando a futuro, ¿qué va a pasar ahí?
00:08:29Bueno, los embeddings se convertirán en embeddings
00:08:32en una base de datos vectorial y las entidades y relaciones
00:08:35se convertirán en un grafo de conocimiento,
00:08:37tal como lo hicimos con LightRag, ¿verdad?
00:08:39Lo mismo, lo mismo, excepto que ahora,
00:08:42ahora es desde el cubo de texto.
00:08:44Pero, ¿qué pasa con esas imágenes que teníamos, verdad?
00:08:47¿Qué vamos a hacer con estas?
00:08:48Lo mismo, esto también se enviará a 5.4,
00:08:52pero será como una captura de pantalla, como un OCR.
00:08:55Así que le decimos a GPT 5.4, echa un vistazo a esta captura
00:08:59y desglósala en dos cosas, ¿verdad?
00:09:02Embeddings y también entidades más relaciones.
00:09:06Ahora, ¿por qué hacemos eso?
00:09:07¿Por qué no lo metemos todo en el mismo prompt
00:09:09y hacemos que haga el OCR de todo esto, verdad?
00:09:12¿Por qué no tratamos todo esto como una captura de pantalla?
00:09:14Porque es caro y lento.
00:09:16Lo que RAG-anything decidió hacer,
00:09:17y creo que es bastante inteligente,
00:09:19es que aplica un bisturí a esto en tu computadora
00:09:21a nivel local, separándolo en texto
00:09:24y separándolo en capturas de pantalla.
00:09:25Así que cuando pasamos por estos dos caminos,
00:09:27estás ahorrando un montón de dinero y tiempo.
00:09:29Porque imagina que intentaras que ChatGPT
00:09:31mirara 10,000 capturas y luego extrajera todo el texto
00:09:34y del texto, lo desglosara en embeddings
00:09:36y entidades y relaciones.
00:09:37Lleva mucho tiempo y dinero.
00:09:38Esto es más inteligente.
00:09:40Así que, entidades y relaciones del lado de la imagen,
00:09:44exactamente lo mismo.
00:09:45También obtiene una base de datos vectorial
00:09:49y también obtiene un grafo de conocimiento.
00:09:52Entonces, ¿qué significa eso?
00:09:53Significa que de un solo documento,
00:09:55ahora hemos creado cuatro tipos de cosas, ¿verdad?
00:09:59Tenemos dos bases de datos vectoriales
00:10:02y tenemos dos grafos de conocimiento
00:10:04a partir de nuestro único documento que no es de texto.
00:10:08¿Me siguen?
00:10:09Ahora, ¿qué tenemos que hacer?
00:10:10Bueno, es algo obvio.
00:10:11Necesitamos fusionar esto.
00:10:12Así que va a tomar estas cuatro cosas
00:10:15y simplemente las va a unir, ¿verdad?
00:10:18Básicamente se van a superponer unas sobre otras.
00:10:19Las va a emparejar basándose en las entidades, esencialmente.
00:10:22Y al final vas a obtener
00:10:27una base de datos vectorial y un grafo de conocimiento.
00:10:31Prácticamente lo mismo
00:10:32que hicimos antes con LightRag.
00:10:34Bastante simple.
00:10:35Si solo estuviéramos usando RAG-anything,
00:10:38eso sería más o menos todo.
00:10:40Sin embargo, recuerden que estamos intentando poner RAG-anything
00:10:44encima de LightRag.
00:10:46Quiero todo el poder de LightRag
00:10:48y quiero todo el poder de RAG-anything.
00:10:50Entonces, ¿qué sucede ahora?
00:10:52Bueno, lo que sucede es solo una repetición de lo que acaban de ver.
00:10:54Así que bajemos un poco esto.
00:10:55Ahora tenemos nuestro conjunto de RAG-anything
00:11:00con una base de datos vectorial y un grafo de conocimiento
00:11:05y tenemos nuestro conjunto de LightRag.
00:11:06Entonces, ¿qué hacemos?
00:11:07Simplemente los fusionamos.
00:11:09Entonces, lo que sucede es que obtenemos el RAG-everything
00:11:13y el LightRag combinados,
00:11:15lo que nos da finalmente una base de datos vectorial
00:11:20y un grafo de conocimiento.
00:11:21Y a partir de ahí, es igual que antes
00:11:24con LightRag por sí solo, ¿verdad?
00:11:27Haces una pregunta sobre cualquier cosa,
00:11:31esa pregunta se convierte en un vector aquí arriba.
00:11:33Extrae los vectores relevantes
00:11:35y luego también baja por aquí,
00:11:37encuentra la entidad correcta
00:11:39y luego observa qué hay cerca, ¿de acuerdo?
00:11:43Tal vez eso fue un poco confuso.
00:11:44Espero haberlo explicado bien.
00:11:46El resumen para confundirlos aún más.
00:11:51¿Qué pasa cuando añado un documento que no puede ser texto?
00:11:54Entra en RAG-anything.
00:11:56RAG-anything extrae el texto que puede
00:11:58y luego extrae también las imágenes que puede.
00:12:00Envía ambos a ChatGPT
00:12:02o a cualquier sistema de IA que desees.
00:12:05Eso lo desglosa en embeddings,
00:12:07entidades y relaciones.
00:12:09Eso se convierte en grafos de conocimiento y bases de datos vectoriales.
00:12:13Luego los fusionamos.
00:12:15Ahora tenemos una base de datos vectorial
00:12:17y un grafo de conocimiento para RAG-anything.
00:12:19Y como ya hemos estado ejecutando esto en LightRag,
00:12:22o si has añadido más documentos encima de eso,
00:12:24tienes una base de datos vectorial existente
00:12:27y un grafo de conocimiento existente.
00:12:29Para solucionar eso, simplemente los fusionamos.
00:12:32Y al final, no habrás notado absolutamente nada.
00:12:35De nuevo, como usuario, todo esto es invisible para ti, ¿vale?
00:12:39Nada de esto realmente te importa.
00:12:41Lo único que podría importarte
00:12:42es lo que está pasando aquí con GPT 5.4
00:12:45porque te va a costar algo de dinero.
00:12:47Pero para fines educativos,
00:12:50así es como el sistema RAG-anything
00:12:53se integra con el sistema LightRag.
00:12:55Y al final del día,
00:12:57solo significa que tienes un sistema RAG
00:12:58que puede manejar documentos que no son de texto.
00:13:00Y si todavía sigues aquí después de todo eso,
00:13:03ahora podemos entrar en cómo instalar realmente esto
00:13:07y usarlo.
00:13:08Así que hablemos de la instalación
00:13:09y de cómo usarlo realmente
00:13:10y un par de cosas de las que debes cuidarte.
00:13:11Creé un prompt de un solo paso que puedes darle a Claude Code
00:13:14que instalará todo por ti
00:13:17y actualizará los modelos adecuados y todo eso.
00:13:19Todo lo que necesitas hacer es asegurarte
00:13:20de estar en tu directorio de LightRag cuando ejecutes esto.
00:13:23Así que realmente hay tres cosas que hará.
00:13:25En primer lugar, se asegurará
00:13:27de actualizar la ruta de almacenamiento correcta
00:13:29ya que ya tienes una instancia de LightRag en Docker ejecutándose.
00:13:32Dos, queremos actualizar el modelo
00:13:33porque según el GitHub,
00:13:34fue creado originalmente hace un tiempo.
00:13:37Así que todos los scripts de ejemplo y todo eso
00:13:39usan cosas como GPT 4.0 Mini.
00:13:41Así que lo tengo en 5.4 Nano.
00:13:43Entiende que puedes cambiar eso si quieres.
00:13:45Pero hice que usara 5.4 Nano y que mantuviera
00:13:48Text Embedding 3 Large para que podamos usar OpenAI
00:13:51para todo.
00:13:51Simplemente lo mantiene simple, juega con ello como desees.
00:13:54Por último, como estamos usando RAG-anything
00:13:55esencialmente como una capa sobre LightRag,
00:13:58algunos de los scripts de ejemplo dados en el repo de GitHub
00:14:02están algo mal.
00:14:03Hay como un error de doble envoltura de embedding,
00:14:05que de nuevo, simplemente le decimos a Claude Code que lo arregle
00:14:08y lo arreglará.
00:14:09Así que solo vas a usar este prompt.
00:14:12Nuevamente, está dentro de la comunidad gratuita de School.
00:14:14El enlace está en la descripción.
00:14:15Solo busca RAG-anything y lo encontrarás allí.
00:14:18Y una vez que ejecutes ese prompt,
00:14:19comenzará a descargar todo
00:14:21y entiende que es un poco más pesado
00:14:22porque necesita descargar MinerU
00:14:23y todas esas dependencias también.
00:14:25Ahora hablemos de la ingesta de documentos
00:14:26porque esto es algo molesto y un dolor de cabeza.
00:14:28En un mundo perfecto, la situación de LightRag más RAG-anything
00:14:33sería muy fluida y podría volcar
00:14:35lo que quisiera en LightRag / RAG-anything
00:14:40a través de una interfaz singular.
00:14:41Podría entrar en la interfaz, ir a subir
00:14:44y podría hacerlo.
00:14:45Realmente no puedes con RAG-anything con LightRag.
00:14:48Todavía puedes hacer esto para documentos de texto.
00:14:50Así que aún puedes hacer el flujo de trabajo normal
00:14:52que mostré en el video anterior donde vas a la interfaz
00:14:54o usas la habilidad de LightRag para subir documentos.
00:14:59No puedes hacer eso con RAG-anything.
00:15:01Tiene que ir, esencialmente, por un túnel diferente,
00:15:04un camino diferente.
00:15:05Pero ese camino diferente con RAG-anything
00:15:07es un script de Python.
00:15:09No hay interfaz, no hay un botón para presionar.
00:15:11Es literalmente un script.
00:15:12Es código que tienes que ejecutar.
00:15:14Ahora, por suerte, aquí es donde entra Claude Code
00:15:16y lo hace muy sencillo porque solo vamos a convertir
00:15:19ese script dentro del repo en una habilidad.
00:15:23Así que para ti, una vez creada esa habilidad,
00:15:25todo lo que tienes que hacer es decir: "Claude code,
00:15:28usa la habilidad rag anything para subir todos estos documentos",
00:15:32todos estos documentos que no son de texto.
00:15:33Y cuando lo haga,
00:15:34pasará por el proceso de minerU.
00:15:36Llevará algo de tiempo porque tiene que hacer todas estas,
00:15:39ya sabes, cosas como las que explicamos
00:15:41en la sección técnica,
00:15:43pero lo subirá a light rag
00:15:45y aparecerá dentro de tus documentos
00:15:47y dentro de tu grafo de conocimiento.
00:15:49Bien, esa es la única parte rara que necesitas saber.
00:15:51La otra parte rara, para ser sincero, es que una vez hecho esto,
00:15:54también requiere reiniciar el contenedor de Docker,
00:15:58pero como parte de la habilidad, eso sucede automáticamente.
00:16:00Así que de nuevo, desde tu punto de vista como usuario,
00:16:03la única diferencia es que solo necesitas invocar la habilidad.
00:16:06Ahora, esta habilidad, la de subida de rag anything,
00:16:08también está dentro de la comunidad gratuita.
00:16:10Así que descárgala y ponla en tu carpeta .claude
00:16:13y funcionará perfectamente.
00:16:14Ahora, sobre el hecho de que minerU tarde un poco,
00:16:17eso es porque la forma en que funciona rag anything
00:16:19cuando lo descargas es que se ejecutará en tu CPU.
00:16:22Si quieres que se ejecute en tu GPU,
00:16:24tienes que tener una versión diferente de PyTorch.
00:16:27Si todo eso te suena a chino,
00:16:29si es demasiado lento para ti, solo dile a Claude code:
00:16:32"Oye, ¿podemos ejecutar PyTorch?
00:16:34¿Podemos ejecutar minerU en nuestra GPU?"
00:16:36Y él te guiará en el proceso.
00:16:37O, de hecho, lo hará todo por su cuenta.
00:16:39Pero por defecto, simplemente se ejecutará en tu CPU.
00:16:41Tenlo en cuenta.
00:16:42Veamos un ejemplo de esto en acción.
00:16:44Uno de los documentos que ingerimos fue
00:16:48este PDF de Novatech, ¿verdad?
00:16:50Análisis de ingresos de SaaS.
00:16:51Es totalmente falso.
00:16:52Pero el punto es que ingerimos algo
00:16:55que tiene este tipo de gráfico de barras, ¿no?
00:16:57Esto es algo que obviamente se habría extraído
00:16:59como una imagen enviada a ChatGPT, etc.
00:17:01Normalmente, light rag no podría manejar esto
00:17:03porque es solo una imagen.
00:17:05Son gráficos, es difícil para él desglosar eso.
00:17:07Pero como pasamos esto por rag anything,
00:17:10ahora podemos hacer una pregunta mediante Claude code sobre esto.
00:17:13Así que le pregunté a Claude code:
00:17:14"¿Podemos consultar nuestra base de datos de light rag
00:17:15sobre la tendencia de ingresos mensuales de Novatech Inc.
00:17:18de enero a septiembre de 2025?"
00:17:20Como ven, ni siquiera usó la habilidad.
00:17:22Simplemente hizo la solicitud a la API directamente,
00:17:24lo cual también está bien con la consulta.
00:17:26¿Cuál fue la tendencia de ingresos mensuales de Novatech Inc.
00:17:29desde bla, bla, bla, bla, bla.
00:17:30Ahora dio una respuesta completa.
00:17:32Puedo echar un vistazo a la respuesta bruta si quisiera.
00:17:35¿Pero qué hizo?
00:17:36Regresó con los desgloses mensuales completos.
00:17:39Vemos enero 4.6, febrero 4.9,
00:17:43marzo 5.4, y así sucesivamente.
00:17:46En cuanto a hacer preguntas sobre estos nuevos documentos,
00:17:48es lo mismo que antes.
00:17:49La única diferencia es la subida.
00:17:51Todo lo que necesitas hacer es invocar esa habilidad
00:17:53que te estoy dando y luego decirle a Claude code
00:17:55lo que quieres poner allí.
00:17:56Podrías apuntar a toda una carpeta.
00:17:58Puedes apuntar a una descarga específica.
00:18:00Es igual de fácil.
00:18:01Esto es lo único realmente raro a lo que hay que acostumbrarse:
00:18:04estas dos rutas de subida.
00:18:05Pero la pregunta y respuesta real,
00:18:07es simplemente lenguaje natural.
00:18:09Lenguaje natural, incluso si también tienes las habilidades,
00:18:11que también di en el último vídeo,
00:18:13pero Claude code también es lo bastante inteligente
00:18:14para entender la estructura de la API de todo esto.
00:18:17Porque es local, está en tu ordenador.
00:18:19Así que eso es realmente todo en cuanto a rag anything.
00:18:21Sé que la mayor parte de este vídeo
00:18:22se centró un poco en los aspectos técnicos,
00:18:24pero como ven, una vez construida esa base de light rag,
00:18:28añadir rag anything encima no es demasiado difícil,
00:18:32especialmente si usamos ese prompt de un solo paso que les di.
00:18:35Hay algunas cosas que puedes retocar en los bordes
00:18:37como cualquier cosa cuando se trata de consultarlo,
00:18:39pero realmente con Claude code,
00:18:41él se encarga de todos los pesos
00:18:43que puedes ajustar dentro de light rag.
00:18:45Y con eso me refiero a que,
00:18:45si vamos a la sección de recuperación,
00:18:47todos los parámetros aquí a la derecha.
00:18:49De nuevo, Claude code sabe cuáles suelen ser mejores para ti.
00:18:52En general, espero que esto haya explicado
00:18:56lo fácil que es configurar rag anything,
00:18:58y también lo fácil que es añadir este nivel de funcionalidad
00:19:02a tus sistemas RAG,
00:19:03lo cual en muchos sistemas RAG simplemente no es posible
00:19:05o es muy costoso.
00:19:06Y esto es relativamente barato,
00:19:08especialmente con todo ese sistema de parseo local minerU
00:19:11que pudimos configurar.
00:19:12Como siempre, cuéntenme qué les ha parecido.
00:19:14Asegúrense de echar un vistazo a Chase AI+
00:19:16si quieren acceder a esa masterclass de Claude code,
00:19:18y nos vemos pronto.

Key Takeaway

RAG Anything extiende las capacidades de Light RAG mediante el uso de MinerU para procesar localmente componentes visuales y convertirlos en entidades y relaciones de un grafo de conocimiento unificado.

Highlights

RAG Anything supera la limitación de texto de Light RAG permitiendo la ingesta de imágenes, tablas, gráficos y PDFs escaneados.

El sistema utiliza MinerU, un procesador de código abierto, para desglosar localmente documentos complejos en componentes de texto, ecuaciones LaTeX e imágenes.

La arquitectura divide el procesamiento en dos rutas: una para texto analizada por modelos como PaddleOCR y otra para capturas de pantalla procesadas por modelos de visión.

El flujo de trabajo genera cuatro activos por documento: dos bases de datos vectoriales y dos grafos de conocimiento que se fusionan en una interfaz única.

La implementación con Claude Code requiere una habilidad específica para ejecutar los scripts de Python necesarios para la ingesta de archivos no textuales.

Las pruebas con documentos financieros de Novatech Inc. demuestran que el sistema extrae con precisión datos de tendencias desde gráficos de barras de enero a septiembre de 2025.

Timeline

Limitaciones del RAG tradicional y la solución RAG Anything

  • La mayoría de los sistemas RAG fallan al procesar información que no sea estrictamente texto plano.
  • RAG Anything actúa como un contenedor sobre Light RAG para habilitar el soporte de archivos multimedia.
  • Los documentos PDF escaneados se vuelven legibles mediante este sistema de procesamiento avanzado.

Los sistemas convencionales ignoran elementos cruciales como tablas o gráficos en documentos empresariales. Esta herramienta se integra directamente en el stack existente de Light RAG para mantener la coherencia del flujo de trabajo. La solución permite que documentos que antes eran inaccesibles para la IA ahora formen parte de la base de conocimientos corporativa.

Arquitectura técnica y procesamiento local con MinerU

  • MinerU descompone el documento original en bloques específicos de encabezados, texto, tablas e imágenes de forma local.
  • El procesamiento se divide en dos categorías principales: el cubo de texto y el cubo de imagen.
  • Modelos especializados como PaddleOCR transforman el contenido escaneado en texto real manejable por LLMs.

El uso de MinerU garantiza la privacidad al ejecutarse en el hardware del usuario sin costo adicional. El sistema identifica visualmente cada sección del documento antes de enviarla al modelo de lenguaje correspondiente. Esta segmentación es fundamental para que el sistema entienda la estructura jerárquica y el tipo de datos que está analizando.

Generación de embeddings y grafos de conocimiento

  • El modelo GPT 5.4 Mini extrae entidades y relaciones tanto del texto extraído como de las capturas de pantalla.
  • La separación de rutas entre texto e imagen reduce significativamente los costos y el tiempo de procesamiento.
  • Se generan bases de datos vectoriales y grafos de conocimiento independientes para cada tipo de contenido.

Enviar solo capturas de pantalla específicas a modelos de visión potentes evita el desperdicio de tokens en texto simple. El sistema solicita explícitamente a la IA que identifique relaciones lógicas para alimentar el grafo. Este enfoque híbrido asegura que la información visual y textual se indexe con la misma profundidad semántica.

Fusión de datos y flujo de consulta unificado

  • Los grafos provenientes de RAG Anything y Light RAG se superponen basándose en entidades comunes.
  • El usuario final percibe una única base de datos a pesar de la complejidad de la integración interna.
  • El sistema de consulta vectorial permite encontrar información relevante en milisegundos tras la fusión.

La unión de los sistemas crea un ecosistema de información robusto donde los datos de diferentes fuentes convergen. Las entidades detectadas sirven como puntos de anclaje para conectar un gráfico de un PDF con un párrafo de un documento de texto. Este proceso de consolidación es invisible para el usuario, manteniendo la simplicidad en la etapa de preguntas y respuestas.

Instalación y flujo de trabajo con Claude Code

  • Un prompt de un solo paso en Claude Code automatiza la instalación de dependencias y la configuración de Docker.
  • La ingesta de documentos no textuales requiere el uso de scripts de Python en lugar de una interfaz web tradicional.
  • El procesamiento puede acelerarse configurando PyTorch para utilizar la GPU en lugar de la CPU.

La configuración estándar utiliza GPT 5.4 Nano y OpenAI Text Embedding 3 Large para optimizar el rendimiento. Debido a que RAG Anything carece de interfaz gráfica nativa, las habilidades de Claude Code simplifican la carga de archivos mediante lenguaje natural. El sistema permite apuntar a carpetas completas para procesar lotes de documentos complejos de forma masiva.

Demostración práctica: Análisis de datos visuales

  • El sistema extrae datos numéricos precisos de gráficos de barras que Light RAG ignoraría por completo.
  • Claude Code puede consultar la API local directamente para recuperar tendencias de ingresos mensuales.
  • La integración local ofrece una solución de bajo costo para el análisis de documentos complejos.

En una prueba real, el sistema identificó valores exactos como 4.6 en enero y 5.4 en marzo a partir de una imagen. Esta capacidad demuestra que el razonamiento sobre gráficos es posible mediante la técnica de captura y OCR selectivo. El resultado final es un asistente que comprende no solo lo que está escrito, sino lo que está representado visualmente en los informes.

Community Posts

View all posts