Claude Code + RAG-Anything = 潜力无限

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00几乎所有的 RAG 系统都面临着同样的问题。

00:00:04它们只能处理文本文件。

00:00:06所以，如果你尝试给它图片、图表、图形之类的东西，

00:00:10大多数 RAG 系统都无法处理。

00:00:12昨天我给你们展示 LightRAG 时，

00:00:13它也面临着完全相同的问题。

00:00:16但今天我要向你们展示解决方案。

00:00:19那个方案就是 RAG-Anything。

00:00:20RAG-Anything 为我们解决了这个文档处理难题。

00:00:23它可以处理图像。

00:00:24它可以处理图表。

00:00:25它可以处理图形。

00:00:25它允许我们创建一个 RAG 系统，

00:00:28能够真正处理你所使用的各类文档。

00:00:31RAG-Anything 出自开发 LightRAG 的同一个团队。

00:00:34它可以直接插入到

00:00:36我们昨天构建的 LightRAG 系统中。

00:00:37所以把它引入到我们的技术栈中非常容易。

00:00:40今天我将向你们展示具体如何配置，

00:00:43以及它的底层运行机制。

00:00:44这样你就可以开始使用目前市面上

00:00:46最强大的 RAG 系统之一了。

00:00:48如果开场白说得还不够明显，

00:00:50我会默认你已经看过

00:00:52昨天的 LightRAG 视频了。

00:00:54如果你还没看，我会在上方放一个链接，

00:00:56因为今天我会假设你已经搭建好了

00:00:58你的 LightRAG 服务器。

00:00:59你理解 RAG 的工作原理，也理解

00:01:02整个知识图谱是怎么回事。

00:01:03因为 RAG-Anything 本质上是

00:01:06对 LightRAG 的一层封装。

00:01:07我们仍将使用相同的 LightRAG Web UI，

00:01:10虽然会有一些细微差别，

00:01:11但推送到 RAG-Anything 的所有内容，

00:01:13也就是这些非文本文件，

00:01:15最终都会进入同一个知识图谱。

00:01:17我们将向它提问相同的问题。

00:01:19我们将使用相同的 API 进行查询，

00:01:22就像我们昨天通过 Claude Code 所做的那样。

00:01:24我们今天要添加的功能

00:01:26是非常重大的。

00:01:28仅仅构建一个纯文本的 RAG 系统是不够的。

00:01:30我们现实操作的世界并非只有纯文本。

00:01:32你们有多少人拿到过 PDF 文件，

00:01:34它技术上甚至不是文本，只是扫描件。

00:01:36LightRAG 无法真正处理那种文件，而 RAG-Anything 可以。

00:01:39现在我们要深入一点技术层面。

00:01:40我们将深入底层，我会详细解释

00:01:43整个系统是如何运作的。

00:01:44但从宏观上看，它在做什么？

00:01:46RAG-Anything 只是在查看

00:01:49那些非文本的文档。

00:01:50它基本上在做 LightRAG 所做的事情，

00:01:52只不过是针对这些非文本文件。

00:01:55在它创建了自己的知识图谱

00:01:56和它自己的向量数据库之后，

00:01:58它会将其与 LightRAG 的数据库合并，

00:02:00这就是为什么所有内容最终都整合在

00:02:04一个整洁的地方，供我们提问。

00:02:06目前 RAG-Anything 唯一的缺点是

00:02:08它稍微重一些。

00:02:09我们需要在电脑上下载一些模型，

00:02:12用来帮助解析这些非文本文件。

00:02:14而且在实际摄取非文本文件时，

00:02:18我们无法通过 LightRAG UI 直接完成。

00:02:22我们需要使用脚本。

00:02:23幸运的是，这正是 Claude Code 大显身手的地方。

00:02:25所以对于你这个用户来说，在设置好一切后，

00:02:28如果你想摄取非文本文件，

00:02:31只需要告诉 Claude Code：嘿，去吧，

00:02:33使用 RAG-Anything 技能并摄取这个文件。

00:02:36就是这么简单。

00:02:37提问的方式和以前完全一样。

00:02:39所以真的还不错。

00:02:40而且只需通过这种方式，你就能获得所有这些功能。

00:02:43在进入 RAG-Anything 的实际工作原理之前，

00:02:46我想为我的 Claude Code 大师课打个广告，

00:02:49它几周前刚刚发布，

00:02:50是让你从零基础成长为 AI 开发者的最佳途径，

00:02:53尤其是如果你没有技术背景的话。

00:02:55我几乎每周都会更新。

00:02:57明天就会有一个新的更新。

00:02:59所以如果你正努力想掌握

00:03:01Claude Code 但却不知道从何开始，

00:03:03那么这个课程就是为你准备的。

00:03:05评论区里有相关链接。

00:03:07它就在 Chase AI Plus 会员频道里。

00:03:09我也有免费的 Chase AI 社区。

00:03:11如果你觉得这些内容太深奥，

00:03:12或者你才刚刚起步。

00:03:14链接就在简介里。

00:03:15在那里你也能找到我今天

00:03:19要讨论的所有提示词和技能。

00:03:20所以无论如何都去看看吧。

00:03:22现在让我们来聊聊 RAG-Anything

00:03:23以及这东西到底是怎么运作的。

00:03:25说实话，它非常简单，一目了然。

00:03:28为了不浪费你的时间，

00:03:29我会把这张图片展示大概 10 秒钟，

00:03:32然后我们就进入下一项内容。

00:03:34好了，挺不错的。

00:03:39好，我们继续。

00:03:41开个玩笑。

00:03:42其实内容还挺多的。

00:03:44这张图让它看起来比实际情况更复杂。

00:03:46如果你理解了我们前几天用 LightRAG 做的事情，

00:03:50记得那次对话，你就没问题。

00:03:52RAG-Anything 的运作方式非常相似，

00:03:55只是多出了几个步骤。

00:03:56我想过一遍这些步骤，

00:03:57因为我认为理解这些东西

00:03:58是如何工作的非常重要。

00:04:00我觉得在 AI 领域，

00:04:01人们很容易变得过于关注实践应用。

00:04:04比如：Chase，我只想知道怎么安装，

00:04:05然后怎么去用它。

00:04:06这没问题，如果你是这类人，可以跳过这段。

00:04:08但我觉得如果你想成为一名更成熟的 AI 开发者，

00:04:11并且想把自己

00:04:13和那些随时会被取代的工具人区分开来，

00:04:15那些只会不停点接受、只会复制

00:04:17提示词和技能的人，

00:04:18那么我认为对架构有一定的

00:04:21了解是非常重要的，

00:04:22因为这正是让你脱颖而出的地方。

00:04:23不仅在于你如何使用这个 RAG 系统，

00:04:24更在于处理更高层次、更大型的项目时，对吧？

00:04:27这是你开始创造属于自己技能的开始，

00:04:30让你真正变得精通此道。

00:04:34所以，我们来谈谈吧。

00:04:35关于 RAG-Anything。

00:04:37我们先聊聊问题本身，对吧？

00:04:38问题是我有一份扫描件形式的 PDF，

00:04:40它其实并不是文本，

00:04:44但我需要把它存入我的 RAG 系统。

00:04:45LightRAG 处理不了它。

00:04:46于是 RAG-Anything 登场了，对吧？

00:04:48就是那个戴着超酷墨镜的羊驼标志。

00:04:51首先会发生的

00:04:53是我将这份文档摄取到 RAG-Anything 中。

00:04:56它做的第一件事

00:05:00是使用一个名为 MinerU 的程序，

00:05:02它完全在你的电脑本地免费运行。

00:05:05它本质上会将这份文档

00:05:08分解成各个组成部分。

00:05:11MinerU 是一个开源项目。

00:05:12重申一下，它本质上是一个文档解析器，

00:05:14包含了一系列微型专业化模型。

00:05:16你只需要知道，如果你对此感到担心，它是开源的。

00:05:19我会在下方放一个链接。

00:05:21再次强调，这就是今天运行并

00:05:22为我们完成大部分工作的核心。

00:05:23MinerU 在查看这份文档并说：

00:05:25“好的，这是一个页眉。”

00:05:26它会在页眉周围画一个框。

00:05:29它说：“这是文本。”

00:05:32它说：“这是一个图表。”

00:05:33它说：“这是一个条形图的图像。”

00:05:36它还会说：“这是一个用 LaTeX 编写的方程。”

00:05:39它所做的就是审视文档

00:05:41并将其拆解成各个特殊部分。

00:05:44MinerU 并不理解这里面的内容。

00:05:47MinerU 并不是在阅读文字。

00:05:50它不理解文字的意思。

00:05:52它也不理解图表是关于什么的。

00:05:53它只知道哪里是图表、文本和图像，明白吗？

00:05:55从那里开始，它会将这些组成部分

00:05:56发送到 MinerU 内部的各个专业模型中。

00:06:01这对你来说是不可见的。

00:06:05这一切都是在底层自动发生的。

00:06:10其中一个模型叫做 PaddleOCR。

00:06:12那是用来处理文本的。

00:06:15所以 MinerU 会将这个文本块发送到你电脑上的 PaddleOCR，

00:06:20然后它会提取出文字，好吗？

00:06:21所以现在它不再是扫描后的死文本，

00:06:24而是真正的文本，内容是：X 公司报告了强劲的 23 年第三季度

00:06:28业绩，营收增长，等等等等。

00:06:30对吧？这段文本也是一样。

00:06:34图表也是一样，对吧？

00:06:36它也会将其转化为文本，对吧？

00:06:40转化为大语言模型可以处理的东西。

00:06:41LaTeX 方程也是如此。

00:06:43它有一个专门处理那个的模型，对吧？

00:06:45现在这不再是 LaTeX 代码，而是实际的文本。

00:06:47除了图像。

00:06:48所以无论这是条形图还是其他的，

00:06:52基本上只要是它无法转化为文本的东西。

00:06:54它会转而采取的行动

00:06:57是给它截个图，

00:07:00这一点很重要，明白吗？

00:07:01所以现在这是一个截图。

00:07:03它是一张图像，截图。太棒了。

00:07:05那么我们现在拥有什么？

00:07:07我们输入了一个非文本文件。

00:07:11它已被识别并拆解为各个组成部分，

00:07:13我们把这些部分

00:07:16分成了两个桶，对吧？

00:07:18我们有文本桶和图像桶。

00:07:20意识到这一点很重要。之后会有两条路径，图像或文本。

00:07:22我们有文本桶和图像桶。

00:07:26意识到这一点很重要。

00:07:28它可以走两条路径：图像或文本。

00:07:31好，你听明白了吗？

00:07:32那么它现在要做的是，

00:07:34我们已经用完了这些内部模型。

00:07:36现在我们需要搬出“大人物”了。

00:07:37现在我们需要引入像 GPT 5.4 Mini 这样的模型。

00:07:40值得注意的是，事实并非必然如此。

00:07:42如果你愿意，你可以把这一切都留在本地。

00:07:44你可以使用像 Ollama 这样的工具。

00:07:45所以现在我把文本桶推送到 GPT 5.4 Mini。

00:07:50并且我包含了一个提示词，上面写着：

00:07:52我想让你把这段文本分解成两部分。

00:07:55我想让你提取那段文本，

00:07:57并将其分解为实体和关系。

00:08:01还记得实体和关系吗？

00:08:03还记得我们的知识图谱吗？

00:08:05实体、实体，以及它们之间的某种关系。

00:08:09好的，我想让你把它分解开，

00:08:13分解成将用于向量数据库的嵌入（embeddings）。

00:08:17所以是嵌入，嵌入，

00:08:21然后我只想说：实体加关系。

00:08:26现在，提前想想接下来会发生什么？

00:08:29嗯，嵌入将变成向量数据库中的

00:08:32嵌入向量，而实体和关系

00:08:35将变成一个知识图谱，

00:08:37就像我们用 LightRag 做的一样，对吧？

00:08:39一模一样，只不过现在，

00:08:42现在它是来自文本桶的。

00:08:44但是我们刚才那些图像怎么办，对吧？

00:08:47我们要拿这些家伙怎么办？

00:08:48同样的操作，这些也会被推送到 5.4，

00:08:52但它是作为截图，作为 OCR 处理的。

00:08:55所以我们告诉 GPT 5.4，看一下这张截图

00:08:59并将其分解为两样东西，对吧？

00:09:02嵌入，以及实体加关系。

00:09:06现在，我们为什么要那样做？

00:09:07为什么不直接把所有东西塞进同一个提示词里，

00:09:09让它直接对这整件事进行 OCR 呢，对吧？

00:09:12为什么不把这整个东西都当成一张截图处理？

00:09:14因为那样做既昂贵又缓慢。

00:09:16RAG-anything 选择的做法是，

00:09:17我认为这很聪明，

00:09:19它就像在你的电脑本地层面用手术刀，

00:09:21将其拆分为文本，

00:09:24拆分为截图。

00:09:25所以当我们走这两条路径时，

00:09:27你节省了大量的金钱和时间。

00:09:29因为想象一下，如果你想让 ChatGPT

00:09:31查看 10,000 张截图，然后提取出所有文本，

00:09:34再从文本中，分解出嵌入

00:09:36以及实体和关系。

00:09:37这需要耗费大量的时间和金钱。

00:09:38现在的做法更聪明。

00:09:40所以来自图像端的实体和关系，

00:09:44也是完全一样的。

00:09:45它也会得到一个向量数据库，

00:09:49它也会得到一个知识图谱。

00:09:52那么这意味着什么？

00:09:53这意味着从一个文档中，

00:09:55我们现在创建了四种东西，对吧？

00:09:59我们有两个向量数据库

00:10:02和两个知识图谱，

00:10:04全都来自我们那一份非文本文件。

00:10:08你听明白了吗？

00:10:09现在，我们要做什么？

00:10:10嗯，显而易见。

00:10:11我们需要合并这些。

00:10:12所以它会把这四样东西

00:10:15直接推到一起，对吧？

00:10:18它们基本上会相互重叠。

00:10:19它基本上会根据实体来匹配它们。

00:10:22最后你就会得到，

00:10:27一个向量数据库和一个知识图谱。

00:10:31这跟我们之前

00:10:32用 LightRag 做的事情基本上一模一样。

00:10:34很简单。

00:10:35如果我们只是在使用 RAG-anything，

00:10:38那差不多就是它的全部内容了。

00:10:40然而，记得我们要把 RAG-anything

00:10:44叠加在 LightRag 之上。

00:10:46我想要 LightRag 的所有功能，

00:10:48我也想要 RAG-anything 的所有功能。

00:10:50那现在会发生什么？

00:10:52嗯，发生的事情就是你刚才看到的重复。

00:10:54所以让我们把这个带下来。

00:10:55现在我们有了 RAG-anything 的一套

00:11:00向量数据库和知识图谱，

00:11:05我们还有 LightRag 的一套。

00:11:06那么我们做什么？

00:11:07我们只需将它们合并在一起。

00:11:09接着发生的就是，我们将 RAG-everything

00:11:13和 LightRag 结合在一起，

00:11:15这最终给了我们一个向量数据库

00:11:20和一个知识图谱。

00:11:21从那里开始，就像以前一样，

00:11:24就像单独使用 LightRag 一样，对吧？

00:11:27你问一个关于任何事情的问题，

00:11:31那个问题在这里被转换成一个向量。

00:11:33它提取相关的向量，

00:11:35然后它也转到下面，

00:11:37找到正确的实体，

00:11:39然后查看附近有什么，好吗？

00:11:43也许这有一点令人困惑。

00:11:44我希望我解释清楚了。

00:11:46简单回顾一下，以免让你更糊涂。

00:11:51当我添加一个不能是文本的文档时会发生什么？

00:11:54它进入 RAG-anything。

00:11:56RAG-anything 尽力提取出文本，

00:11:58并尽力提取出图像。

00:12:00它将这两者都发送给 ChatGPT

00:12:02或任何你想要的 AI 系统。

00:12:05它将其分解为嵌入、

00:12:07实体和关系。

00:12:09这些被转换成知识图谱和向量数据库。

00:12:13然后我们把它们合并在一起。

00:12:15我们现在为 RAG-anything 拥有了一个向量数据库

00:12:17和一个知识图谱。

00:12:19既然我们已经在 LightRag 中运行了，

00:12:22或者如果你在上面添加了更多文档，

00:12:24你就有了一个现有的向量数据库

00:12:27和一个现有的知识图谱。

00:12:29为了解决这个问题，我们只需合并它们。

00:12:32最后，你根本不会察觉到任何异样。

00:12:35同样，作为用户，这一切对你来说都是不可见的，好吗？

00:12:39这些其实对你都不重要。

00:12:41唯一对你可能有影响的

00:12:42是 GPT 5.4 这边发生的事情，

00:12:45因为它会让你花一些钱。

00:12:47但出于教学目的，

00:12:50这就是 RAG-anything 系统

00:12:53如何与 LightRag 系统集成的。

00:12:55归根结底，

00:12:57这仅仅意味着你拥有了一个

00:12:58可以处理非文本文件的 RAG 系统。

00:13:00如果你在听完这些之后还没走，

00:13:03现在我们可以进入你如何实际安装这个东西

00:13:07并使用它的环节了。

00:13:08现在让我们谈谈安装过程、

00:13:09如何实际使用它，

00:13:10以及你需要注意的几件事。

00:13:11所以我创建了一个单次提示词，你可以发给 Claude code，

00:13:14它会为你安装所有东西，

00:13:17并更新合适的模型等等。

00:13:19你只需要确保

00:13:20在运行它时，你处于 LightRag 目录下。

00:13:23所以它实际上要做三件事。

00:13:25首先，它将确保

00:13:27我们更新了正确的存储路径，

00:13:29因为你已经有一个 Docker LightRag 实例在运行了。

00:13:32第二，我们要更新模型，

00:13:33因为基于 GitHub 的信息，

00:13:34它最初是在一段时间前创建的。

00:13:37所以所有的示例脚本之类的

00:13:39使用的是像 GPT 4.0 mini 这种。

00:13:41所以我将其改为了 5.4 nano。

00:13:43请理解，如果你愿意，你可以更改它。

00:13:45但我让它使用 5.4 nano，并保持

00:13:48文本嵌入模型为 text-embedding-3-large，这样我们就可以

00:13:51全程使用 OpenAI。

00:13:51这样更简单，你可以根据喜好进行尝试。

00:13:54最后，既然我们将 RAG-anything 用作

00:13:55LightRag 顶层的一个包装器（wrapper），

00:13:58GitHub 仓库中提供的一些示例脚本

00:14:02其实是有点错误的。

00:14:03比如存在这个“嵌入双重包装”Bug，

00:14:05同样，我们只需告诉 Claude code 去修复它，

00:14:08它就会修复。

00:14:09所以你只需要使用这个提示词。

00:14:12同样，它就在免费学校社区里。

00:14:14链接在描述中。

00:14:15只需搜索 RAG-anything，你就能在那里找到它。

00:14:18一旦你运行那个提示词，

00:14:19它就会开始下载所有内容，

00:14:21请理解这会稍微重一点，

00:14:22因为它需要下载 MinerU

00:14:23以及所有那些依赖项。

00:14:25现在让我们谈谈提取文档，

00:14:26因为这有点烦人，也很麻烦。

00:14:28在一个理想的世界里，LightRag 加上 RAG-anything 的情况

00:14:33应该是流线化的，我可以把

00:14:35任何我想要的东西都丢进 LightRag / RAG-anything，

00:14:40通过一个单一的界面。

00:14:41我可以进入 UI，点击上传，

00:14:44然后就这样做。

00:14:45但目前 RAG-anything 配合 LightRag 还没法做到。

00:14:48对于文本文件，你仍然可以这样做。

00:14:50所以你仍然可以使用我上段视频中展示的

00:14:52常规工作流，即进入 UI，

00:14:54或者使用 LightRag 的技能来上传文档。

00:14:59但对于 RAG-anything，你不能这样做。

00:15:01它必须走一条本质上不同的隧道，

00:15:04一条不同的路径。

00:15:05而 RAG-anything 的那条不同路径

00:15:07是一个 Python 脚本。

00:15:09没有 UI，没有按钮可以按。

00:15:11它字面上就是一个脚本。

00:15:12是你必须运行的代码。

00:15:14幸运的是，这正是 Claude code 派上用场的地方，

00:15:16这让一切变得非常简单，因为我们只需

00:15:19将代码库中的那个脚本转换为一项技能。

00:15:23所以对你来说，一旦该技能创建完成，

00:15:25你只需要对 Claude code 说：

00:15:28“使用 rag anything 技能上传所有这些文档，”

00:15:32所有这些非文本格式的文档。

00:15:33当它执行时，

00:15:34它会进入 minerU 的处理流程。

00:15:36这需要一些时间，因为它必须完成所有这些

00:15:39处理步骤，就像我们在之前的

00:15:41技术章节中解释过的那样，

00:15:43但它会将其上传到 light rag，

00:15:45然后它就会出现在你的文档

00:15:47和你的知识图谱中。

00:15:49好了，这是你需要了解的唯一比较特别的地方。

00:15:51说实话，另一个特别之处是，一旦你完成了操作，

00:15:54它还需要你重启 Docker 容器，

00:15:58但作为技能的一部分，这是自动完成的。

00:16:00所以，再次从你作为用户的角度来看，

00:16:03唯一的区别就是你只需要调用该技能。

00:16:06现在，这个 rag anything 上传技能

00:16:08也在免费社区中提供。

00:16:10只需下载它，然后放入你的 .claude 文件夹，

00:16:13它就能正常工作了。

00:16:14关于 minerU 处理较慢的一点说明，

00:16:17那是由于 rag anything 的运作方式，

00:16:19当你下载它时，它默认在 CPU 上运行。

00:16:22如果你想让它在 GPU 上运行，

00:16:24你需要安装不同版本的 PyTorch。

00:16:27如果这些听起来太复杂，

00:16:29而处理速度又让你觉得太慢，只需告诉 Claude code：

00:16:32“嘿，我们能运行 PyTorch 吗？”

00:16:34“我们能在 GPU 上运行 minerU 吗？”

00:16:36它会引导你完成，

00:16:37或者事实上，它会完全自主地搞定。

00:16:39但默认情况下，它只在 CPU 上运行。

00:16:41心里有个数就行。

00:16:42让我们来看看实际操作的例子。

00:16:44我们摄取的文档之一是

00:16:48这份 Novatech 的 PDF，对吧？

00:16:50一份 SaaS 营收分析。

00:16:51它是完全虚构的。

00:16:52但重点是我们摄取了一些

00:16:55带有这种柱状图的内容，对吧？

00:16:57这显然是那种需要

00:16:59提取成图像发送给 ChatGPT 之类的东西。

00:17:01通常 light rag 无法处理这种内容，

00:17:03因为它只是一张图片。

00:17:05它是图表，很难将其解析出来。

00:17:07但由于我们通过 rag anything 运行了它，

00:17:10我们现在可以通过 Claude code 对此进行提问。

00:17:13我询问了 Claude code：

00:17:14“我们可以查询 light rag 数据库”

00:17:15“关于 Novatech 公司在 2025 年 1 月至 9 月的”

00:17:18“月度营收趋势吗？”

00:17:20你可以看到，它甚至没有使用那个技能。

00:17:22它直接进行了 API 请求，

00:17:24这对于查询来说也是完全没问题的。

00:17:26“Novatech 公司的月度营收趋势是怎样的，”

00:17:29“从某某时间到某某时间。”

00:17:30现在它给出了完整的回复。

00:17:32如果我想的话，可以查看原始响应。

00:17:35但它做了什么？

00:17:36它返回了完整的月度数据明细。

00:17:39我们看到 1 月是 4.6，2 月是 4.9，

00:17:433 月是 5.4，以此类推。

00:17:46所以，在针对这些新文档提问方面，

00:17:48操作和以前一样。

00:17:49唯一的区别在于上传过程。

00:17:51你只需要调用我提供给你的

00:17:53那个技能，然后告诉 Claude code

00:17:55你想把什么内容放进去。

00:17:56你可以指向整个文件夹，

00:17:58也可以指向特定的下载文件。

00:18:00就是这么简单。

00:18:01这是你唯一需要适应的略显奇怪的地方，

00:18:04就是这两条上传路径。

00:18:05但实际的问答过程，

00:18:07完全是使用自然语言。

00:18:09即使你有那些我上个视频中给出的技能，

00:18:11也同样是自然语言，

00:18:13而且 Claude code 也足够聪明，

00:18:14能理解整套系统的 API 结构。

00:18:17因为它是本地化的，就在你的电脑上。

00:18:19关于 rag anything 的介绍大概就是这些。

00:18:21我知道这个视频的大部分内容

00:18:22都集中在技术层面，

00:18:24但正如你所见，一旦我们建立起 light rag 基础，

00:18:28在其之上添加 rag anything 并不太难，

00:18:32尤其是如果你直接使用我提供给你的单发提示词。

00:18:35当然，你可以对查询时的边缘细节

00:18:37进行一些微调，

00:18:39但说真的，通过 Claude code，

00:18:41它可以全权负责 light rag 中

00:18:43你可以调节的所有权重参数。

00:18:45关于这一点，我指的是

00:18:45如果我们进入检索部分，

00:18:47右侧显示的所有参数。

00:18:49再说一次，Claude code 知道哪些参数最适合你。

00:18:52总的来说，我希望这解释清楚了

00:18:56设置 rag anything 是多么容易，

00:18:58以及为你的 RAG 系统添加这种级别的功能

00:19:02是多么简单，

00:19:03在许多其他 RAG 系统中，这根本无法实现，

00:19:05或者是极其昂贵的。

00:19:06而这种方式相对便宜，

00:19:08特别是配合我们建立的这一套

00:19:11minerU 本地解析系统。

00:19:12一如既往，请告诉我你的想法。

00:19:14如果你想参加 Claude code 大师课，

00:19:16记得去看看 Chase AI+，

00:19:18我们回头见。

Key Takeaway

通过将本地 MinerU 解析器与 LightRAG 架构相结合，RAG-Anything 能够将原本无法读取的图像和扫描文档转化为结构化的知识图谱，实现对多模态数据的统一检索。

Highlights

RAG-Anything 通过集成开源文档解析器 MinerU，实现了对 PDF 扫描件、图表、图形和 LaTeX 方程的自动化处理。

该系统将非文本内容拆分为文本桶和图像桶，通过 PaddleOCR 提取文字，并对复杂图表进行截图处理以降低 API 调用成本。

RAG-Anything 本质上是 LightRAG 的封装层，处理后的非文本数据最终会与 LightRAG 的知识图谱和向量数据库完成自动合并。

系统支持在本地使用 Ollama 或通过 OpenAI GPT 5.4 Nano 模型将提取的内容分解为实体、关系和嵌入向量。

用户可以通过 Claude Code 的自定义技能（Skill）实现非文本文件的批量上传，避开了 LightRAG 原生 UI 仅支持文本的限制。

在处理带有月度营收柱状图的虚构 Novatech PDF 时，该系统成功准确提取并返回了 1 月至 9 月的具体财务数值。

Timeline

传统 RAG 系统的局限性与 RAG-Anything 的定位

大多数 RAG 系统仅能处理纯文本，无法识别 PDF 扫描件中的图像或复杂图表。
RAG-Anything 专门为解决非文本处理难题而设计，可处理图像、图表和图形。
此方案作为 LightRAG 的封装层，允许用户使用相同的 API 和知识图谱结构。

现实世界中的文档往往包含大量非文本元素，单纯的文本检索系统无法满足复杂办公需求。RAG-Anything 由开发 LightRAG 的原团队打造，能够直接插入现有的技术栈中。这种架构确保了即使是扫描件或技术图纸，最终也能进入统一的知识库供用户提问。

多模态数据处理的底层逻辑与架构分析

本地开源工具 MinerU 使用微型专业化模型将文档拆分为页眉、文本、图表和方程等组成部分。
PaddleOCR 模型负责将扫描文本转化为可编辑文字，而图像部分则被转化为截图处理。
系统并行生成两套向量数据库和知识图谱，分别对应文本路径和图像路径，最后进行重叠合并。

这种“手术刀”式的拆解方法比直接将整页文档发送给大模型更节省金钱和时间。文本内容直接提取，而图像则由 GPT 5.4 等多模态模型提取其中的实体和关系。通过这种双路径策略，昂贵的视觉 API 调用仅用于必要的截图部分，提高了整体处理效率。

LightRAG 与 RAG-Anything 的深度集成

RAG-Anything 生成的四种产物（两套向量库、两套知识图谱）最终会合并为一套标准结构。
用户在查询时无需区分数据来源，系统会自动匹配相关的向量和实体关系。
集成后的系统保留了 LightRAG 的所有功能，并扩展了对非文本文件的支持。

在最终的合并阶段，RAG-Anything 会根据实体名称将不同路径获得的信息进行匹配。这意味着用户提出的自然语言问题会同时在文本生成的索引和图像生成的索引中寻找答案。对用户而言，这个复杂的后端过程完全不可见，查询体验与纯文本系统保持一致。

基于 Claude Code 的自动化安装与技能配置

通过单次提示词即可让 Claude Code 完成 MinerU 下载、依赖安装及 Docker 路径更新。
系统默认在 CPU 上运行 MinerU，但用户可以通过安装特定版本的 PyTorch 切换至 GPU 加速。
由于 RAG-Anything 缺乏图形界面，通过 Claude Code 创建 Python 脚本技能是目前最高效的上传方式。

由于环境配置涉及 Docker 容器重启和模型版本更新（如将 GPT 4.0 Mini 升级为 5.4 Nano），手动操作较为繁琐。使用 Claude Code 可以自动修复 GitHub 原始脚本中的“嵌入双重包装”Bug。此外，将上传逻辑封装成 Claude 技能后，用户只需输入自然语言指令即可批量处理整个文件夹的非文本文件。

实战演示：复杂图表的数据提取与问答

针对包含 SaaS 营收柱状图的 PDF 文档，系统成功提取了图表中的关键经营数据。
Claude Code 能够识别 LightRAG 的 API 结构，无需额外技能即可直接进行数据查询。
系统支持调节 LightRAG 内部的检索权重参数，以优化非文本数据的找回率。

以 Novatech 公司的虚构报告为例，即使原始数据仅存在于图片格式的柱状图中，系统也能给出从 1 月（4.6）到 9 月的具体月度趋势明细。这证明了 RAG-Anything 在处理视觉数据时的准确性。该方案相比商业多模态 RAG 产品更为廉价，尤其是在配合本地 MinerU 解析系统使用时。

Community Posts

使用 Claude Code 与 RAG-Anything 自动化处理杂乱的 PDF 分析

makedream19 дней назад6620

Write about this video