00:00:00你可能曾经尝试过将电子邮件、PDF 或转录文本转换为结构化数据,
00:00:04但很快就发现事情变得一团糟。
00:00:07大家都以为最难的部分是构建应用程序。
00:00:09其实不然。
00:00:10难点在于文本,因为现实世界中绝大部分数据往往是高度非结构化的,
00:00:15大多数数据处理流程都在这里崩盘了。
00:00:16你可能觉得解决方法是增加人手或更复杂的 NLP(自然语言处理),但有些开发者
00:00:21实际上在反其道而行之。
00:00:22这就是 Lang Extract。
00:00:23这是一个由 Google 推出的免费开源工具,正在低调且快速地成长。
00:00:27我们会持续发布新视频。
00:00:29请务必订阅关注。
00:00:32好了,Lang Extract 听起来可能只是另一个提取库,乍一看
00:00:40确实如此,但以下是它的独到之处。
00:00:43Lang Extract 是一个 Python 库,它利用 Gemini 或 GPT 等大模型,
00:00:49从杂乱的文本中提取结构化数据。
00:00:51没错,它可以将实体、属性和关系转化为整洁的输出,如 JSON,
00:00:57甚至是交互式 HTML。
00:00:58开发者看重它的最后一个原因是:每一次提取都能溯源到
00:01:02其来源的精确文本片段。
00:01:04这意味着模型不再只是说 “相信我”,而是告诉你,
00:01:09“这就是我所引用的原句。”
00:01:10这是这里重大的改变。
00:01:11现在的工作流程基本上是:输入提示词,进行提取,
00:01:15然后你就能得到可以实际验证的结构化输出。
00:01:19在回答开发者为何放弃传统 NLP 而选择它的重要问题之前,
00:01:24让我先向你演示它的运作方式,以便你亲自动手尝试。
00:01:27好的,来看一个简单的例子。
00:01:29屏幕上是我找到的一些临床笔记的非结构化文本,
00:01:33目前它只是纯文本。
00:01:34存在一个文本文件中。
00:01:36人类可以读懂并提取重要部分,但在计算机看来,这些全是乱码。
00:01:41首先,我需要克隆 Git 仓库并安装依赖项,
00:01:45然后还需要获取我的 Gemini API 密钥,我将其存放在 .env 文件中。
00:01:49接着我编写了这段 Python 脚本来运行它,
00:01:54并在提示词中描述我想要提取的内容。
00:01:56这就是为什么你需要了解一些 Python 知识。
00:01:58所有的实体、属性和关系都写在了这个提示词里。
00:02:02不需要训练数据,也不需要模型调优。
00:02:05然后运行 Lang Extract,我就得到了结构化的 JSON 输出。
00:02:09现在请注意这一部分,因为这是核心所在。
00:02:12在 JSON 中,每个提取出的字段都链接回了
00:02:18它在原文中对应的那个句子。
00:02:19所以无论你是复核、调试还是向他人解释,都不再需要凭空猜测。
00:02:23但我发现最酷的功能之一是它自动生成的交互式 HTML 页面。
00:02:29在这里,你可以点击一个实体,看到它在原文中被高亮显示,
00:02:33通过快速预览就能看到所有你想要获取的目标词汇。
00:02:38这就是为什么它对于调试、审计和审查等工作极具价值。
00:02:42如果你需要大规模处理,批量模式可以让你更高效地
00:02:46处理数千份文档。
00:02:48所以,这看起来非常棒。
00:02:50这真的很酷,尤其是 HTML 的部分。
00:02:52那么,为什么开发者要抛弃传统的 NLP 呢?
00:02:56因为杂乱的文本不仅仅是令人烦恼,对吧?
00:02:59它确实烦人,但也很昂贵。
00:03:01它浪费时间,还会导致程序出错。
00:03:03这就是为什么我们看到 Lang Extract 出现在了对准确性和可追溯性有要求的场景。
00:03:08比如从临床笔记中提取结构化数据,
00:03:12同时还能审计数据的来源。
00:03:13这意义重大。
00:03:14或者将反馈和支持单转化为知识图谱,
00:03:18而不是那些巨大的 CSV 文件。
00:03:20在使用这类工具获得便利的同时,也会面临一些挑战。
00:03:24这些因素将影响你决定如何使用它。
00:03:26优点有很多。
00:03:27设置很简单,对吧?
00:03:29Pip 安装,写个提示词,搞定。
00:03:31有根据的输出减少了对大模型的信任疑虑,因为你可以验证一切,
00:03:36而且你不会被绑定在某一个模型上。
00:03:37它支持本地运行或云端运行。
00:03:39两者都行,而且它处理长文档的能力优于大多数工具。
00:03:43它是免费开源的,而且迭代非常快。
00:03:45缺点也是存在的,比如大规模使用时仍需支付大模型的调用费用。
00:03:51极度嘈杂的文本可能会导致提取不完整。
00:03:53它是 Python 优先的,如果你不懂 Python,可能会有一定的学习曲线,
00:03:57但 Python 本身很棒。
00:03:58它并不适合超低延迟的实时应用。
00:04:01为什么你应该关注它?
00:04:02因为 Lang Extract 降低了处理非结构化数据的门槛,无需构建
00:04:07自定义模型或脆弱的处理流程。
00:04:09它让大模型的输出在生产环境中变得真正可靠,因为它可以溯源,
00:04:14特别是在金融、医疗、合规等
00:04:19确实需要严谨对待的领域。
00:04:21此外,它能完美融入现代技术栈,如 RAG、搜索、知识图谱、分析等。
00:04:26无论你正在构建什么。
00:04:27如果非结构化数据拖慢了你的进度,这个工具能帮你大幅提升。
00:04:31如果你的工作中涉及数据,坦白说,它非常值得一试。
00:04:35我们下个视频见。