将 Obsidian 双链转换为基于 Block ID 的关系型数据库流程

脱离文件系统限制，确保引用完整性

在使用 Obsidian 的过程中，你可能会遇到改动一个文件名导致数百个链接断开的情况。当文档数量增长到数千个时，索引延迟甚至会导致打字卡顿。基于文件的系统终究有其明显的局限性。思源笔记（SiYuan）简单地解决了这个问题：它将所有元素定义为带有 20 位唯一标识符的“块”（Block），并将其存入 SQLite 内核。由于它追踪的是 Block ID 而非文件名，因此无论如何移动物理位置，链接都不会断开。实际上，在拥有数万个 Markdown 文件的环境中转为块体系后，引用错误率会降至 0.1% 以下。

要将非结构化数据迁移到关系型数据库，需要使用 Python 正则表达式脚本：

使用 Python 的 re 模块运行正则表达式，找出 [[文件名#页眉]] 模式。
调用思源 API 为每个章节生成对应的唯一 Block ID，或从现有数据库中提取。
将原有的双链（WikiLink）全部替换为思源专用的引用格式 ((BlockID "锚文本"))。

通过这一过程，你可以节省掉为了手动修复链接而浪费的大量时间。与其追求文件系统的灵活性，现在更需要的是数据库严谨的外键（Foreign Key）关系。

通过 SQL 查询自动提取代码片段和项目上下文

对于资深工程师来说，整个知识库由 SQLite 管理是一个巨大的武器。它不像 Obsidian 那样只是抓取简单文本，而是可以用标准 SQL 语法动态提取所需数据。blocks 表已经具备了 ID、Markdown 全文、类型、子类型等详细的列模式（Schema）。即使在数万条笔记中检索，响应速度也是毫秒级的。相比 Obsidian 的简单搜索，这能减少 80% 以上干扰工作流的延迟时间。

如果你想实时管理零散的代码片段，需要结合嵌入块（Embedded Block）和 SQL：

在思源文档中创建一个 SQL 代码块，并输入查询语句：SELECT * FROM blocks WHERE type = 'c' AND subtype = 'python'。
若要过滤特定关键词，可以添加 AND content LIKE '%API%' 条件，并使用 ORDER BY created DESC 进行按最新顺序排序。
将查询结果视图设置为思源的嵌入块，并固定在文档顶部。

无需安装乱七八糟的插件。仅凭原生功能，就能完成一个自动汇总散落在数千条笔记中 Python 代码的主题看板。

利用 Docker 和 S3 存储构建加密同步

数据主权来自于自己的容器，而非他人的服务器。思源官方支持 Docker 部署。结合 Tailscale 网状 VPN，可以在不向外开放端口的零信任环境下安全地同步笔记。这种方法无需担心路径遍历漏洞或 WebSocket DoS 攻击，能有效保护你的数据。

在个人服务器或 NAS 上部署强化安全实例的步骤如下：

执行 docker run 命令，添加 -u 1000:1000 选项以使宿主机用户的 UID/GID 与容器匹配，并进行卷映射。
在服务器和移动设备上安装 Tailscale 并启用 MagicDNS，通过内部 IP 访问 http://siyuan-node:6806。
在设置菜单中输入 S3 兼容存储端点（如 Cloudflare R2），复制数据仓库密钥（Repo Key）并开启端到端加密（E2EE）同步。

通过这种架构设计，你无需再每月向付费订阅服务“进贡”。在每年节省超过 10 万韩元订阅费的同时，安全性也得到了进一步加强。

保持大规模数据集响应能力的维护协议

当数据量超过数万条时，SQLite 引擎内部会堆积被称为“死元组”（Dead Tuples）的空白空间。如果搜索性能不如从前，就说明该清理引擎了。由于思源基于 Go 语言的内核能够很好地利用多核，因此在初始索引阶段，建议给 Docker 容器分配充足的 -cpus 资源。为了防止查询执行计划出错，需要定期执行维护命令。

要将搜索响应时间维持在 1 秒以内，需要执行以下操作：

运行思源内部数据库优化功能，通过 SQLite 的 VACUUM 命令回收被删除数据占用的物理空间。
使用 ANALYZE 命令更新数据分布统计信息，使 SQL 引擎能找到最快的检索路径。
对于超过 10MB 的高容量资产或 PDF，不要直接丢进 assets 文件夹，应进行图像缩放或转为外部链接，以减小索引体积。

定期进行这些操作可以节省 60% 的总存储空间。这是即使数据呈几何级数增长，也能保持初次安装时那种速度的秘诀。

将 Obsidian 双链转换为基于 Block ID 的关系型数据库流程

脱离文件系统限制，确保引用完整性

要将非结构化数据迁移到关系型数据库，需要使用 Python 正则表达式脚本：

使用 Python 的 re 模块运行正则表达式，找出 [[文件名#页眉]] 模式。
调用思源 API 为每个章节生成对应的唯一 Block ID，或从现有数据库中提取。
将原有的双链（WikiLink）全部替换为思源专用的引用格式 ((BlockID "锚文本"))。

通过 SQL 查询自动提取代码片段和项目上下文

如果你想实时管理零散的代码片段，需要结合嵌入块（Embedded Block）和 SQL：

在思源文档中创建一个 SQL 代码块，并输入查询语句：SELECT * FROM blocks WHERE type = 'c' AND subtype = 'python'。
若要过滤特定关键词，可以添加 AND content LIKE '%API%' 条件，并使用 ORDER BY created DESC 进行按最新顺序排序。
将查询结果视图设置为思源的嵌入块，并固定在文档顶部。

无需安装乱七八糟的插件。仅凭原生功能，就能完成一个自动汇总散落在数千条笔记中 Python 代码的主题看板。

利用 Docker 和 S3 存储构建加密同步

在个人服务器或 NAS 上部署强化安全实例的步骤如下：

执行 docker run 命令，添加 -u 1000:1000 选项以使宿主机用户的 UID/GID 与容器匹配，并进行卷映射。
在服务器和移动设备上安装 Tailscale 并启用 MagicDNS，通过内部 IP 访问 http://siyuan-node:6806。
在设置菜单中输入 S3 兼容存储端点（如 Cloudflare R2），复制数据仓库密钥（Repo Key）并开启端到端加密（E2EE）同步。

通过这种架构设计，你无需再每月向付费订阅服务“进贡”。在每年节省超过 10 万韩元订阅费的同时，安全性也得到了进一步加强。

保持大规模数据集响应能力的维护协议

要将搜索响应时间维持在 1 秒以内，需要执行以下操作：

运行思源内部数据库优化功能，通过 SQLite 的 VACUUM 命令回收被删除数据占用的物理空间。
使用 ANALYZE 命令更新数据分布统计信息，使 SQL 引擎能找到最快的检索路径。
对于超过 10MB 的高容量资产或 PDF，不要直接丢进 assets 文件夹，应进行图像缩放或转为外部链接，以减小索引体积。

定期进行这些操作可以节省 60% 的总存储空间。这是即使数据呈几何级数增长，也能保持初次安装时那种速度的秘诀。

将 Obsidian 双链转换为基于 Block ID 的关系型数据库流程

Related Video

这款开发者笔记应用解决了 Obsidian 的痛点 (思源笔记 SiYuan)

将 Obsidian 双链转换为基于 Block ID 的关系型数据库流程

脱离文件系统限制，确保引用完整性

通过 SQL 查询自动提取代码片段和项目上下文

利用 Docker 和 S3 存储构建加密同步

保持大规模数据集响应能力的维护协议

Comments (0)

将 Obsidian 双链转换为基于 Block ID 的关系型数据库流程

脱离文件系统限制，确保引用完整性

通过 SQL 查询自动提取代码片段和项目上下文

利用 Docker 和 S3 存储构建加密同步

保持大规模数据集响应能力的维护协议