跳过正文

Paperless

使用 paperless-ai 与 Ollama 为 paperless-ngx 添加 AI 文档分类功能

·1295 字·7 分钟
本文是一份完整的操作手册,介绍如何通过 paperless-ai 和本地运行的 Ollama 为 paperless-ngx 集成 AI 自动标签和分类功能。整套方案使用本地大语言模型读取文档文本,自动填充元数据字段——包括标题、文档类型、标签、联系人、日期以及自定义字段。 硬件与架构 # NAS(群晖 DS1621+,10.0.10.10):在 5656 端口运行 paperless-ngx 台式 PC:Windows,安装了 WSL2、Docker Desktop,配备 RTX 4090 目标:使用本地 LLM 实现 AI 自动打标/分类,零云端依赖 核心架构决策是拉取模式(pull model):paperless-ai 运行在 WSL2 的 Docker 容器中,轮询 paperless-ngx API 寻找带有 ai-pending 标签的文档,调用 Ollama 处理后将元数据写回。对于不是 24 小时开机的台式机而言,这是最正确的方案——NAS 保存待处理队列,台式机开机后自动消费。 1 2 3 4 5 6 7 paperless-ngx (NAS) ↑ ↓ (REST API) paperless-ai (WSL2 Docker) ↑ ↓ (HTTP) Ollama (Windows 原生) ↑ RTX 4090 (GPU) Ollama 以原生方式运行在 Windows 上(而非 WSL 内),以获得最佳 GPU 访问性能。在 WSL2 的 Docker 容器内,通过特殊主机名 host.docker.internal 访问 Ollama。

用 Paperless-ngx 整理十年文档:从 Google Drive 文件夹到全文检索归档库

将近十年积累的个人文档从 Google Drive 文件夹体系迁移到 Paperless-ngx 的完整记录。 涵盖分类体系设计、从 Google Takeout 批量导入、ML 分类器训练,以及日常收件箱工作流。 为什么要迁移 # 过去多年,我的"文档管理"是一棵手工维护的 Google Drive 文件夹树: 1 2 3 4 5 6 7 8 9 10 10 - 文书材料/ 10 - 证件材料/身份证件/ 30 - 移民文档/ 30 - Tax Filing/ 40 - Finance/ 50 - 车辆注册/ 60 - 住房买房/ 80 - Medical/ 20 - 家装住房信息/ 80 - 旅行计划/ 归档时还算顺手,但检索很痛苦。想找"2022 年的保险表格",要翻六个文件夹,还得猜当时的命名。 Paperless-ngx 提供全文检索、OCR、以及会从你自己的标注中学习的 ML 分类器—— 对于横跨移民手续、税务申报、房产合同、医疗记录的文档库来说,这是本质性的提升。