docspell
个人文档管理器,利用 OCR、全文搜索和机器学习自动为扫描件、邮件及文件打标签和整理。
自托管的智能文档管家,帮你自动归类扫描文件。
核心功能
- 自动提取文档元数据(发件人、标签、日期),无需手动填写
- 内置 OCR 引擎,图片也能变成可搜索文字
- 全文搜索 + 邮件集成,快速定位任何文档
- 移动端友好的 SPA 界面和 Android 上传 App
- 支持自定义字段、批量编辑、多用户与协作
避坑指南
- •首次配置需了解 Docker 基础;OCR 依赖 Tesseract 和 ocrmypdf,中文识别需额外语言包;机器学习模型较大,首次运行会下载约 1GB 数据;与 Paperless-ngx 相比功能更丰富但学习曲线稍陡。
适用场景
- 家庭账单、合同、医疗报告的扫描和归档
- 小型办公室或团队共享文档库,自动分类邮件附件
- 个人知识管理,将纸质资料数字化并建立可搜索的档案
详细介绍
Docspell 是一款自托管的个人文档管理系统,面向家庭、小团体使用。它能帮你整理扫描的纸质文件、邮件和其他数字文件,自动通过机器学习(Stanford CoreNLP)提取元数据,如发件人、标签和日期。支持 OCR 识别、全文搜索、邮件集成、自定义字段,并提供移动友好的 Web 界面。后端采用 Scala 纯函数式编程,前端使用 Elm 和 Tailwind CSS。可通过 Docker、Debian 包、ZIP、Nix 或 Helm 部署。
常见问题与排障 (2)
故障排除为什么在将 XLSX 转换为 PDF 时,unoconv 会失败并显示错误 'Failed to connect to soffice.bin in 6 seconds'?
此错误是因为 unoconv 在尝试连接 LibreOffice 监听器时超时,通常是由于陈旧或累积的 soffice.bin 进程所致。解决方法:终止所有现有的 soffice 进程,并以永久监听器模式启动 unoconv。运行:pkill -f soffice.bin && unoconv --listener &。然后重试转换。确保在处理前监听器已启动。对于持久化环境(如 Docker),考虑改用 unoserver 作为 unoconv 的更可靠替代方案。
操作指南如何在上传文档到 Mayan EDMS 时传递自定义元数据?
目前的上传API不接受任意自定义元数据。作为变通方法,在上传时将元数据编码到文档文件名中(例如使用包含嵌入信息的绝对路径)。在你的插件或任务完成钩子中,提取并解析文件名以恢复原始元数据。请注意,文件名可能不唯一,并且可能在DMS中暴露。支持专用元数据字段的功能请求已在issue #2334中提出。
标签
快速上手
安装软件
根据你的发行版安装对应的包(dpkg / rpm / AppImage)
步骤1:克隆 Docker 仓库:git clone https://github.com/docspell/docker docspell-docker
步骤2:进入 docker-compose 目录并启动:cd docspell-docker/docker-compose && docker-compose up -d
步骤3:浏览器访问 http://localhost:7880,注册账号并登录,开始导入文档
- 步骤1:克隆 Docker 仓库:git clone https://github.com/docspell/docker docspell-docker
- 步骤2:进入 docker-compose 目录并启动:cd docspell-docker/docker-compose && docker-compose up -d
- 步骤3:浏览器访问 http://localhost:7880,注册账号并登录,开始导入文档
暂未获取到校验码
该项目暂未在 GitHub Release 页面提供 SHA-256 校验码
SHA256 校验码
暂无校验码
建议从 GitHub Releases 页面直接下载,并自行核对文件完整性
本平台所有 SHA-256 校验码均提取自项目在 GitHub 官方 Release 页面发布的文件,未做任何修改。你可以通过 GitHub Releases 页面自行验证。
开源透明
查看 GitHub 源码卸载说明
停止容器:docker-compose down;删除目录:rm -rf docspell-docker;如有持久数据需手动清理卷(docker volume prune)。
无额外依赖
下载后即可直接使用,无需安装其他运行环境
遇到问题?查看下方 FAQ
2 FAQs