Aleph
Aleph 是一个用于索引海量文档和结构化数据的工具,专为调查报道中的实体交叉引用而设计。
智能下载
前往项目主页
该项目暂未提供安装包,请直接访问源代码仓库
调查记者必备的文档索引与实体关联搜索工具
核心功能
- 支持 PDF、Word、HTML、CSV、XLS、SQL 等多种格式的数据导入和索引
- 自动识别文档中的人名、公司、地点等实体,并支持自定义观察名单进行交叉匹配
- 提供全文搜索、过滤、高级查询功能,可快速定位相关信息
- 支持多用户协作和权限管理,适合团队调查项目
- 拥有 RESTful API,可与其他工具集成
避坑指南
- •该项目已停止主动开发,新用户建议直接使用 Aleph Pro(商业 SaaS)。自建实例需注意 2025 年 12 月后无安全更新,可能存在安全隐患。同时开发分支 (develop) 包含未稳定代码,部署应使用 main 分支的正式版本。
适用场景
- 调查记者整理泄露文件,自动关联其中出现的政要、公司
- 非政府组织分析公开商业注册数据,发现空壳公司网络
- 学术研究者对大量历史文档进行实体关系分析
详细介绍
Aleph 是一个开源的数据索引平台,专门为调查记者和研究人员设计。它能够处理大量文档(PDF、Word、HTML)和结构化数据(CSV、XLS、SQL),提供强大的搜索和浏览功能。核心亮点是实体交叉引用:您可以快速将文档中提及的人物、公司等实体与已有的观察名单(如公共数据集或历史研究结果)进行匹配,从而发现隐藏的联系。该项目目前处于停用状态,官方已转向商业版 Aleph Pro,遗留版本将在 2025 年 12 月后停止维护。
常见问题与排障 (2)
故障排除如何修复在处理PDF时Aleph ingest-file中出现的'SQLite objects created in a thread can only be used in that same thread'错误?
在你的Aleph配置中设置ALEPH_DATABASE_URI和FTM_DATABASE_URI环境变量(或直接设置TAGS_DATABASE_URI)。默认情况下,如果在aleph.env.tmpl中将这些变量注释掉,Tags数据库URI会回退到sqlite:///,而SQLite无法处理多线程写入。请取消注释并将它们设置为主数据库连接字符串(例如,对于默认的Postgres设置,使用postgresql://aleph:aleph@aleph-db/aleph)。这将解决ingest-file版本3.22.0和4.0.0中的线程错误。
故障排除如何修复在 Aleph 中进行 OAuth 登录时出现的“DELETE statement expected to delete 1 row(s); Only 2 were matched”错误?
此错误是由于 role_membership 表中存在重复行,导致 SQLAlchemy 在组同步期间遇到不匹配问题。修复方法:1) 通过以下 SQL 查找重复项:SELECT group_id, member_id, COUNT(*) FROM role_membership GROUP BY group_id, member_id HAVING COUNT(*) > 1; 2) 手动删除多余的行。3) 添加唯一约束以防止重复:ALTER TABLE role_membership ADD UNIQUE (group_id, member_id);(或创建数据库迁移以添加 UniqueConstraint('group_id', 'member_id'))。完成这些步骤后,OAuth 回调将正常工作。
标签
快速上手
安装软件
双击下载的安装程序,按提示完成安装
步骤1:参考官方安装文档 https://docs.aleph.occrp.org/developers/installation 准备 Docker 环境
步骤2:克隆仓库并运行 docker-compose up -d
步骤3:访问 http://localhost:8080 初始化管理员账户
- 步骤1:参考官方安装文档 https://docs.aleph.occrp.org/developers/installation 准备 Docker 环境
- 步骤2:克隆仓库并运行 docker-compose up -d
- 步骤3:访问 http://localhost:8080 初始化管理员账户
暂未获取到校验码
该项目暂未在 GitHub Release 页面提供 SHA-256 校验码
SHA256 校验码
暂无校验码
建议从 GitHub Releases 页面直接下载,并自行核对文件完整性
本平台所有 SHA-256 校验码均提取自项目在 GitHub 官方 Release 页面发布的文件,未做任何修改。你可以通过 GitHub Releases 页面自行验证。
开源透明
查看 GitHub 源码卸载说明
停止 Docker 容器并删除相关数据卷:docker-compose down -v。注意所有数据丢失前请自行备份。
无额外依赖
下载后即可直接使用,无需安装其他运行环境
遇到问题?查看下方 FAQ
2 FAQs