Data Dynamics 开源发布 AI·Data·API 一体化目录「Argus Catalog」
Data Dynamics 已在 GitHub 上以 Apache License 2.0 全面开源其一体化元数据管理解决方案「Argus Catalog」,强调数据主权应由企业自身掌握,并宣布将基于社区持续改进。
"数据主权应由企业自身掌握,而非依赖特定厂商"……通过 GitHub 全面开源,宣布基于社区的持续改进
AI 及数据平台专业企业 Data Dynamics(株式会社数据动力) 于11日宣布,将其一体化元数据管理解决方案 「Argus Catalog」 开源发布。源代码通过 GitHub 公开仓库(DataDynamics-OSS/argus-catalog)分发,许可证采用对商业使用无限制的 Apache License 2.0。
Argus Catalog 是一款 AI·Data·API 一体化目录,旨在让企业能够在一处发现、信任并治理其分散的数据与 AI 资产。Data Dynamics 将除元数据采集连接器模块之外的后端、前端、SDK、AI 智能体、质量批处理、用户手册等全部领域在 GitHub 上全面开源。
主要构成
- 数据目录 — 在提供 DataHub 风格的数据集注册、搜索、标签与术语表的同时,还提供可追踪异构系统间流转的列级血缘、ER 图、数据质量剖析·规则校验·质量分数自动同步,以及基于形态素分析的数据标准合规率度量。
- ML 模型注册表 — 通过兼容 Unity Catalog OSS 的 API 与 MLflow 集成,以及基于 OCI 清单的模型中心(HuggingFace 风格浏览器·气隙导入),对模型的版本、阶段与指标进行治理。
- AI 治理 — 包括基于 LLM 的 AI 元数据自动生成(描述、摘要、列描述、标签推荐、PII 检测)、以工具方式调用目录真实数据进行回答的 tool-use AI 助手,以及管理智能体的工具·MCP·评估·计量的 AI Agent 目录。
- API 目录与语义搜索 — 内置面向外部系统的缓存元数据·Avro 模式 API,以及基于 pgvector 的混合(关键词+语义)搜索。
特别是,AI 元数据生成与助手不仅支持 OpenAI、Anthropic,也可与 Ollama 等本地 LLM 集成,从而在数据不外流的本地部署(on-premises)与气隙(air-gap)环境中也能实现完整的 AI 治理。
"让企业自身掌握数据主权"
Data Dynamics 将此次开源的背景归结为**"数据主权"**。
"元数据与治理是企业数据战略的核心,但若这一领域被特定厂商锁定,企业甚至无法自由查看自身数据的流向。将 Argus Catalog 以 Apache 2.0 在 GitHub 上开源,正是对'任何企业都应能够在自有基础设施上自主掌控其数据与 AI 资产'这一信念的践行。"
— 金炳坤(Byounggon Kim)代表
他还补充道:"采集连接器将于日后陆续开源,除此之外的整个核心引擎均已开源,因此企业可以直接验证代码、按自身环境进行扩展,并在不向外部泄露数据的情况下运行。"
基于社区的持续改进路线图
Data Dynamics 表示,此次并非一次性开源,而是将以 GitHub 仓库为据点,与开源社区共同持续完善功能,并为此提出了路线图。金炳坤代表列出了将与社区共同推进的重点任务:
- 扩展面向多样化数据源与查询引擎的连接器生态
- 提升 AI 智能体治理与评估体系的成熟度
- 强化血缘、质量与标准的自动化水平
同时公开用户手册(基于 Antora)、演示种子数据乃至本地开发基础设施配置,从而降低参与贡献的门槛,也出于同样的考量。任何人都可以通过 GitHub 仓库的 issue 与 pull request 参与改进。
"参与的企业与开发者越多,目录就越精细,而这些收益最终会回馈给所有用户。我们将与社区共同培育 Argus Catalog,使其超越某一家企业的产品,成为众多企业确保数据主权的共同基础。"
— 金炳坤代表