Solutions

データ/モデルカタログ

データとAIモデルを統合管理するカタログ。すべてのチームが信頼できる単一の情報源を提供します。

コンセプト図

Argus Catalog Platform Architecture

特徴と強み

01

データ + モデル統合ガバナンス

データカタログとMLモデルレジストリを一つに統合。データ資産とAIモデルを単一カタログで管理し、組織全体のSSOT(Single Source of Truth)を実現します。

02

10データソース自動同期

Hive・Impala・Kudu・Trino・StarRocks・Greenplum・PostgreSQL・MySQL・Oracle・MSSQLのメタデータを自動収集。スキーマ・統計・リネージを最新に保ちます。

03

カラムレベルクロスプラットフォームリネージ

SQLパース(sqlglot)ベースでデータセット・カラムレベルのエンドツーエンドリネージを自動追跡。クエリベース・パイプラインベース・手動リネージすべてに対応。

04

MLflow Unity Catalog互換

MLflow Unity Catalog APIを完全互換。既存のMLflowワークフローを変更せずにモデルレジストリを利用可能。OCIベースのモデルストア(S3/MinIO)も提供します。

プラットフォームアーキテクチャ

Catalog UI、Server、Extensions、SDKがシームレスに連携するエンドツーエンドカタログプラットフォーム。

Catalog UI
Next.js · React
データセット探索&管理
リネージグラフ可視化
モデルレジストリダッシュボード
品質ダッシュボード
標準辞書管理
セマンティック検索
Catalog Server
FastAPI · PostgreSQL
REST API(v1)
pgvectorセマンティック検索
S3/MinIOモデルストア
MLflow Unity Catalog互換
データ品質エンジン
標準&用語管理
Extensions
Sync · Plugins · Analyzer
メタデータ同期(10 DB対応)
Impala Query Agent
Trino Query Listener
StarRocks Audit Plugin
ソースコード分析(Java/Python)
sqlglot Impala拡張
SDK & CLI
Python SDK
argus-model CLI
OCIベースのモデルpush/pull
HuggingFaceインポート
エアギャップ転送ワークフロー
署名付きURLアップロード
マニフェスト管理
対応データソース
HiveImpalaKuduTrinoStarRocksGreenplumPostgreSQLMySQLOracleMSSQL

主な機能

データガバナンスからMLモデル管理、エアギャップ環境対応まで、エンタープライズカタログに必要なすべてを網羅。

マルチプラットフォームデータカタログ

URNベースのデータセットID、スナップショットによるスキーマ変更履歴追跡、タグ・用語集・オーナーシップの統合管理を単一カタログで実現。

クロスプラットフォームリネージ

データセットレベルおよびカラムレベルのエンドツーエンドリネージ追跡。クエリベース、パイプラインベース、手動のリネージソースに対応。

MLモデルレジストリ

MLflow Unity Catalog API互換のモデルレジストリ。S3/MinIO上のOCIベースアーティファクトストレージ、バージョンおよびステージ管理に対応。

データ品質エンジン

品質ルール(NOT_NULL、UNIQUE、MIN/MAX、REGEX、FRESHNESS、CUSTOM_SQL)の定義・実行と、集計品質スコアの算出。

データ標準管理

標準辞書、ドメイン、用語(形態素分析対応)、コードグループ・値、用語とカラムのマッピング、変更監査ログの管理。

セマンティック&ハイブリッド検索

pgvectorエンベディングとキーワード検索を組み合わせ、データセットやモデルの自然言語による検索を実現。

ソースコード分析

Java(JPA、MyBatis、JDBC)およびPython(SQLAlchemy、Django)のソースコードからテーブル・カラムアクセスパターンを自動検出。

エアギャップモデル転送

オンラインプル → USB転送 → オフラインインポートのワークフロー。エアギャップされたセキュアな環境向けに設計。