データ/モデルカタログ
データとAIモデルを統合管理するカタログ。すべてのチームが信頼できる単一の情報源を提供します。
コンセプト図

特徴と強み
データ + モデル統合ガバナンス
データカタログとMLモデルレジストリを一つに統合。データ資産とAIモデルを単一カタログで管理し、組織全体のSSOT(Single Source of Truth)を実現します。
10データソース自動同期
Hive・Impala・Kudu・Trino・StarRocks・Greenplum・PostgreSQL・MySQL・Oracle・MSSQLのメタデータを自動収集。スキーマ・統計・リネージを最新に保ちます。
カラムレベルクロスプラットフォームリネージ
SQLパース(sqlglot)ベースでデータセット・カラムレベルのエンドツーエンドリネージを自動追跡。クエリベース・パイプラインベース・手動リネージすべてに対応。
MLflow Unity Catalog互換
MLflow Unity Catalog APIを完全互換。既存のMLflowワークフローを変更せずにモデルレジストリを利用可能。OCIベースのモデルストア(S3/MinIO)も提供します。
プラットフォームアーキテクチャ
Catalog UI、Server、Extensions、SDKがシームレスに連携するエンドツーエンドカタログプラットフォーム。
主な機能
データガバナンスからMLモデル管理、エアギャップ環境対応まで、エンタープライズカタログに必要なすべてを網羅。
マルチプラットフォームデータカタログ
URNベースのデータセットID、スナップショットによるスキーマ変更履歴追跡、タグ・用語集・オーナーシップの統合管理を単一カタログで実現。
クロスプラットフォームリネージ
データセットレベルおよびカラムレベルのエンドツーエンドリネージ追跡。クエリベース、パイプラインベース、手動のリネージソースに対応。
MLモデルレジストリ
MLflow Unity Catalog API互換のモデルレジストリ。S3/MinIO上のOCIベースアーティファクトストレージ、バージョンおよびステージ管理に対応。
データ品質エンジン
品質ルール(NOT_NULL、UNIQUE、MIN/MAX、REGEX、FRESHNESS、CUSTOM_SQL)の定義・実行と、集計品質スコアの算出。
データ標準管理
標準辞書、ドメイン、用語(形態素分析対応)、コードグループ・値、用語とカラムのマッピング、変更監査ログの管理。
セマンティック&ハイブリッド検索
pgvectorエンベディングとキーワード検索を組み合わせ、データセットやモデルの自然言語による検索を実現。
ソースコード分析
Java(JPA、MyBatis、JDBC)およびPython(SQLAlchemy、Django)のソースコードからテーブル・カラムアクセスパターンを自動検出。
エアギャップモデル転送
オンラインプル → USB転送 → オフラインインポートのワークフロー。エアギャップされたセキュアな環境向けに設計。