Data/Model Catalog
데이터와 AI 모델을 함께 관리하는 통합 카탈로그로, 조직 전체가 신뢰할 수 있는 단일 진실의 원천(Single Source of Truth)을 제공합니다.
개념도

특징 및 강점
데이터 + 모델 통합 거버넌스
데이터 카탈로그와 ML 모델 레지스트리를 하나로 통합. 데이터 자산과 AI 모델을 단일 카탈로그에서 관리하고 조직 전체의 SSOT(Single Source of Truth)를 구현합니다.
10개 데이터 소스 자동 동기화
Hive·Impala·Kudu·Trino·StarRocks·Greenplum·PostgreSQL·MySQL·Oracle·MSSQL의 메타데이터를 자동 수집. 스키마·통계·리니지를 최신 상태로 유지합니다.
컬럼 레벨 크로스 플랫폼 리니지
SQL 파싱(sqlglot) 기반으로 데이터셋·컬럼 수준의 엔드투엔드 리니지를 자동 추적. 쿼리 기반·파이프라인 기반·수동 리니지를 모두 지원합니다.
MLflow Unity Catalog 호환
MLflow Unity Catalog API를 완벽 호환하여 기존 MLflow 워크플로우 변경 없이 모델 레지스트리를 사용할 수 있습니다. OCI 기반 모델 저장소(S3/MinIO)를 함께 제공합니다.
플랫폼 아키텍처
Catalog UI · Server · Extensions · SDK가 유기적으로 연동되는 엔드투엔드 카탈로그 플랫폼입니다.
핵심 기능
데이터 거버넌스부터 ML 모델 관리, 폐쇄망 지원까지 엔터프라이즈가 필요로 하는 모든 카탈로그 기능을 제공합니다.
멀티 플랫폼 데이터 카탈로그
URN 기반 데이터셋 식별, 스키마 변경 이력 추적(스냅샷), 태그·용어 사전·소유권 관리를 단일 카탈로그에서 통합 제공합니다.
크로스 플랫폼 리니지
데이터셋·컬럼 수준의 엔드투엔드 리니지를 추적합니다. 쿼리 기반·파이프라인 기반·수동 리니지를 모두 지원합니다.
ML 모델 레지스트리
MLflow Unity Catalog API 호환 모델 레지스트리. OCI 기반 모델 아티팩트 저장(S3/MinIO)과 버전·스테이지 관리를 제공합니다.
데이터 품질 엔진
NOT_NULL, UNIQUE, MIN/MAX, REGEX, FRESHNESS, CUSTOM_SQL 등 품질 룰을 정의·실행하고 품질 점수를 산출합니다.
데이터 표준 관리
표준 사전·도메인·용어(형태소 분석), 코드 그룹·코드값을 관리하고 용어-컬럼 매핑과 변경 감사 로그를 제공합니다.
시맨틱·하이브리드 검색
pgvector 기반 임베딩과 키워드를 결합한 하이브리드 검색으로 데이터셋·모델을 자연어로 탐색합니다.
소스 코드 분석
Java(JPA, MyBatis, JDBC) 및 Python(SQLAlchemy, Django) 소스코드에서 테이블·컬럼 접근 패턴을 자동으로 발견합니다.
에어갭 모델 전송
폐쇄망 환경을 위한 온라인 Pull → USB 전송 → 오프라인 Import 워크플로우를 제공합니다.