Consulting
咨询服务
从数据门户、数据目录到大数据与 AI 平台架构 —— 帮助您定义企业数据与 AI 战略,并设计落地这一战略的系统。
01
自助式数据访问
数据门户
设计自助式数据门户,让组织内每一位数据使用者都能轻松发现、访问并使用数据。
| 数据门户战略 | 评估当前数据访问模式,定义门户目标与 KPI,制定路线图 |
| 用户体验 (UX) 设计 | 设计数据搜索、浏览及可视化 UI/UX,并针对不同用户画像设计仪表盘 |
| 数据服务 API 设计 | 基于 REST/GraphQL 的数据投递 API 设计,API 网关架构 |
| 访问控制与治理集成 | 基于角色的访问控制 (RBAC)、审批流程及使用日志追踪 |
| 数据市场设计 | 内部数据产品化、数据集注册、发布与订阅流程 |
| 监控与使用分析 | 门户使用情况分析,数据集热度与利用率报告 |
02
元数据驱动的治理
数据目录
对分散的数据资产进行系统化管理,实现以元数据为核心、可信赖的数据治理。
| 元数据管理战略 | 定义元数据采集范围与方式,设计业务、技术及运营元数据分类体系 |
| 数据血缘设计 | 从数据源到报表的端到端血缘追踪架构 |
| 数据质量框架 | 定义质量指标(完整性、准确性、时效性等)及自动化校验规则 |
| 数据分类与标签 | 自动 PII 检测,业务术语表设计 |
| 数据所有权与管家制度 | 定义 Data Owner 与 Data Steward 角色及问责框架 |
| 目录平台选型 | 对 Apache Atlas、Unity Catalog、DataHub 等进行比较与选型 |
| 既有系统集成 | 将 DW、数据湖和 BI 工具与目录集成的架构 |
03
可扩展的数据平台设计
大数据平台架构设计
面向企业需求量身设计可扩展、高可靠的大数据平台。
| 现状 (As-is) 评估 | 对现有数据基础设施、数据流水线及治理进行诊断 |
| 目标架构设计 (To-Be) | Lakehouse、数据湖与 DW 混合架构设计 |
| 技术栈选型 | 基于需求对 Cloudera CDP、Databricks 及开源组合进行选型与 PoC |
| 数据接入架构 | 批处理、实时及 CDC 接入流水线设计 (NiFi、Kafka、Flink 等) |
| 存储设计 | HDFS、Ozone、S3、ADLS 的存储分层设计,以及格式选型 (Iceberg/Delta/Parquet) |
| 计算架构 | 基于 YARN 与 K8s 的计算分离设计,向 Serverless 转型策略 |
| 网络与安全设计 | VPC/VNet 设计、Private Link、防火墙规则及加密策略 |
| Medallion 架构设计 | Bronze、Silver、Gold 分层定义及数据建模规范 |
| HA/DR 设计 | 高可用与灾难恢复架构,RTO/RPO 定义 |
| 容量规划与成本测算 | 基于工作负载的硬件及云资源测算,TCO 分析 |
| 迁移策略 | 从既有系统 (CDH/HDP/传统 DW) 到下一代平台的分阶段迁移路线图 |
04
企业级 AI 平台设计
AI 平台架构设计
设计覆盖模型训练、服务与监控的端到端企业级 AI 平台。
| AI/ML 成熟度评估 | 评估当前 AI/ML 能力、基础设施与流程,定义目标成熟度 |
| MLOps 架构设计 | 训练 → 验证 → 部署 → 监控流水线设计,机器学习 CI/CD |
| Feature Store 设计 | 离线与在线特征存储架构,特征注册、版本管理与服务 |
| Model Registry 设计 | 模型版本、阶段与元数据管理框架,审批流程 |
| 模型服务架构 | REST/gRPC 端点设计、A/B 测试、金丝雀发布、自动扩缩 |
| 生成式 AI / RAG 架构 | LLM 选型与微调策略、向量数据库设计、RAG 流水线、Agent Framework |
| GPU 基础设施设计 | GPU 集群配置、K8s GPU 调度、多 GPU 训练环境 |
| 数据与模型治理 | 训练数据血缘、模型偏差验证、模型漂移监控 |
| AI 安全与合规 | 可解释性 (XAI)、隐私保护、AI 伦理准则 |
| PoC 与试点设计 | 基于业务影响的 PoC 目标选定、成功标准及试点执行计划 |