2023年1月,中国信息通信研究院发布了第十五批“可信大数据”评估评测结果,北京科杰科技有限公司参与并通过了云原生湖仓一体数据平台的评测。该评测依据《云原生湖仓一体数据平台技术要求》进行,其涉及湖仓数据集成、湖仓存储、湖仓计算、湖仓数据治理、湖仓其他能力五大能力域。近日,科杰科技联合创始人兼产品负责人高海玲接受了信通院云计算与大数据研究所的对话,就什么是湖仓一体进行了探讨。
信通院云大所:请谈谈什么是湖仓一体,与数据仓库、数据湖等以往的数据工具有什么关联?
高海玲:数据仓库主要是用于存储大量的结构化数据,并将数据按照主题进行分组,为企业管理分析和业务决策提供统一的数据支持。数据湖依托于本身的灵活性和可扩展性,更多解决的是企业在生产经营中产生的各类结构化和非结构化数据的集中式存储。而湖仓一体是一种新型的开放式架构,充分融合了数据湖和数据仓库的优势。新架构在数据仓库高性能与管理能力基础之上融合了数据湖的灵活特性,使数据和计算在湖与仓之间自由流动。
信通院云大所:湖仓一体有哪些技术特点,咱们是如何落地的?
高海玲:数据架构的演进一直伴随着业务需求的驱动不断迭代,从数据仓库、数据湖、湖上建仓(湖仓并存)一直衍生到当前的湖仓一体架构。科杰产品KeenData Lakehouse在设计上采用领先的湖仓一体技术架构,通过Data Fabric技术来实现全流程的主动元数据管理,优化了流式计算和数据入湖性能,同时提供对象存储、云存储、跨云、混合云等数据存储方式,兼顾RDBMS数据库功能和ACID特性、支持一套SQL标准实现大数据平台、MPP、三方平台等混合开发计算能力,为数据分析、处理、挖掘提供统一开发体验。主要集中在以下几点:
存储计算分离
存算分离的架构提供了丰富的计算引擎,能够满足丰富的业务场景对数据的使用需求。同时与企业当前的大数据环境进行无缝的兼容对接,降低了数据在各种大数据平台或数据仓库之间频繁迁移的工作成本。
批流一体
KeenData Lakehouse 产品从数据集成、数据存储、数据处理逻辑、以及计算引擎全层面实现了批流一体。为用户提供同一套API、同一套开发范式来实现大数据的流计算和批计算,充分保障数据处理过程与结果的一致性。
数据编织
KeenData Lakehouse引用Data Fabric技术实现管理企业在不同环境、不同架构下的数据资产,同时提供多模融合计算引擎和智能解析能力,在数据处理的全链路过程中进行元数据自动跟踪和主动探查,最终展现在数据资产门户中实现主动元数据管理。
DataOps
KeenData Lakehouse集成了DataOps工具和方法论,面向不同角色的数据工作者提供数据开发、持续交付、智能调度、主动治理等数据开发与数据治理一体化平台级能力。
信通院云大所:科杰科技湖仓一体主要落地了哪些行业?
高海玲:科杰产品湖仓一体数据智能平台KeenData Lakehouse 目前已经深入服务金融、能源、工业、制造、零售等行业,服务了100+大型客户,并助力中石化、中金公司、国家电网、中国航天、一汽集团、上汽集团等多家世界500强企业完成数据底座建设,助力客户自主构建数据能力,逐步建立以数据驱动业务变革发展的新模式。