近年来,随着企业数字化转型进入深水区,数据类型以及分析场景呈现多样化、多元化态势。为满足多样化的数据分析需求,企业数据平台架构也在持续演进。在此背景下,湖仓一体概念应时而生,越来越多的大型企业将湖仓一体视为数字化转型的重要契机,使得湖仓一体受到前所未有的关注。
不过,关注度越高,嘈杂声也会越多。要理解什么是真正的湖仓一体,需要对技术背景及其数据仓库、数据湖的演进历程有清晰的认知。本文将对数据仓库和数据湖的发展脉络进行深入剖析,阐述两者融合演进的新方向——湖仓一体,希望为企业构建湖仓一体架构提供有价值的指引。
数据仓库与数据湖的发展历程与挑战
数据仓库诞生于1990年,数据仓库之父Bill Inmon率先提出数据仓库的概念,它是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,主要用于支持管理决策和信息的全局共享。概言之,数据仓库的作用在于存储大量的结构化数据,为管理分析和业务决策提供统一的数据支持,虽然存取过程相对比较繁琐,对数据类型有一定限制,但在那个年代,数据仓库的功能性已经够用了,所以一直到2010年前后,数据仓库占据市场的主流地位。
到了互联网时代,企业数据量呈现爆发式增长,具有高多样性、高速度和高容量的非结构化数据大量涌现,且企业对于数据处理的实时性和易用性也有了更高的要求。但传统数据仓库已无法支撑起互联网时代的商业智能,且数据存储也带来成本的激增。随着Hadoop与对象存储的技术成熟,数据湖概念随之而来。
相较于数据仓库,数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施。它就像一个大型仓库,可以存储任意形式(包括结构化和非结构化)和任意格式(包括文本、音频、视频和图像)的原始数据,它的灵活度和自由度更高,存储成本也更为廉价,更加适合对异构数据的价值挖掘。
数据湖的优势很明显,问题也很突出:数据湖架构太过灵活而缺少对数据监管、控制和必要的治理手段,导致运维成本不断增加、数据治理效率降低,企业易陷入“数据沼泽”的困境。同时它也不支持事务管理,不保证数据质量,并缺乏一致性/隔离性,从而几乎无法实现混合追加和读取数据,以及完成批量处理和流式作业。
那么,有没有一种新架构,能同时兼顾数据湖的灵活性和数据仓库的成长性?答案是肯定的!湖仓一体架构就在不断地演进和迭代中横空出世。
湖仓一体:下一代大数据平台
依据DataBricks公司对湖仓一体的定义,湖仓一体是一种结合了数据湖和数据仓库优势的新范式,在用于数据湖的低成本存储上,实现与数据仓库中类似的数据结构和数据管理功能。湖仓一体的英文名叫“Lakehouse”,有人把“湖仓一体”做了形象的比喻,就好像湖边搭建了很多小房子,有的负责数据分析,有的运转机器学习,有的检索音视频等,而这些数据源流,都可以从数据湖里轻松取得。
Gartner认为,湖仓一体是将数据湖的灵活性和数仓的易用性、规范性、高性能结合起来的融合架构,无数据孤岛。
需要注意的是,湖仓一体并不等同于“数据湖+数据仓库”,这是一个想当然的错误,目前不少企业走了弯路,同时搭建数据仓库、数据湖两种存储架构,一个大的数据仓库拖着多个小的数据湖,这并不意味着这家企业拥有了湖仓一体的能力,湖仓一体绝不等同于数据湖和数据仓简单打通,反而会出现架构冗余和重复建设等问题。
科杰科技湖仓一体的探索和实践
作为自主可控数据基础软件主要玩家,科杰科技凭借着领先的大数据产品和最佳实践助力大型组织完成自主可控能力建设,并在能源、金融、零售等行业打造了一批标杆案例,形成了深厚的行业积淀和技术积累。基于对湖仓一体的深刻洞察,依托多业态复杂场景最佳实践方法论,科杰科技构建了企业级湖仓一体数据智能平台(KeenData Lakehouse)。
KeenData Lakehouse采用新一代湖仓一体架构,新架构在数据仓库高性能与管理能力基础之上融合了数据湖的灵活特性,具备数据湖开放文件存储灵活性的同时兼具数据仓库的使用效率,基于科杰科技KeenData Lakehouse 产品全面建设企业数据底座能力,可以支持企业未来5-10年大数据和AI项目的协同开展。
在平台能力方面,KeenData Lakehouse以DataOps方法论和工具体系为支撑,帮助企业打通业务数据化,数据赋能业务的生命周期,建设全域数据资产,实现数据统一、标准化、资产化,将数据的设计、部署、管理和交付自动化,大幅度简化组织处理数据、管理数据与应用数据的难度,让数据高效的发挥价值,实现体系化数据开放赋能与规模化的数据智能落地。
好的基础架构设计能够让项目快速落地,并支持现有系统上快速开发新功能、引入新数据的能力。屹立于行业之巅,科杰科技数据底座产品从以下几个维度打造产品的卓越性:
存算分离:汇聚整合多源多态数据,减少数据迁移工作从而确保数据的可靠性、一致性和实时性;支持丰富的计算引擎;更优秀的数据管理能力,更高效的查询性能。
ACID与事务性:具备完整的ACID特性,提升事务性处理能力。
批流一体:支持批处理和实时计算;可以使用批处理分析数据流;提供批处理、流处理的联动和转换。
数据编织:支持在混合云和多云环境中动态管理不同的数据源,以提供高质量的数据来支持应用程序、分析和业务流程自动化。
一站式全流程:统一数据资源、统一开发流程、统一智能调度。
DataOps:数据运营一体化,数据工程、数据集成、数据安全和数据质量全过程自动托管运维,实现“持续集成、持续开发、持续运营”。
无论是技术迭代亦是市场需求,湖仓一体大数据平台已然成为新一代演进方向。科杰科技KeenData Lakehouse已经率先凭借敏锐的市场洞察力,卓越的产品表现打造多个为行业标杆范本,成为大中型企业数字化转型的明智之选,助力客户业务创新更敏捷,业务洞察更准确,加速释放数据价值。