根据维基百科对数据湖的定义:数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统,它按原样存储数据,无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。
在实际的业务应用中,数据湖作为一个集中式存储库,它以更低的存储成本,更方便的方式解决不同类型数据统一存储的问题,同时还能够为机器学习提供全局数据。
数据湖与数据仓库的区别
小编拿数据湖和被熟知的数据仓库在功能特性上做了对比,为了大家更好的理解数据湖的应用。
从以上对比中可以看出,数据湖有着原生优势 :
首先,从支持的数据类型上,数据仓库只能处理结构化数据,并且数据仓库在进行数据接入前要进行严格的数据结构定义、数据梳理清洗后才能入库,而数据湖逻辑是各种原始数据的集合,数据湖保留数据的原格式,原则上不对数据进行清洗,加工,但在入湖后针对数据资产的场景进行整合展示;
其次,在灵活性上,数据湖具有天生优势,传统的数据仓库,受制于业务限制,随便变迁会影响底层数据的变化,这导致了传统数仓无法灵活支持业务的变化。而对于数据湖来说,业务发生变化,数据依然可以轻松地进入数据湖里,对于数据的采集,清洗、处理,可以根据业务需求灵活响应。
科杰科技数据湖架构
科杰科技数据湖技术架构
以上是科杰科技数据湖的技术架构,可以看出,数据湖并不是一个产品,也不是一项技术,而是由多个大数据组件及应用服务组成的一个解决方案。
存储
支持AWS S3、OSS、Azure Blob等多种存储介质,应对不同场景下的存储需求,如AWS S3,它可以存储二进制为基础的任何信息,包含结构化和非结构化的数据;如OSS存储,支持图片和音视频等应用的海量存储、网页或者移动应用的静态和动态资源分离或云端数据处理;科杰科技数据湖存储技术可以轻松面对应用对稳定性、扩展性、可用性等多样化的存储要求,以及物理硬件的复杂性;
计算
兼容多种开源/商业计算引擎,满足企业数据处理的多种诉求,且进行了优化工作,使得多范式计算面向客户侧表现为简单和统一;
运维托管
科杰科技提供了可视化的部署、管理、监控、运维大数据服务组件与大数据节点的能力;
应用
支持多种数据源的接入,支持更多种类的数据类型转换,满足各种场景诉求;具备数据同步、离线开发、实时计算、数据科学、模型设计等数据湖所需的完备功能,提供一站式服务;
数据集成
利用元数据对企业数据资产进行统一规范化定义,针对不同来源、存储类型、数据形态特点及数据使用要求,提供数据同步、DB导入、临时文件导入、接口集成等多种数据归集方式,帮助用户简单、高效地实现多源、异构、分散数据的统一归集;
数据治理
通过数据分级分类、数据质量、数据标准、主数据管理及数据生命周期管理,从事前、事中、事后、从核心数据、从数据的流转周期等多个维度对数据进行治理,使得企业数据质量问题无所遁形,解决用户明知数据质量差却不知从何下手治理的困境;
数据应用
支持用户自定义封装服务接口、支持数据指标及数据标签的开发,轻松应对业务端灵活多变的数据集成需求,以及集成双方数据标准不一致导致的数据集成难、集成之后更难、集成环境和接口维护难的问题。彻底打破数据孤岛、释放数据潜力,支撑前台业务迭代发展与创新。
总结
随着大数据技术的融合发展,数据湖的边界不断扩宽,内涵也发生了变化,数据湖汇集各方技术,将持续加速释放其应用需求,现阶段,数据湖主要应用于泛互联网行业以及传统行业的互联网应用场景,未来将向更多具有大数据和高价值属性的行业扩展;企业在布局数字化转型方面,面对多元且快速变化的业务需求,一方面需建设统一的数据底座,一方面需关注平台能力的开放性、创新性和敏捷性。
近期,科杰科技湖仓一体智能平台keendata Lakehouse成功通过全国首批云原生数据湖评测,平台在存储能力、计算能力、安全能力、数据管理能力、湖应用能力、兼容能力、高可用能力等方面均获得权威认可!