Databricks中国启示录：一场蓄谋已久的技术与商业(3) - 国际观察杂志社投稿_期刊论文发表|版面费|电话|编辑部|论文发表- 国际观察

一、本刊要求作者有严谨的学风和朴实的文风，提倡互相尊重和自由讨论。凡采用他人学说，必须加注说明。二、不要超过10000字为宜，精粹的短篇，尤为欢迎。三、请作者将稿件（用WORD格式）发送到下面给出的征文信箱中。四、凡来稿请作者自留底稿，恕不退稿。五、为规范排版，请作者在上传修改稿时严格按以下要求： 1．论文要求有题名、摘要、关键词、作者姓名、作者工作单位（名称，省市邮编）等内容一份。 2．基金项目和作者简介按下列格式：基金项目：项目名称（编号）作者简介：姓名（出生年－），性别，民族（汉族可省略），籍贯，职称，学位，研究方向。 3．文章一般有引言部分和正文部分，正文部分用阿拉伯数字分级编号法，一般用两级。插图下方应注明图序和图名。表格应采用三线表，表格上方应注明表序和表名。 4．参考文献列出的一般应限于作者直接阅读过的、最主要的、发表在正式出版物上的文献。其他相关注释可用脚注在当页标注。参考文献的著录应执行国家标准GB7714-87的规定，采用顺序编码制。

Databricks中国启示录：一场蓄谋已久的技术与商业(3)

作者:

关键词:

摘要：

首先，厂商和企业目前在开发湖仓架构时，会普遍基于一些开源技术技术栈进行开发，但选择不同的技术方案都有其优劣性，从企业目前构建的情况来看，正处于湖仓架构改造和优化的关键期。

为用户降低数据融合与数据共享时统一的安全管控和数据治理的难度，亚马逊云科技“智能湖仓”架构不止打通了数据湖、数据仓库，还进一步将数据湖、数据仓库以及所有其他数据处理服务组成统一且连续的整体。数据可以在数据服务与数据存储之间、数据服务与数据服务之间移动或访问。Amazon Glue提供数据无缝流动能力，Amazon Lake Formation提供了快速构建湖仓、简化安全和管控的全面数据管理能力。

这种转变，实际上也给当下国内的第三方湖仓解决方案提供商带来了市场契机。

二是在解决湖仓问题时，能不能以比较简单的方式，大幅度降低整个应用组件的复杂度。

在中国市场，尽管企业对云上调用产品、管理研发资源、运维调度等需求明显，但从资金投入、人才积累以及实际应用案例的深度来看，多年以来，中国企业大数据产业基础领域的发展，始终面临着的是一个全方位激烈竞争的市场局面。

德比软件在“智能湖仓”架构下，更加方便汇集和保存海量业务数据，相对灵活地统筹和调用数据，用于BI、可视化分析、搜索、建模、特征提取、流处理等等，推出了对酒店客户的BI新服务以及异常检测服务，也在利用这个服务快速探索新的业务。

“湖仓一体架构结合了数据湖和数据库两者优势，以标准服务简化数据集成与开发，提供对数据的自由访问，能够以低成本支持高性能的数据服务。”该负责人称。

作为一家创业厂商，滴普科技最早基于提供数据中台进行产品打磨，后来伴随企业不断成长开始逐步涉足整个湖仓技术体系的搭建，从存算引擎到数据开发、治理以及分析应用等场景。

当然，还有更多的客户此前有过类似的技术实践，或因实践的技术路径比较难，也或者方案很难完全解决掉所有的问题，则会希望第三方服务商能够提供统一方案，并且尽量降低运维的难度。

“湖仓本身在整个数据场景里属于偏小众的，虽然很多人在关注，但从客户角度来看，他们当前的系统基于Hadoop?或分析型数据库构建的数仓，其实已经很完备了。如果让他们升级到湖仓，正如前面提到的，一定要有很强的业务需求拉动，而不是单纯的技术补强。”杨磊指出。

“湖仓涉及的技术难点还是比较深入的，Delta Lake/Iceberg/Hudi只是表引擎，湖仓要真正形成战斗力，还有如分析引擎、实时计算引擎、数据入湖工具、数据开发DataOps工具链、统一元数据管理等相关的引擎或组件需要优雅的放在一块使用。”杨磊指出。

Ali Ghodsi指出，“开放的数据湖仓正迅速成为企业处理数据的标准。Delta Lake、MLflow和Spark都是这一数据架构的核心。”可以预见，Delta Lake正成为Spark之后下一个火热的大数据项目。

此外，伴随近年来大数据平台与容器、Serverless等云原生技术的深度融合，也在引导湖仓都走向云原生，实现异构数据灵活存储、计算资源弹性伸缩。

正因为如此，Snowflake、Google BigQuery和Amazon Redshift等数仓专家，也在不断调整其数仓以兼容更多数据湖功能的反向思路。

Databricks成立于2013年的美国旧金山，由加州大学的几位教授和五位伯克利大学的博士生共同创立。其联合创始人兼首席执行官Ali Ghodsi，也是开源平台Apache Spark的创建者之一。

这种在湖仓能力上的持续进化，也让Databricks在2021年Gartner魔力象限图有两个关键变化：一个是在DBMS（云数据库管理系统，Cloud Database Management Systems），另一个则在DSML（数据科学和机器学习平台，Data Science and Machine Learning），Databricks均处于领导者象限。

创立之初，Databricks面临的最大一个挑战是，如何得到商业世界对Spark的关注。当时外界认为Spark只能用于内存计算的数据集，这种认知实际上打击了企业使用Spark的积极性。为了粉碎这种偏见，2015年团队通过一项竞赛，以最短时间内处理1PB+数据规模的破记录，一炮而红。

“虽然现在有很多开源版本可以投入，但如果任凭混搭，那就跟早期Cloudera Hadoop一样，大量复杂的技术组件，导致整个客户的商业运行成本是非常高的，同时还需要有一定的运维人员进行维护。对于传统行业或非科技领域企业，如果不具备专业的人才团队，根本解决不了这样的问题。”

文章来源：《国际观察》网址: http://www.gjgczzs.cn/zonghexinwen/2022/0727/1778.html