Databricks 开源其 Delta Lake 数据湖屋

为了消除数据湖和数据仓库竞争对手的疑虑,Databricks 周二表示,作为 Delta Lake 2.0 版本的一部分,它正在开源所有 Delta Lake API。该公司还宣布将把 Delta Lake 的所有增强功能贡献给 Linux 基金会。
Cloudera、Dremio、谷歌(Big Lake)、微软、甲骨文、SAP、AWS Snowflake、HPE(Ezmeral)和Vertica等Databricks竞争对手对该公司提出批评,质疑Delta Lake是开源还是专有,从而抢走了份额潜在客户,分析师说。
Ventana Research 研究总监 Matt Aslett 表示:“新公告应该为用户提供连续性和清晰度,并有助于消除关于 Delta Lake 是专有还是开源的混淆(部分是由竞争对手引起的)。”
Constellation Research 首席分析师 Doug Henschen 表示,通过这些公告,Databricks 正在平息客户的担忧和竞争批评。
“在竞争性交易中,像 Snowflake 这样的竞争对手会向潜在客户指出 Delta Lake 的某些方面是专有的,”Henschen 说,并补充说 Databricks 客户现在可以相信他们的数据在一个开放平台上,而不是锁定在三角洲湖中。
Databricks 将 Delta Lake 称为数据湖屋,这是一种同时提供存储和分析功能的数据架构,与以本机格式存储数据的数据湖和存储结构化数据(通常以 SQL 格式)的数据仓库的概念形成对比).
随着数据湖市场上越来越多的商业开源项目,Databricks 的 Delta Lake 可能会发现自己面临新的竞争,包括 Apache Iceberg,它为超大的分析表提供高性能查询。
“还有最近开始商业化的开源项目,例如 Apache Hudi 的 OneHouse 以及 Starburst 和 Dremio 都推出了 Apache Iceberg 产品,”Amalgam Insights 首席分析师 Hyoun Park 说。
“随着这些产品的推出,Delta Lake 面临着来自其他开源 lakehouse 格式的压力,要求它在功能上变得更加强大,因为 lakehouse 市场开始分裂,技术人员有多种选择,”Park 补充道。
Ventana 的 Aslett 说,这个领域的许多其他参与者都专注于 Apache Iceberg 作为 Delta Lake 表的替代品。与在行和列中存储数据的传统表相比,增量表可以访问 ACID(原子性、一致性、隔离性和持久性)事务来存储元数据,以帮助加快数据摄取。
4 月,谷歌宣布支持 Big Lake 和 Iceberg,本月早些时候,Snowflake 宣布在私人预览版中支持 Apache Iceberg 表。
Henschen 说,Iceberg 的公告,就像 Databricks 的开源战略一样,旨在吸引潜在客户,他们可能担心只与一家供应商合作,并且担心在未来访问自己的数据会受到阻碍。
Gartner 前研究副总裁 Sanjeev Mohan 表示,面对新的竞争,Databricks 转向开源 Delta Lake 是一个很好的举措。
“Databricks 宣布开源 Delta Lake 的全部功能是推动更广泛采用的极好一步,”Gartner 前大数据和分析研究副总裁 Sanjeev Mohan 说。
该公司表示,Databricks 的 Delta Lake 2.0 将于今年晚些时候全面上市,预计将为数据分析提供更快的查询性能。
Databricks 周二还发布了第二版 MLflow——一个用于管理端到端机器学习生命周期 (MLOps) 的开源平台。
MLflow 2.0 附带 MLflow Pipelines,它根据数据科学家正在构建的模型类型为数据科学家提供预定义的、生产就绪的模板,使他们能够加速模型开发,而无需生产工程师的干预,该公司表示。
据分析师称,MLflow 2.0 将成为数据科学家的一个更成熟的选择,因为机器学习生产仍然是一个具有挑战性的过程,并且将算法模型转换为安全管理资源上的生产级应用程序代码仍然很困难。
“这个领域有许多供应商解决方案,包括 Amazon Sagemaker、Azure Machine Learning、Google Cloud AI、Datarobot、Domino Data、Dataiku 和 Iguazio。但与超大规模计算器和 Databricks 的统一方法相比,Databricks 是一个中立的供应商数据和模型管理是 MLOps 供应商的一个差异化因素,后者专注于模型操作化的编码和生产挑战,”Amalgam 的 Park 说。
Henschen 说,发布 MLflow 2.0 的举措简化了将流媒体和流媒体分析引入生产数据管道的途径,并补充说许多公司都在与 MLOps 作斗争,甚至在成功创建机器学习模型后也失败了。

关注公众号“大模型全栈程序员”回复“小程序”获取1000个小程序打包源码。更多免费资源在http://www.gitweixin.com/?p=2627