Databricks 添加了数据治理和市场功能

除了在年度数据 + AI 峰会上开源 Delta Lake 外,数据湖库提供商 Databricks 周二还推出了一个新的数据市场以及新的数据工程功能。
该公司表示,新市场将在未来几个月推出,它将允许企业共享数据和分析资产,如表格、文件、机器学习模型、笔记本和仪表板,并补充说数据不必移动或出于共享目的从云存储中复制。
据该公司称,该市场将加速数据工程和应用程序开发,因为它允许企业访问数据集而不是开发数据集,并且还可以订阅仪表板进行分析而不是创建新的仪表板。
Databricks 表示,该市场将使共享数据资产的企业更容易将其货币化。
分析师表示,新市场在设计和战略上类似于 Snowflake 的数据市场。
“每个主要的企业平台(包括 Snowflake)都需要有一个可行的应用程序生态系统才能真正成为一个平台,Databricks 也不例外。它正在寻求成为数据资产的中心市场,应该被视为 ISV 和应用程序的直接机会寻求在 Delta Lake 之上建设的开发商,”Amalgam Insights 首席分析师 Hyoun Park 说。
Constellation Research 首席分析师 Doug Henschen 将 Databricks 的市场与 Snowflake 的市场进行比较,他表示,Databricks 数据市场目前的形式非常新,只解决内部和外部的数据共享问题,不像 Snowflake 添加了集成和支持数据货币化。
为了以安全的方式促进与其他企业的数据协作,该公司表示,它正在引入一种名为 Cleanrooms 的环境,该环境将在未来几个月内推出。
数据洁净室是一个安全的环境,允许企业匿名化、处理和存储个人身份信息,以便以后以不违反隐私法规的方式进行数据转换。
Databricks 的 Cleanrooms 将提供一种无需复制即可跨企业共享和加入数据的方法,该公司表示,并补充说,这些企业将能够与任何云上的客户和合作伙伴协作,并灵活地运行复杂的计算和工作负载SQL 和数据科学工具,包括 Python、R 和 Scala。
遵守隐私规范的承诺是一个有趣的提议,Park 说,并补充说其试金石将是它在具有严格监管准则的金融服务、政府、法律和医疗保健部门的采用。
Databricks 还推出了数项数据工程工具补充。
据该公司称,其中一种新工具 Enzyme 是一个新的优化层,用于加速 Delta Live Tables 中的提取、转换、加载 (ETL) 过程,该公司已于今年 4 月全面推出。
Ventana Research 研究总监 Matt Aslett 表示:“优化层专注于通过结合查询计划和数据变更需求分析,使用 Delta Live Tables 支持自动化增量数据集成管道。”
根据 Henschen 的说法,这一层有望“检查另一组客户期望的功能,这将使其作为传统数据仓库和数据集市平台的替代品更具竞争力。”
Databricks 还在其 Delta Lake 平台上宣布了下一代 Spark Structured Streaming,称为 Project Lightspeed,它声称将通过使用扩展的连接器生态系统来降低成本和延迟。
Databricks 将 Delta Lake 称为数据湖屋,建立在提供存储和分析功能的数据架构之上,这与以本机格式存储数据的数据湖和存储结构化数据(通常以 SQL 格式)的数据仓库形成鲜明对比快速查询。
“流数据是 Databricks 有别于其他一些数据湖屋提供商的一个领域,并且随着基于流数据和事件的实时应用程序变得更加主流而受到更多关注,”Aslett 说。
根据 Park 的说法,Spark 的第二次迭代表明 Databricks 对支持用于分析和机器学习的较小数据源越来越感兴趣。
“机器学习不再只是海量大数据的工具,而是实时和分布式数据的有价值的反馈和警报机制,”分析师说。
此外,为了帮助企业进行数据治理,该公司还推出了Data Lineage for Unity Catalog,未来几周内将在AWS和Azure上普遍可用。
“Unity Catalog 的普遍可用性将有助于改善 Lakehouse 资产的安全性和治理方面,例如文件、表格和 ML 模型。这对于保护敏感数据至关重要,”前大数据和分析研究副总裁 Sanjeev Mohan 说在 Gartner。
该公司还发布了 Databricks SQL Serverless(在 AWS 上)以提供完全托管的服务来维护、配置和扩展 lakehouse 上的云基础设施。
其他一些更新包括 Databricks SQL 的查询联合功能和 SQL CLI 的新功能,所有用户都可以直接从其本地计算机运行查询。
该公司表示,联合功能允许开发人员和数据科学家查询远程数据源,包括 PostgreSQL、MySQL、AWS Redshift 等,而无需先从源系统提取和加载数据。

关注公众号“大模型全栈程序员”回复“小程序”获取1000个小程序打包源码。更多免费资源在http://www.gitweixin.com/?p=2627