AWS Glue 升级 Spark 引擎,支持 Ray 框架

AWS Glue 是 Amazon Web Services 提供的无服务器数据集成服务,在本周推出的 4.0 版本中展示了 Python 和 Apache Spark 的功能。
升级为 Python 3.10 和 Apache Spark 3.3.0 添加了引擎。这两个引擎都包括性能增强和错误修复,Spark 提供行级运行时过滤和改进的错误消息等功能。
Glue 4.0 中的新引擎插件支持 Ray 计算框架、适用于 Spark 的 Cloud Shuffle 服务和自适应查询执行。还支持基于 Python 构建的 Pandas 数据分析和操作工具。新的数据格式支持涵盖 Apache Hudi、Apache Iceberg 和 Delta Lake。 Glue 4.0 还包括 Parquet 矢量化阅读器,支持额外的编码和数据类型。
AWS Glue 提供数据发现、数据准备、数据转换和数据集成功能,并根据工作负载大小进行自动扩展。 AWS 表示,Glue 现在还为客户提供视觉转换,以便在团队之间使用和共享特定于业务的 ETL 逻辑。
AWS 宣布推出 AWS Glue for Ray 预览版作为新的引擎选项。数据工程师可以使用 AWS Glue for Ray 通过 Python 和流行的 Python 库处理大型数据集。 Python 代码的分布式处理是在多节点集群上完成的。
Glue 4.0 现已在美国的多个 AWS 区域推出,包括俄亥俄州、北弗吉尼亚州和北加利福尼亚州。

关注公众号“大模型全栈程序员”回复“小程序”获取1000个小程序打包源码。更多免费资源在http://www.gitweixin.com/?p=2627