gitweixin
  • 首页
  • 小程序代码
    • 资讯读书
    • 工具类
    • O2O
    • 地图定位
    • 社交
    • 行业软件
    • 电商类
    • 互联网类
    • 企业类
    • UI控件
  • 大数据开发
    • Hadoop
    • Spark
    • Hbase
    • Elasticsearch
    • Kafka
    • Flink
    • 数据仓库
    • 数据挖掘
    • flume
    • Kafka
    • Hive
    • shardingsphere
    • solr
  • 开发博客
    • Android
    • php
    • python
    • 运维
    • 技术架构
    • 数据库
  • 程序员网赚
  • bug清单
  • 量化投资
  • 在线查询工具
    • 去行号
    • 在线时间戳转换工具
    • 免费图片批量修改尺寸在线工具
    • SVG转JPG在线工具

标签归档presto

精品微信小程序开发门户,代码全部亲测可用

  • 首页   /  
  • 标签: "presto"
Hive 3月 31,2022

Presto vs Hive:综合比较

Presto 和 Hive 之间的 5 个最大区别是:

1、Hive 允许用户插入自定义代码,而 Preso 不允许。
2、Presto 旨在符合 ANSI SQL,而 Hive 使用 HiveQL。
3、Presto 可以处理有限数量的数据,因此在生成大型报告时最好使用 Hive。
4、 Hive 通常可以容忍失败,但 Presto 不能。
5、 Hive 使用 map-reduce 架构并将数据写入磁盘,而 Presto 使用 HDFS 架构而不使用 map-reduce。

Presto 最初是一个 Facebook 项目,让工程师可以针对公司庞大的 (300PB) 数据仓库运行交互式分析查询。 Facebook 发布了 Presto 作为 Apache Software 下的开源工具。 在创建 Presto 之前,Facebook 以类似的方式使用 Hive。 在放弃它转而支持 Presto 之后,Hive 也成为了一个开源的 Apache 工具数据仓库工具。 如今,使用大数据的公司通常对 Presto 和 Hive 有强烈的偏好。 仔细比较表明,这些选项有一些相似之处和不同之处,但都没有管理和转换大数据所需的综合功能。

Presto 与 Hive:ANSI SQL 和 HiveQL
许多数据工程师在第一次尝试 Presto 时注意到的第一件事就是他们可以使用现有的 SQL 知识。 Presto 依靠标准 SQL 来执行查询、检索数据和修改数据库中的数据。只要您了解 SQL,就可以立即开始使用 Presto。许多人认为这是一种优势。

Apache Hive 使用类似于 SQL 的语言,但它有足够的差异,初学者需要重新学习一些查询。 HiveQL 代表 Hive 查询语言,它有一些奇怪的东西可能会让新用户感到困惑。但是,任何熟悉 SQL 的人都应该发现他们可以相对快速地掌握 HiveQL。

Apache 为 HiveQL 维护了一个全面的语言手册,因此您可以在忘记命令时随时查找它们。尽管如此,查找信息会分散注意力并降低效率。

Presto vs Hive:自定义代码
由于 Presto 在标准 SQL 上运行,因此您已经拥有所需的所有命令。一些工程师认为这是一个优势,因为他们可以快速执行数据检索和修改。

然而,无法插入自定义代码可能会给高级大数据用户带来问题。在这种情况下,Hive 提供了优于 Presto 的优势。假设您非常了解该语言,您可以在查询中插入自定义代码。您可能不需要经常这样做,但在需要时它会派上用场。

在花时间在 HiveQL 中编写自定义代码之前,请访问 Hive 插件页面并搜索类似的代码。有人可能已经编写了您的项目所需的代码。如果您找不到您需要的特定代码,您可能会找到一个只需要稍作改动即可执行您的独特命令的插件。

Presto 与 Hive:数据限制
很少有人会否认 Presto 在生成频繁报告时运行良好。不幸的是,Presto 任务可以存储的数据量是最大的。一旦你碰到那堵墙,Presto 的逻辑就会崩溃。如果您生成每小时或每天的报告,您几乎可以肯定依靠 Presto 来完成这项工作。请记住,Facebook 使用 Presto,而且该公司会生成大量数据。不过,你可以达到一个极限。

Hive 似乎没有数据限制,至少不会影响实际场景。这使得 Hive 成为生成每周或每月报告的公司更好的数据查询选项。涉及的数据越多,项目所需的时间就越长。不过,Hive 不会失败。它会一直工作,直到你的命令结束。

Presto vs Hive:HDFS 和将数据写入磁盘
架构在 Presto 和 Hive 之间的差异中起着重要作用。

Hive 和 MapReduce
Hive 使用 MapReduce,这意味着它过滤和排序任务,同时在分布式服务器上管理它们。然而,在 reduce 和 map 阶段之间,Hive 必须将数据写入磁盘。写入磁盘会强制 Hive 在继续执行下一个任务之前等待一小段时间。

MapReduce 在 Hive 中运行良好,因为它可以处理多个服务器上的任务。分配任务会提高速度。尽管如此,数据必须写入磁盘,这会惹恼一些用户。

幸运的是,MapReduce 为 Hive 带来了非凡的灵活性。它可以处理大量的数据格式。 MapReduce 还可以帮助 Hive 即使在遇到数据故障时也能继续工作。它将承认失败并在可能的情况下继续前进。

Presto 和 HDFS
Presto 具有不同的架构,这使得 Give 在某些情况下有用,而在其他情况下则很麻烦。 Presto 支持 Hadoop 分布式文件系统 (HDFS),这是一种非关系源,无需在任务之间将数据写入磁盘。相反,HDFS 架构在整个分布式系统中存储数据。由于它的数据不会被锁定在一个地方,Presto 可以在不停止将数据写入磁盘的情况下运行任务。

显然,HDFS 提供了几个优点。不过,毫不奇怪,您可能会遇到架构方面的挑战。 HDFS 不能像 MapReduce 一样容忍故障。当出现问题时,Presto 往往会迷失方向并关闭。这种情况并不经常发生,但您可能会因失败而损失数小时的工作时间。你可能会发现你可以追溯你的步骤,解决问题,然后从你离开的地方继续。即使使用该解决方案,用户也会浪费宝贵的时间来追踪故障的根源并诊断问题。

Presto vs Hive:结论
许多使用大数据的专业人士更喜欢 Hive 而不是 Presto,因为他们欣赏 Hive 的稳定性和灵活性。当您专业地处理大数据时,您会发现有时您想编写自定义代码以提高项目效率。

仅仅因为有些人更喜欢 Hive,并不一定意味着你应该打折 Presto。按预期使用时效果很好。 Presto 快速处理任务。只是不要要求它一次做太多事情。如果这样做,您将面临失败的风险。

作者 east

关注公众号“大模型全栈程序员”回复“小程序”获取1000个小程序打包源码。回复”chatgpt”获取免注册可用chatgpt。回复“大数据”获取多本大数据电子书

标签

AIGC AI创作 bert chatgpt github GPT-3 gpt3 GTP-3 hive mysql O2O tensorflow UI控件 不含后台 交流 共享经济 出行 图像 地图定位 外卖 多媒体 娱乐 小程序 布局 带后台完整项目 开源项目 搜索 支付 效率 教育 日历 机器学习 深度学习 物流 用户系统 电商 画图 画布(canvas) 社交 签到 联网 读书 资讯 阅读 预订

官方QQ群

小程序开发群:74052405

大数据开发群: 952493060

近期文章

  • 详解Python当中的pip常用命令
  • AUTOSAR如何在多个供应商交付的配置中避免ARXML不兼容?
  • C++thread pool(线程池)设计应关注哪些扩展性问题?
  • 各类MCAL(Microcontroller Abstraction Layer)如何与AUTOSAR工具链解耦?
  • 如何设计AUTOSAR中的“域控制器”以支持未来扩展?
  • C++ 中避免悬挂引用的企业策略有哪些?
  • 嵌入式电机:如何在低速和高负载状态下保持FOC(Field-Oriented Control)算法的电流控制稳定?
  • C++如何在插件式架构中使用反射实现模块隔离?
  • C++如何追踪内存泄漏(valgrind/ASan等)并定位到业务代码?
  • C++大型系统中如何组织头文件和依赖树?

文章归档

  • 2025年6月
  • 2025年5月
  • 2025年4月
  • 2025年3月
  • 2025年2月
  • 2025年1月
  • 2024年12月
  • 2024年11月
  • 2024年10月
  • 2024年9月
  • 2024年8月
  • 2024年7月
  • 2024年6月
  • 2024年5月
  • 2024年4月
  • 2024年3月
  • 2023年11月
  • 2023年10月
  • 2023年9月
  • 2023年8月
  • 2023年7月
  • 2023年6月
  • 2023年5月
  • 2023年4月
  • 2023年3月
  • 2023年1月
  • 2022年11月
  • 2022年10月
  • 2022年9月
  • 2022年8月
  • 2022年7月
  • 2022年6月
  • 2022年5月
  • 2022年4月
  • 2022年3月
  • 2022年2月
  • 2022年1月
  • 2021年12月
  • 2021年11月
  • 2021年9月
  • 2021年8月
  • 2021年7月
  • 2021年6月
  • 2021年5月
  • 2021年4月
  • 2021年3月
  • 2021年2月
  • 2021年1月
  • 2020年12月
  • 2020年11月
  • 2020年10月
  • 2020年9月
  • 2020年8月
  • 2020年7月
  • 2020年6月
  • 2020年5月
  • 2020年4月
  • 2020年3月
  • 2020年2月
  • 2020年1月
  • 2019年7月
  • 2019年6月
  • 2019年5月
  • 2019年4月
  • 2019年3月
  • 2019年2月
  • 2019年1月
  • 2018年12月
  • 2018年7月
  • 2018年6月

分类目录

  • Android (73)
  • bug清单 (79)
  • C++ (34)
  • Fuchsia (15)
  • php (4)
  • python (43)
  • sklearn (1)
  • 云计算 (20)
  • 人工智能 (61)
    • chatgpt (21)
      • 提示词 (6)
    • Keras (1)
    • Tensorflow (3)
    • 大模型 (1)
    • 智能体 (4)
    • 深度学习 (14)
  • 储能 (44)
  • 前端 (4)
  • 大数据开发 (488)
    • CDH (6)
    • datax (4)
    • doris (30)
    • Elasticsearch (15)
    • Flink (78)
    • flume (7)
    • Hadoop (19)
    • Hbase (23)
    • Hive (40)
    • Impala (2)
    • Java (71)
    • Kafka (10)
    • neo4j (5)
    • shardingsphere (6)
    • solr (5)
    • Spark (99)
    • spring (11)
    • 数据仓库 (9)
    • 数据挖掘 (7)
    • 海豚调度器 (10)
    • 运维 (34)
      • Docker (3)
  • 小游戏代码 (1)
  • 小程序代码 (139)
    • O2O (16)
    • UI控件 (5)
    • 互联网类 (23)
    • 企业类 (6)
    • 地图定位 (9)
    • 多媒体 (6)
    • 工具类 (25)
    • 电商类 (22)
    • 社交 (7)
    • 行业软件 (7)
    • 资讯读书 (11)
  • 嵌入式 (70)
    • autosar (63)
    • RTOS (1)
    • 总线 (1)
  • 开发博客 (16)
    • Harmony (9)
  • 技术架构 (6)
  • 数据库 (32)
    • mongodb (1)
    • mysql (13)
    • pgsql (2)
    • redis (1)
    • tdengine (4)
  • 未分类 (6)
  • 程序员网赚 (20)
    • 广告联盟 (3)
    • 私域流量 (5)
    • 自媒体 (5)
  • 量化投资 (4)
  • 面试 (14)

功能

  • 登录
  • 文章RSS
  • 评论RSS
  • WordPress.org

All Rights Reserved by Gitweixin.本站收集网友上传代码, 如有侵犯版权,请发邮件联系yiyuyos@gmail.com删除.