Presto vs Hive:综合比较

Presto 和 Hive 之间的 5 个最大区别是:

1、Hive 允许用户插入自定义代码,而 Preso 不允许。
2、Presto 旨在符合 ANSI SQL,而 Hive 使用 HiveQL。
3、Presto 可以处理有限数量的数据,因此在生成大型报告时最好使用 Hive。
4、 Hive 通常可以容忍失败,但 Presto 不能。
5、 Hive 使用 map-reduce 架构并将数据写入磁盘,而 Presto 使用 HDFS 架构而不使用 map-reduce。

Presto 最初是一个 Facebook 项目,让工程师可以针对公司庞大的 (300PB) 数据仓库运行交互式分析查询。 Facebook 发布了 Presto 作为 Apache Software 下的开源工具。 在创建 Presto 之前,Facebook 以类似的方式使用 Hive。 在放弃它转而支持 Presto 之后,Hive 也成为了一个开源的 Apache 工具数据仓库工具。 如今,使用大数据的公司通常对 Presto 和 Hive 有强烈的偏好。 仔细比较表明,这些选项有一些相似之处和不同之处,但都没有管理和转换大数据所需的综合功能。

Presto 与 Hive:ANSI SQL 和 HiveQL
许多数据工程师在第一次尝试 Presto 时注意到的第一件事就是他们可以使用现有的 SQL 知识。 Presto 依靠标准 SQL 来执行查询、检索数据和修改数据库中的数据。只要您了解 SQL,就可以立即开始使用 Presto。许多人认为这是一种优势。

Apache Hive 使用类似于 SQL 的语言,但它有足够的差异,初学者需要重新学习一些查询。 HiveQL 代表 Hive 查询语言,它有一些奇怪的东西可能会让新用户感到困惑。但是,任何熟悉 SQL 的人都应该发现他们可以相对快速地掌握 HiveQL。

Apache 为 HiveQL 维护了一个全面的语言手册,因此您可以在忘记命令时随时查找它们。尽管如此,查找信息会分散注意力并降低效率。

Presto vs Hive:自定义代码
由于 Presto 在标准 SQL 上运行,因此您已经拥有所需的所有命令。一些工程师认为这是一个优势,因为他们可以快速执行数据检索和修改。

然而,无法插入自定义代码可能会给高级大数据用户带来问题。在这种情况下,Hive 提供了优于 Presto 的优势。假设您非常了解该语言,您可以在查询中插入自定义代码。您可能不需要经常这样做,但在需要时它会派上用场。

在花时间在 HiveQL 中编写自定义代码之前,请访问 Hive 插件页面并搜索类似的代码。有人可能已经编写了您的项目所需的代码。如果您找不到您需要的特定代码,您可能会找到一个只需要稍作改动即可执行您的独特命令的插件。

Presto 与 Hive:数据限制
很少有人会否认 Presto 在生成频繁报告时运行良好。不幸的是,Presto 任务可以存储的数据量是最大的。一旦你碰到那堵墙,Presto 的逻辑就会崩溃。如果您生成每小时或每天的报告,您几乎可以肯定依靠 Presto 来完成这项工作。请记住,Facebook 使用 Presto,而且该公司会生成大量数据。不过,你可以达到一个极限。

Hive 似乎没有数据限制,至少不会影响实际场景。这使得 Hive 成为生成每周或每月报告的公司更好的数据查询选项。涉及的数据越多,项目所需的时间就越长。不过,Hive 不会失败。它会一直工作,直到你的命令结束。

Presto vs Hive:HDFS 和将数据写入磁盘
架构在 Presto 和 Hive 之间的差异中起着重要作用。

Hive 和 MapReduce
Hive 使用 MapReduce,这意味着它过滤和排序任务,同时在分布式服务器上管理它们。然而,在 reduce 和 map 阶段之间,Hive 必须将数据写入磁盘。写入磁盘会强制 Hive 在继续执行下一个任务之前等待一小段时间。

MapReduce 在 Hive 中运行良好,因为它可以处理多个服务器上的任务。分配任务会提高速度。尽管如此,数据必须写入磁盘,这会惹恼一些用户。

幸运的是,MapReduce 为 Hive 带来了非凡的灵活性。它可以处理大量的数据格式。 MapReduce 还可以帮助 Hive 即使在遇到数据故障时也能继续工作。它将承认失败并在可能的情况下继续前进。

Presto 和 HDFS
Presto 具有不同的架构,这使得 Give 在某些情况下有用,而在其他情况下则很麻烦。 Presto 支持 Hadoop 分布式文件系统 (HDFS),这是一种非关系源,无需在任务之间将数据写入磁盘。相反,HDFS 架构在整个分布式系统中存储数据。由于它的数据不会被锁定在一个地方,Presto 可以在不停止将数据写入磁盘的情况下运行任务。

显然,HDFS 提供了几个优点。不过,毫不奇怪,您可能会遇到架构方面的挑战。 HDFS 不能像 MapReduce 一样容忍故障。当出现问题时,Presto 往往会迷失方向并关闭。这种情况并不经常发生,但您可能会因失败而损失数小时的工作时间。你可能会发现你可以追溯你的步骤,解决问题,然后从你离开的地方继续。即使使用该解决方案,用户也会浪费宝贵的时间来追踪故障的根源并诊断问题。

Presto vs Hive:结论
许多使用大数据的专业人士更喜欢 Hive 而不是 Presto,因为他们欣赏 Hive 的稳定性和灵活性。当您专业地处理大数据时,您会发现有时您想编写自定义代码以提高项目效率。

仅仅因为有些人更喜欢 Hive,并不一定意味着你应该打折 Presto。按预期使用时效果很好。 Presto 快速处理任务。只是不要要求它一次做太多事情。如果这样做,您将面临失败的风险。

关注公众号“大模型全栈程序员”回复“小程序”获取1000个小程序打包源码。更多免费资源在http://www.gitweixin.com/?p=2627

发表评论

邮箱地址不会被公开。 必填项已用*标注