Presto vs Hive：综合比较

Presto 和 Hive 之间的 5 个最大区别是：

1、Hive 允许用户插入自定义代码，而 Preso 不允许。
2、Presto 旨在符合 ANSI SQL，而 Hive 使用 HiveQL。
3、Presto 可以处理有限数量的数据，因此在生成大型报告时最好使用 Hive。
4、 Hive 通常可以容忍失败，但 Presto 不能。
5、 Hive 使用 map-reduce 架构并将数据写入磁盘，而 Presto 使用 HDFS 架构而不使用 map-reduce。

Presto 最初是一个 Facebook 项目，让工程师可以针对公司庞大的 (300PB) 数据仓库运行交互式分析查询。 Facebook 发布了 Presto 作为 Apache Software 下的开源工具。在创建 Presto 之前，Facebook 以类似的方式使用 Hive。在放弃它转而支持 Presto 之后，Hive 也成为了一个开源的 Apache 工具数据仓库工具。如今，使用大数据的公司通常对 Presto 和 Hive 有强烈的偏好。仔细比较表明，这些选项有一些相似之处和不同之处，但都没有管理和转换大数据所需的综合功能。

Presto 与 Hive：ANSI SQL 和 HiveQL
许多数据工程师在第一次尝试 Presto 时注意到的第一件事就是他们可以使用现有的 SQL 知识。 Presto 依靠标准 SQL 来执行查询、检索数据和修改数据库中的数据。只要您了解 SQL，就可以立即开始使用 Presto。许多人认为这是一种优势。

Apache Hive 使用类似于 SQL 的语言，但它有足够的差异，初学者需要重新学习一些查询。 HiveQL 代表 Hive 查询语言，它有一些奇怪的东西可能会让新用户感到困惑。但是，任何熟悉 SQL 的人都应该发现他们可以相对快速地掌握 HiveQL。

Apache 为 HiveQL 维护了一个全面的语言手册，因此您可以在忘记命令时随时查找它们。尽管如此，查找信息会分散注意力并降低效率。

Presto vs Hive：自定义代码
由于 Presto 在标准 SQL 上运行，因此您已经拥有所需的所有命令。一些工程师认为这是一个优势，因为他们可以快速执行数据检索和修改。

然而，无法插入自定义代码可能会给高级大数据用户带来问题。在这种情况下，Hive 提供了优于 Presto 的优势。假设您非常了解该语言，您可以在查询中插入自定义代码。您可能不需要经常这样做，但在需要时它会派上用场。

在花时间在 HiveQL 中编写自定义代码之前，请访问 Hive 插件页面并搜索类似的代码。有人可能已经编写了您的项目所需的代码。如果您找不到您需要的特定代码，您可能会找到一个只需要稍作改动即可执行您的独特命令的插件。

Presto 与 Hive：数据限制
很少有人会否认 Presto 在生成频繁报告时运行良好。不幸的是，Presto 任务可以存储的数据量是最大的。一旦你碰到那堵墙，Presto 的逻辑就会崩溃。如果您生成每小时或每天的报告，您几乎可以肯定依靠 Presto 来完成这项工作。请记住，Facebook 使用 Presto，而且该公司会生成大量数据。不过，你可以达到一个极限。

Hive 似乎没有数据限制，至少不会影响实际场景。这使得 Hive 成为生成每周或每月报告的公司更好的数据查询选项。涉及的数据越多，项目所需的时间就越长。不过，Hive 不会失败。它会一直工作，直到你的命令结束。

Presto vs Hive：HDFS 和将数据写入磁盘
架构在 Presto 和 Hive 之间的差异中起着重要作用。

Hive 和 MapReduce
Hive 使用 MapReduce，这意味着它过滤和排序任务，同时在分布式服务器上管理它们。然而，在 reduce 和 map 阶段之间，Hive 必须将数据写入磁盘。写入磁盘会强制 Hive 在继续执行下一个任务之前等待一小段时间。

MapReduce 在 Hive 中运行良好，因为它可以处理多个服务器上的任务。分配任务会提高速度。尽管如此，数据必须写入磁盘，这会惹恼一些用户。

幸运的是，MapReduce 为 Hive 带来了非凡的灵活性。它可以处理大量的数据格式。 MapReduce 还可以帮助 Hive 即使在遇到数据故障时也能继续工作。它将承认失败并在可能的情况下继续前进。

Presto 和 HDFS
Presto 具有不同的架构，这使得 Give 在某些情况下有用，而在其他情况下则很麻烦。 Presto 支持 Hadoop 分布式文件系统 (HDFS)，这是一种非关系源，无需在任务之间将数据写入磁盘。相反，HDFS 架构在整个分布式系统中存储数据。由于它的数据不会被锁定在一个地方，Presto 可以在不停止将数据写入磁盘的情况下运行任务。

显然，HDFS 提供了几个优点。不过，毫不奇怪，您可能会遇到架构方面的挑战。 HDFS 不能像 MapReduce 一样容忍故障。当出现问题时，Presto 往往会迷失方向并关闭。这种情况并不经常发生，但您可能会因失败而损失数小时的工作时间。你可能会发现你可以追溯你的步骤，解决问题，然后从你离开的地方继续。即使使用该解决方案，用户也会浪费宝贵的时间来追踪故障的根源并诊断问题。

Presto vs Hive：结论
许多使用大数据的专业人士更喜欢 Hive 而不是 Presto，因为他们欣赏 Hive 的稳定性和灵活性。当您专业地处理大数据时，您会发现有时您想编写自定义代码以提高项目效率。

仅仅因为有些人更喜欢 Hive，并不一定意味着你应该打折 Presto。按预期使用时效果很好。 Presto 快速处理任务。只是不要要求它一次做太多事情。如果这样做，您将面临失败的风险。