gitweixin
  • 首页
  • 小程序代码
    • 资讯读书
    • 工具类
    • O2O
    • 地图定位
    • 社交
    • 行业软件
    • 电商类
    • 互联网类
    • 企业类
    • UI控件
  • 大数据开发
    • Hadoop
    • Spark
    • Hbase
    • Elasticsearch
    • Kafka
    • Flink
    • 数据仓库
    • 数据挖掘
    • flume
    • Kafka
    • Hive
    • shardingsphere
    • solr
  • 开发博客
    • Android
    • php
    • python
    • 运维
    • 技术架构
    • 数据库
  • 程序员网赚
  • bug清单
  • 量化投资
  • 在线查询工具
    • 去行号
    • 在线时间戳转换工具
    • 免费图片批量修改尺寸在线工具
    • SVG转JPG在线工具

标签归档多并发

精品微信小程序开发门户,代码全部亲测可用

  • 首页   /  
  • 标签: "多并发"
大数据开发 4月 3,2022

大数据5种不同数据处理方式

随着商业环境的不断发展,公司越来越依赖于他们的数据。 但是,在您可以利用任何数据为公司谋取利益之前,您必须首先处理您收集的结构化和非结构化数据。

虽然最简单和最著名的数据处理形式是数据可视化,但有几种不同的数据处理方法通常用于与数据交互。

继续阅读以了解有关五种数据处理类型的更多信息,以及它们在可用性、原子性、并发性和其他因素方面的不同之处。

为什么数据处理方法很重要?

您采用的数据处理方法将决定查询的响应时间以及输出的可靠性。因此,需要谨慎选择方法。例如,在可用性至关重要的情况下,例如证券交易所门户,交易处理应该是首选方法。

重要的是要注意数据处理和数据处理系统之间的区别。数据处理是将数据转换为有用信息的规则。数据处理系统是针对特定类型的数据处理进行优化的应用程序。例如,分时系统旨在优化运行分时处理。它也可以用于运行批处理。但是,它不会很好地适应这项工作。

从这个意义上说,当我们谈论为您的需求选择正确的数据处理类型时,我们指的是选择正确的系统。以下是最常见的数据处理类型及其应用。

1. 事务处理

事务处理部署在关键任务情况下。这些情况一旦中断,将对业务运营产生不利影响。例如,如前所述,处理证券交易所交易。在事务处理中,可用性是最重要的因素。可用性可能受以下因素的影响:

硬件:事务处理系统应该有冗余硬件。硬件冗余允许部分故障,因为冗余组件可以自动接管并保持系统运行。

软件:事务处理系统的软件应设计为从故障中快速恢复。通常,事务处理系统使用事务抽象来实现这一点。简而言之,如果发生故障,未提交的事务将被中止。这允许系统快速重启。

2.分布式处理

很多时候,数据集太大而无法放在一台机器上。分布式数据处理分解这些大型数据集并将它们存储在多台机器或服务器上。它依赖于 Hadoop 分布式文件系统 (HDFS)。分布式数据处理系统具有高容错性。如果网络中的一台服务器出现故障,则可以将数据处理任务重新分配给其他可用的服务器。

分布式处理也可以极大地节省成本。企业不再需要建造昂贵的大型计算机并投资于维护和维护。

流处理和批处理是分布式处理的常见示例,下面将讨论这两者。

3.实时处理

实时处理类似于事务处理,因为它用于需要实时输出的情况。但是,两者在处理数据丢失的方式上有所不同。实时处理尽可能快地计算传入数据。如果它在输入数据中遇到错误,它会忽略错误并移动到下一个输入数据块。GPS 跟踪应用程序是实时数据处理的最常见示例。

将此与事务处理进行对比。如果出现错误,例如系统故障,事务处理将中止正在进行的处理并重新初始化。在近似答案就足够的情况下,实时处理优于事务处理。

在数据分析领域,流处理是实时数据处理的常见应用。流处理首先由 Apache Storm 推广,它在数据传入时对其进行分析。想想来自物联网传感器的数据,或实时跟踪消费者活动。 Google BigQuery 和 Snowflake 是采用实时处理的云数据平台的示例。

4.批处理

顾名思义,批处理就是将一段时间内存储的数据块一起或分批分析。当需要分析大量数据以获得详细见解时,需要进行批处理。例如,一个公司在一段时间内的销售数据通常会经过批处理。由于涉及大量数据,系统将需要时间来处理它。通过批量处理数据,可以节省计算资源。

当准确性比速度更重要时,批处理优于实时处理。此外,批处理的效率也以吞吐量来衡量。吞吐量是单位时间内处理的数据量。

5. 多并发处理

多并发处理是一种数据处理方法,其中两个或两个以上的处理器在同一数据集上工作。这听起来可能与分布式处理完全一样,但还是有区别的。在多处理中,不同的处理器驻留在同一系统中。因此,它们存在于相同的地理位置。如果出现组件故障,则会降低系统的速度。

另一方面,分布式处理使用彼此独立并且可以存在于不同地理位置的服务器。由于当今几乎所有系统都具有并行处理数据的能力,因此几乎每个数据处理系统都使用多处理。

但是,在本文的上下文中,可以将多处理视为具有本地数据处理系统。通常,处理非常敏感信息的公司可能会选择本地数据处理而不是分布式处理。例如,从事石油和天然气开采行业的制药公司或企业。

这种数据处理最明显的缺点是成本。构建和维护内部服务器非常昂贵。

作者 east

关注公众号“大模型全栈程序员”回复“小程序”获取1000个小程序打包源码。回复”chatgpt”获取免注册可用chatgpt。回复“大数据”获取多本大数据电子书

标签

AIGC AI创作 bert chatgpt github GPT-3 gpt3 GTP-3 hive mysql O2O tensorflow UI控件 不含后台 交流 共享经济 出行 图像 地图定位 外卖 多媒体 娱乐 小程序 布局 带后台完整项目 开源项目 搜索 支付 效率 教育 日历 机器学习 深度学习 物流 用户系统 电商 画图 画布(canvas) 社交 签到 联网 读书 资讯 阅读 预订

官方QQ群

小程序开发群:74052405

大数据开发群: 952493060

近期文章

  • 详解Python当中的pip常用命令
  • AUTOSAR如何在多个供应商交付的配置中避免ARXML不兼容?
  • C++thread pool(线程池)设计应关注哪些扩展性问题?
  • 各类MCAL(Microcontroller Abstraction Layer)如何与AUTOSAR工具链解耦?
  • 如何设计AUTOSAR中的“域控制器”以支持未来扩展?
  • C++ 中避免悬挂引用的企业策略有哪些?
  • 嵌入式电机:如何在低速和高负载状态下保持FOC(Field-Oriented Control)算法的电流控制稳定?
  • C++如何在插件式架构中使用反射实现模块隔离?
  • C++如何追踪内存泄漏(valgrind/ASan等)并定位到业务代码?
  • C++大型系统中如何组织头文件和依赖树?

文章归档

  • 2025年6月
  • 2025年5月
  • 2025年4月
  • 2025年3月
  • 2025年2月
  • 2025年1月
  • 2024年12月
  • 2024年11月
  • 2024年10月
  • 2024年9月
  • 2024年8月
  • 2024年7月
  • 2024年6月
  • 2024年5月
  • 2024年4月
  • 2024年3月
  • 2023年11月
  • 2023年10月
  • 2023年9月
  • 2023年8月
  • 2023年7月
  • 2023年6月
  • 2023年5月
  • 2023年4月
  • 2023年3月
  • 2023年1月
  • 2022年11月
  • 2022年10月
  • 2022年9月
  • 2022年8月
  • 2022年7月
  • 2022年6月
  • 2022年5月
  • 2022年4月
  • 2022年3月
  • 2022年2月
  • 2022年1月
  • 2021年12月
  • 2021年11月
  • 2021年9月
  • 2021年8月
  • 2021年7月
  • 2021年6月
  • 2021年5月
  • 2021年4月
  • 2021年3月
  • 2021年2月
  • 2021年1月
  • 2020年12月
  • 2020年11月
  • 2020年10月
  • 2020年9月
  • 2020年8月
  • 2020年7月
  • 2020年6月
  • 2020年5月
  • 2020年4月
  • 2020年3月
  • 2020年2月
  • 2020年1月
  • 2019年7月
  • 2019年6月
  • 2019年5月
  • 2019年4月
  • 2019年3月
  • 2019年2月
  • 2019年1月
  • 2018年12月
  • 2018年7月
  • 2018年6月

分类目录

  • Android (73)
  • bug清单 (79)
  • C++ (34)
  • Fuchsia (15)
  • php (4)
  • python (43)
  • sklearn (1)
  • 云计算 (20)
  • 人工智能 (61)
    • chatgpt (21)
      • 提示词 (6)
    • Keras (1)
    • Tensorflow (3)
    • 大模型 (1)
    • 智能体 (4)
    • 深度学习 (14)
  • 储能 (44)
  • 前端 (4)
  • 大数据开发 (488)
    • CDH (6)
    • datax (4)
    • doris (30)
    • Elasticsearch (15)
    • Flink (78)
    • flume (7)
    • Hadoop (19)
    • Hbase (23)
    • Hive (40)
    • Impala (2)
    • Java (71)
    • Kafka (10)
    • neo4j (5)
    • shardingsphere (6)
    • solr (5)
    • Spark (99)
    • spring (11)
    • 数据仓库 (9)
    • 数据挖掘 (7)
    • 海豚调度器 (10)
    • 运维 (34)
      • Docker (3)
  • 小游戏代码 (1)
  • 小程序代码 (139)
    • O2O (16)
    • UI控件 (5)
    • 互联网类 (23)
    • 企业类 (6)
    • 地图定位 (9)
    • 多媒体 (6)
    • 工具类 (25)
    • 电商类 (22)
    • 社交 (7)
    • 行业软件 (7)
    • 资讯读书 (11)
  • 嵌入式 (70)
    • autosar (63)
    • RTOS (1)
    • 总线 (1)
  • 开发博客 (16)
    • Harmony (9)
  • 技术架构 (6)
  • 数据库 (32)
    • mongodb (1)
    • mysql (13)
    • pgsql (2)
    • redis (1)
    • tdengine (4)
  • 未分类 (6)
  • 程序员网赚 (20)
    • 广告联盟 (3)
    • 私域流量 (5)
    • 自媒体 (5)
  • 量化投资 (4)
  • 面试 (14)

功能

  • 登录
  • 文章RSS
  • 评论RSS
  • WordPress.org

All Rights Reserved by Gitweixin.本站收集网友上传代码, 如有侵犯版权,请发邮件联系yiyuyos@gmail.com删除.