怎样成为一名国外数据分析工程师

利用数据可以实现很多事情,从个性化营销活动到为自动驾驶汽车提供动力。 数据科学家负责分析数据并将其用于各种目的。 但是,他们需要高质量的数据来完成复杂的任务,例如预测业务趋势。 这就是数据工程师的用武之地。数据工程是收集和验证信息(数据)以便数据科学家可以使用它的科学。

数据工程师平均每年可以赚取 117,000 美元。 有时,他们甚至可以赚取高达 160,000 美元的年收入。 根据 Dice 的说法,企业比以往任何时候都更渴望聘请数据工程师。 2019 年,数据工程是最热门的科技工作,空缺职位数量同比增长 50%。

凭借出色的薪酬水平和高需求,数据工程可以成为一个有利可图的职业选择。

数据工程:职责是什么?

数据工程师设置和维护支持业务信息系统和应用程序的数据基础设施。他们可能会使用小型的东西,例如夫妻企业的关系数据库,或者大型的东西,例如财富 500 强公司的 PB 级数据湖。

作为其职责的一部分,数据工程师设计、构建和安装数据系统。这些系统为机器学习和人工智能分析提供了动力。他们还为大量数据任务开发信息流程。其中包括数据采集、数据转换和数据建模等。

无论是单人秀还是更大的团队,数据工程领域包括以下岗位:

数据架构师:数据架构师为整个组织或其特定部分设计数据管理系统。他们的工作使数据系统能够摄取、集成和管理业务洞察和报告所需的所有数据源。数据架构师的工作可能需要深入了解 SQL、NoSQL 和 XML 以及其他系统和工具。

数据库管理员:数据库管理员帮助设计和维护数据库系统。它们确保数据库系统为组织中的所有用户无缝运行。数据库管理员优化数据库以提高速度。他们还确保更新不会干扰工作流程,并且敏感信息是安全的。

数据工程师:数据工程师了解数据科学中使用的几种编程语言。其中包括 Java、Python 和 R 之类的。他们了解 SQL 和 NoSQL 数据库系统的来龙去脉。他们还了解如何使用分布式系统,例如 Hadoop。拥有如此广泛的知识使他们能够与数据架构师、数据库管理员和数据科学家合作。事实上,有时,他们可以自己扮演所有这些角色。从本质上讲,数据工程师负责为组织构建强大的集成数据基础架构。

数据科学家与数据工程师:有什么区别?

数据科学家使用统计建模和其他工具来分析数据。数据工程师专注于构建所需的基础架构,以生成和准备用于分析的数据

数据科学家与关键决策者密切合作,制定数据战略。数据工程师与数据科学家密切合作,为他们提供高质量的数据

数据科学家负责产生洞察力。数据工程师负责构建和维护向数据科学家提供数据的管道

数据科学家

数据科学家在现代企业中承担着许多职责。例如,帮助 Facebook 向您展示有针对性的广告、教机器人车辆自动驾驶以及帮助 Netflix 推荐完美的电影。他们的工作为公司带来了巨大的竞争优势。例如,由于通过数据分析更好地保留了客户,Netflix 每年可节省 10 亿美元。

数据科学家专注于统计建模和机器学习技术。他们开发图形显示、仪表板和其他方法来与组织中的决策者共享重要的商业智能。然而,每个数据科学家都需要访问高质量的数据,因此需要数据工程师。

数据工程师

数据工程师创建数据管道,将数据从一个系统连接到另一个系统。他们还负责将数据从一种格式转换为另一种格式,以便数据科学家可以从不同系统中提取数据进行分析。尽管数据工程师不像数据科学家那样引人注目,但在数据分析方面,他们同样重要(如果不是更重要的话)。

作为一个简单的类比,如果数据科学家是列车长,那么数据工程师就是将列车从 A 点送到 B 点的铁路网络的建设者。

现在,假设列车长想在没有铁路线的地方运送有效载荷。售票员需要铁路网络建设者将火车连接到新目的地。铁路建设者的建筑师将研究地形。他们将决定是否最好绕过、翻越或隧道穿过途中的任何山脉。他们可能会在河流上建造桥梁。他们将使用所有可用的工具来建造一条将火车连接到新目的地的铁路线。

简而言之,数据科学家通过编写查询与数据进行交互。他们负责为洞察力创建仪表板并制定机器学习策略。他们还直接与决策者合作,了解他们的信息需求并制定满足这些需求的策略。数据工程师构建和维护连接组织数据生态系统的数据基础设施。这些基础设施使数据科学家的工作成为可能。

数据工程师应该具备哪些技能?

1) 数据科学中使用的编程语言

数据工程师至少需要以下编程语言的专业知识:

SQL:设置、查询和管理数据库系统。 SQL 本身并不是一种“数据工程”语言,但数据工程师需要经常使用 SQL 数据库。

Python:创建数据管道、编写 ETL 脚本、建立统计模型和执行分析。与 R 一样,它是数据科学和数据工程的重要语言。这对于 ETL、数据分析和机器学习应用程序尤其重要。

R:分析数据,建立统计模型、仪表板和可视化展示。与 Python 一样,它是数据科学和数据工程的重要语言。它对于数据分析和机器学习应用程序特别有用。

这些脚本语言的知识使数据工程师能够排除故障并改进数据库系统。它还允许他们优化他们正在使用的业务洞察工具和机器学习系统。数据工程师也可以从熟悉 Java、NoSQL、Julia、Scala、MATLAB 和 TensorFlow 中受益。

2)关系和非关系数据库系统

数据工程师需要知道如何使用各种数据平台。 MySQL、PostgreSQL(混合 SQL 和 NoSQL 数据库)和 Microsoft SQL Server 等基于 SQL 的关系数据库系统 (RDBMS) 尤为重要。例如,他们应该对使用 SQL 构建和设置数据库系统感到自在。数据工程师还应该培养使用 NoSQL 数据库(如 MongoDB、Cassandra、Couchbase 等)的技能。

3) ETL 解决方案

数据工程师应该习惯于使用 ETL(提取、转换、加载)系统。 ETL 工具有助于提取、转换和加载数据到数据仓库。他们还应该了解如何使用 ETL 解决方案来协助将数据从一个存储系统或应用程序转换和迁移到另一个存储系统或应用程序。

4) 数据仓库

从各种业务系统中提取信息后,数据工程师可能需要准备信息以将其与数据仓库系统集成。如果他们想查询数据以获得深入的见解,数据集成至关重要。这可能涉及使用 Integrate.io 等 ETL 工具转换数据。

基于云的数据仓库构成了最先进的商业智能数据系统的支柱。数据工程师应该了解如何建立基于云的数据仓库。他们应该擅长将各种数据类型连接到它,并优化这些连接以提高速度和效率。

5) 数据湖

数据仓库只能处理结构化信息,例如关系数据库中的信息。关系数据库系统将数据存储在明确标识的列和行中。同时,数据湖可以处理任何类型的数据。这包括非结构化信息,例如流数据。 BI 解决方案可以连接到数据湖以获取有价值的见解。出于这个原因,许多公司正在将数据湖整合到他们的信息基础设施中。

要将机器学习算法应用于非结构化数据,了解如何集成数据并将其连接到商业智能平台非常重要。

6) 连接器

数据工程师开发连接各种信息系统的基本数据路径。因此,数据工程师应该对数据管道有很好的了解。他们应该知道如何帮助信息网络的不同部分相互通信。例如,他们应该能够使用 REST、SOAP、FTP、HTTP 和 ODBC,并了解尽可能高效地将一个信息系统或应用程序连接到另一个信息系统或应用程序的策略。

7) 数据摄取

数据摄取是指从不同来源提取数据。在提取过程中,数据工程师需要密切关注适用于情况的格式和协议——同时快速无缝地提取数据。

8) 配置商业智能系统

存储数据后,数据科学家建立信息源之间的重要联系。这些来源可以是数据仓库、数据集市、数据湖和应用程序。建立数据源之间的联系可能涉及将公司的数据暴露给用于商业智能的高级机器学习算法。数据工程师必须了解此过程如何为数据科学家的工作提供支持。

9) 构建仪表板以显示洞察和分析

许多商业智能和机器学习平台允许用户开发漂亮的交互式仪表板。这些仪表板展示了查询、人工智能预测等的结果。创建仪表板通常是数据科学家的责任。但是,数据工程师可以在此过程中协助数据科学家。许多 BI 平台和 RDBMS 解决方案允许用户通过拖放界面创建仪表板。不过,SQL、R 和 Python 的知识可以派上用场。它允许数据工程师协助数据科学家设置满足其需求的仪表板。

10) 机器学习

机器学习主要是数据科学家的领域。然而,由于数据工程师是构建支持机器学习系统的数据基础设施的人,因此他们对统计和数据建模感到满意是很重要的。此外,并非所有组织都会有数据科学家。因此,了解如何设置 BI 仪表板、部署机器学习算法以及独立提取深刻见解是很好的。

11) UNIX、Solaris 和 Linux 系统

未来的机器学习系统很可能是基于 UNIX 的。这是由于对硬件 root 访问的要求以及对 Windows 和 Mac OS 不提供的附加功能的需求。因此,如果数据工程师还没有这样做的话,他们现在会想要熟悉这些操作系统。

我如何学习成为一名数据工程师?

成为一名数据工程师没有明确的道路。尽管大多数数据工程师通过在工作中发展他们的技能来学习,但您可以通过自学、大学教育和基于项目的学习获得许多所需的技能。

无论您是在大学学习还是自己学习成为一名数据工程师,都有很多方法可以实现您的目标。

让我们来看看人们培养数据工程技能的四种方式:

1) 大学学位

成为数据工程师不需要大学教育。不过,获得正确的学位会有所帮助。对于数据工程师来说,工程、计算机科学、物理学或应用数学的学士学位就足够了。但是,您可能想攻读计算机工程或计算机科学的硕士学位。它将帮助您与其他求职者竞争——即使您之前没有数据工程师的工作经验。

2) 免费且廉价的在线课程

一些最好的数据工程师是通过免费且廉价的在线学习计划自学的。信不信由你,您可以通过在 YouTube 上观看视频来了解您需要了解的大部分内容。本文重点介绍了几个优秀的 YouTube 视频,这些视频有助于为成为数据工程师奠定基础。

以下是一些学习数据工程基础知识的免费在线课程:

数据工程初学者指南(第 1 部分)、(第 2 部分)、(第 3 部分):Medium 上的这些文章将帮助您了解数据工程和数据科学的基础知识。它们还将帮助您了解数据建模、数据分区以及提取、转换和加载 (ETL) 数据的策略。如果您想比我们在本文中的时间更深入,那么本指南是最好的起点。

Udacity 的数据工程纳米学位:Udacity 是一家围绕数学和技术提供高质量、免费的在线教育的公司。他们有一整条专门用于教授数据工程的课程。

随着您对学习的深入了解,您将需要掌握各种编码语言、操作系统和信息系统。以下是学习以下技能的免费资源列表:

如何使用 Linux,CS40​​1

如何使用 Python、SQL 和 NoSQL 进行编码

如何使用 Hadoop、MapReduce、Apache Spark 和机器学习

3) 基于项目的学习

找到完成在线数据工程课程的动机可能很困难。许多想成为数据科学家的人还没来得及干就辞职了。如果您遇到这种情况,请考虑基于项目的学习方法。

选择一个你觉得有趣的项目。学习完成项目所需的技能。基于项目的学习可以成为学习数据工程的更有趣和实用的方式。

要为基于项目的学习方法添加更多动力,请考虑写下您的工作和研究。打开一个 Medium 帐户并花一些时间创建一些关于数据工程主题的“操作指南”文章。您还可以将您的个人项目发布到 Github,并为 Github 上的开放项目做出贡献。这些行动 这样做将提高您对潜在雇主的数据工程街头信誉。

4) 专业认证

有许多数据科学和数据工程的专业认证课程。以下是数据工程中最受欢迎的证书课程列表:

供应商特定认证:Oracle、Microsoft、IBM、Cloudera 和许多其他数据科学技术公司为其产品提供有价值的认证培训。

认证数据管理专业人员 (CDMP):国际数据管理协会 (DAMA) 开发了 CDMP 计划作为一般数据库专业人员的证书。

Cloudera Certified Professional (CCP) 数据工程师:Cloudera CCP 称号是针对专业数据工程师的认证。它涵盖了数据转换、暂存和存储信息、数据摄取等主题。

谷歌云认证专业数据工程师:申请人成功通过两个小时的考试后,即可获得谷歌云数据工程师认证。

但是,这些课程可能没有您想象的那么有价值。数据工程是你边做边学的东西。雇用数据工程师的公司知道这一点。

如果您的雇主赞助您获得其中一项认证,那就太好了。但是,如果您是自学,请记住,边做边学比证书更有价值。

关注公众号“大模型全栈程序员”回复“小程序”获取1000个小程序打包源码。更多免费资源在http://www.gitweixin.com/?p=2627

发表评论

邮箱地址不会被公开。 必填项已用*标注