什么数据操作中的可观察性?
现在是早上 8 点,一位业务负责人正在查看财务绩效仪表板,质疑结果是否准确。几个小时后,一位客户登录到您公司的门户网站并想知道为什么他们的订单没有显示最新的定价信息。下午,数字营销主管很沮丧,因为来自他们的 SaaS 工具的数据源从未进入他们的客户数据平台。数据科学家也很沮丧,因为他们无法在没有加载最新数据集的情况下重新训练他们的机器学习模型。
这些是数据操作问题,它们很重要。企业应该正确地期望准确和及时的数据将被传送到数据可视化、分析平台、客户门户、数据目录、ML 模型,以及任何数据被消费的地方。
数据管理和数据操作团队花费大量精力构建和支持数据湖和数据仓库。理想情况下,它们由实时数据流、数据集成平台或 API 集成提供,但许多组织仍然有数据处理脚本和手动工作流,这些应该在数据债务清单上。不幸的是,数据管道的稳健性有时是事后才想到的,数据操作团队通常在解决数据集成中的源、管道和质量问题时反应迟钝。
在我的《数字开拓者》一书中,我写到数据集成工具较少的日子,手动修复数据质量问题是常态。 “每个数据处理应用程序都有一个日志,每个进程,无论有多少脚本以菊花链方式连接,也都有一个日志。在寻找失败进程的根本原因时,我成为了 sed、awk、grep 和 find 等 Unix 工具的向导,可以解析这些日志。”
今天,有比 Unix 命令更强大的工具来实现数据管道的可观察性。 Dataops 团队负责超越连接和转换数据源;他们还必须确保数据集成可靠地执行并有效地解决数据质量问题。
可观察性是 devops 团队采用的一种实践,可以通过客户旅程、应用程序、微服务和数据库功能进行跟踪。实践包括集中应用程序日志文件、监控应用程序性能以及使用 AIops 平台将警报关联到可管理的事件中。目标是创建可见性、更快地解决事件、执行根本原因分析、确定性能趋势、启用安全取证并解决生产缺陷。
Dataops 可观察性针对类似的目标,只是这些工具分析数据管道,确保可靠的数据交付,并帮助解决数据质量问题。
Monte Carlo 的联合创始人兼首席技术官 Lior Gavish 说:“数据可观察性是指组织在数据操作生命周期的每个阶段了解其数据健康状况的能力,从仓库或湖中的摄取到商业智能层,大多数数据质量问题都会暴露给利益相关者。”
Ascend.io 的首席执行官兼创始人 Sean Knapp 详细阐述了数据操作问题陈述:“可观察性必须有助于识别关键因素,例如管道的实时运行状态和数据形状的趋势,”他说。 “应及早发现延迟和错误,以确保在商定的服务水平内无缝传输数据。企业应该掌握管道代码中断和数据质量问题,以便可以快速解决这些问题,而不是传播给下游消费者。”
Knapp 强调商人是数据操作管道的主要客户。许多公司都在努力成为数据驱动的组织,因此当数据管道不可靠或不可信时,领导者、员工和客户都会受到影响。数据操作可观察性工具对于这些组织来说可能至关重要,尤其是当公民数据科学家将数据可视化和数据准备工具用作日常工作的一部分时。
Coralogix 的开发倡导者 Chris Cooney 说:“可观察性不仅仅是仪表板上呈现的几张图表。这是一种跨越整个堆栈的工程实践,使团队能够做出更好的决策。”
DevOps 团队通常使用多种监控工具来覆盖基础设施、网络、应用程序、服务和数据库。它类似于数据操作——同样的动机,不同的工具。 Calyptia 的创始人兼首席执行官 Eduardo Silva 说:“您需要有适当的系统来帮助理解这些数据,没有任何一种工具是足够的。因此,您需要确保您的管道可以将数据路由到各种目的地。”
Silva 推荐供应商中立的开源解决方案。这种方法值得考虑,尤其是因为大多数组织都使用多个数据湖、数据库和数据集成平台。这些数据平台之一内置的数据操作可观察性功能可能易于配置和部署,但可能无法提供跨平台工作的整体数据可观察性功能。
需要什么能力? Acceldata.io 的联合创始人兼首席技术官 Ashwin Rajeev 说:“企业数据可观察性必须有助于克服与构建和运行可靠数据管道相关的瓶颈。”
Rajeev 阐述道,“数据必须每次都通过使用适当的 API 和 SDK 仪器来高效地交付。工具应具有适当的导航和向下钻取功能,以便进行比较。它应该可以帮助数据操作团队快速识别瓶颈和趋势,以便更快地进行故障排除和性能调整,从而预测和预防事故。”
Dataops 可观察性的一个方面是操作:从源到数据管理平台再到消费的可靠性和准时交付。第二个问题是数据质量。 Coalesce 联合创始人兼首席执行官 Armon Petrossian 表示:“dataops 中的数据可观察性涉及确保业务和工程团队能够访问经过适当清理、管理和转换的数据,以便组织能够真正做出数据驱动的业务和技术决策。随着数据应用程序的当前发展,为了最好地准备数据管道,组织需要专注于提供代码优先方法的灵活性但基于 GUI 以实现企业规模的工具,因为毕竟不是每个人都是软件工程师”
因此,数据操作和数据可观察性必须具有吸引使用 API 和开发强大的实时数据管道的编码人员的能力。但非编码人员也需要数据质量和故障排除工具来处理他们的数据准备和可视化工作。
“就像 devops 广泛依赖低代码自动化优先工具一样,dataops 也是如此,”Gavish 补充道。 “作为数据操作生命周期的重要组成部分,数据可观察性解决方案必须易于跨多个数据环境实施和部署。”
对于许多大型企业而言,可靠的数据管道和应用程序并不容易实施。 Mphasis 首席解决方案官 Ramanathan Srikumar 表示:“即使有了此类可观察性平台的帮助,大型企业的团队也难以抢先预防许多事件。” “一个关键问题是,数据无法充分洞察流经多个云和遗留环境的交易。”
Teradata 的首席产品官 Hillary Ashton 对此表示赞同。 “现代数据生态系统本质上是分布式的,这就造成了在整个生命周期中管理数据健康的艰巨任务。”
然后她分享了底线:“如果你不相信你的数据,你永远不会成为数据驱动的。”
Ashton 建议,“对于高度可靠的数据管道,公司需要一个 360 度视图,通过查看遥测数据来集成运营、技术和业务元数据。该视图允许识别和纠正问题,例如数据新鲜度、缺失记录、模式更改和未知错误。在流程中嵌入机器学习也可以帮助自动化这些任务。”
在使用 Unix 命令解析日志文件以解决数据集成问题方面,我们已经走了很长一段路。今天的数据观察工具要复杂得多,但为企业提供可靠的数据管道和高质量的数据处理仍然是许多组织面临的挑战。接受挑战并与业务领导者合作进行敏捷和增量实施,因为基于不可信数据构建的数据可视化和 ML 模型可能会导致错误且可能有害的决策。