人工智能能否解决 IT 永恒的数据问题？

人工智能和机器学习已经为企业带来了大量实用价值，从欺诈检测到聊天机器人再到预测分析。但 ChatGPT 大胆的创意写作技巧将人们对 AI/ML 的期望提升到了新的高度。 IT 领导者不禁要问：AI/ML 是否最终准备好超越单点解决方案并解决核心企业问题？
以最大、最古老、最令人困惑的 IT 问题为例：管理和集成整个企业的数据。如今，随着本地和云平台上数据的数量、多样性、可变性和分布呈无休止的指数曲线攀升，这一努力迫切需要 AI/ML 技术的帮助。正如 IDC 数据集成和智能软件副总裁 Stewart Bond 所说：“你需要机器来帮助你管理它。”
AI/ML 真的可以帮助对数据混乱进行排序吗？答案是肯定的，但行业共识是我们只是触及了有一天可能实现的目标的表面。 Informatica、IBM 和 SnapLogic 等现有集成软件公司已经添加了 AI/ML 功能来自动执行各种任务，而 Tamr、Cinchy 和 Monte Carlo 等一批较新的公司将 AI/ML 置于其产品的核心。没有人能够提供能够端到端自动化数据管理和集成流程的 AI/ML 解决方案。
那根本不可能。没有任何产品或服务可以在没有人为干预的情况下协调所有数据异常，更不用说改革混乱的企业数据架构了。这些新的 AI/ML 驱动的解决方案如今可以做的是，从数据编目到构建数据管道再到提高数据质量，大大减少各种数据整理和集成工作中的体力劳动。
这些可能是值得注意的胜利。但要产生真正、持久的影响，需要 CDO（首席数据官）方法，而不是为一次性项目获取集成工具的冲动。在企业确定在何处应用哪些 AI/ML 解决方案之前，他们需要对整个数据资产（客户数据、产品数据、交易数据、事件数据等）有一个连贯的、自上而下的视图，并全面了解元数据定义那些数据类型。
如今，大多数企业都维护着大量的数据存储，每个数据存储都与自己的应用程序和用例相关联——云计算加剧了这种扩散，因为业务部门使用自己的数据孤岛快速启动云应用程序。其中一些数据存储可用于交易或其他运营活动，而其他数据存储（主要是数据仓库）则为从事分析或商业智能的人员服务。
Forrester Research 的副总裁兼首席分析师 Noel Yuhanna 说，让事情变得更加复杂的是，“地球上的每个组织都有超过两打的数据管理工具”。 “这些工具都不会相互交谈。”这些工具可处理从数据编目到 MDM（主数据管理）、数据治理到数据可观察性等一切事务。一些供应商已经为他们的产品注入了 AI/ML 功能，而其他供应商尚未这样做。
在基本层面上，数据集成的主要目的是映射各种数据源的模式，以便不同的系统可以共享、同步和/或丰富数据。例如，后者是开发 360 度客户视图的必备条件。但看似简单的任务，例如确定具有相同名称的客户或公司是否是同一实体——以及哪些记录的哪些细节是正确的——需要人工干预。领域专家经常被要求帮助建立处理各种异常的规则。
这些规则通常存储在嵌入集成软件的规则引擎中。 Michael Stonebraker 是关系数据库的发明者之一，也是 Tamr 的创始人，该公司开发了 ML 驱动的 MDM 系统。 Stonebraker 提供了一个真实世界的例子来说明基于规则的系统的局限性：一家大型媒体公司创建了一个“自制”MDM 系统，该系统已经积累了 12 年的规则。
“他们制定了 300,000 条规则，”Stonebraker 说。 “如果你问某人，你能理解多少规则，一个典型的数字是 500。用力推我，我会给你 1,000。拧我的胳膊，我给你2000。但是 50,000 或 100,000 条规则是完全无法管理的。之所以有这么多规则，是因为有这么多特殊情况。”
Tamr 的首席产品官 Anthony Deighton 声称，他的 MDM 解决方案克服了基于规则的系统的脆弱性。 “基于机器学习的方法的好处在于，当你添加新的来源时，或者更重要的是，当数据形状本身发生变化时，系统可以优雅地适应这些变化，”他说。然而，与大多数 ML 系统一样，需要使用大量数据进行持续训练，并且仍然需要人工判断来解决差异。
AI/ML 不是灵丹妙药。但它可以提供非常有价值的自动化，不仅适用于 MDM，而且适用于数据集成的许多领域。然而，要充分利用这一优势，企业需要收拾好自己的房子。
“数据结构”是用于描述整个企业有用数据的疯狂被子的操作短语。确定该结构的范围首先要了解数据的位置并对其进行编目。该任务可以使用 Informatica 的 AI/ML-infused CLAIRE 引擎或 IBM 的 Watson Knowledge Catalog 等解决方案的 AI/ML 功能实现部分自动化。其他编目软件供应商包括 Alation、BigID、Denodo 和 OneTrust。
Gartner 研究总监 Robert Thanaraj 给 CDO 的信息是，“你需要构建你的结构。你购买必要的技术组件，你构建，并根据你想要的结果进行协调。”他说，这种结构应该是“元数据驱动的”，由围绕企业数据本身的所有重要信息的汇编编织而成。
他对企业的建议是“投资于元数据发现”。这包括“人们与组织中的人一起工作的模式，人们与数据一起工作的模式，以及他们使用的数据组合。他们拒绝哪些数据组合？数据存储位置的模式是什么，数据传输位置的模式是什么？”
Informatica 首席产品官 Jittesh Ghai 表示，Informatica 的 CLAIRE 引擎可以帮助企业获得元数据洞察力并据此采取行动。 “我们应用 AI/ML 功能来提供预测数据……通过将元数据的所有维度链接在一起以提供上下文。”除其他外，这种预测性数据智能可以帮助自动创建数据管道。 “我们自动生成到来自各种源项目的公共元素的映射，并将其坚持到目标系统的模式。”
IDC 的 Stewart Bond 指出，SnapLogic 集成平台具有类似的管道功能。 “因为他们是基于云的，所以他们会查看……所有其他已经建立管道的客户，他们可以找出下一个最好的 Snap：你应该根据什么在这个管道中采取的下一个最佳行动是什么成百上千的其他客户已经这样做了。”
然而，邦德观察到，在这两种情况下，建议都是由系统提出的，而不是系统独立行动的。人类必须接受或拒绝这些建议。 “那里还没有很多自动化发生。我要说的是，即使在地图绘制方面，仍然有很多机会实现更多的自动化、更多的人工智能。”
根据 Bond 的说法，AI/ML 影响最大的地方在于更好的数据质量。 Forrester 的 Yuhanna 对此表示赞同：“AI/ML 确实推动了数据质量的提高，”他说。这是因为 ML 可以从大量数据中发现和学习模式，并推荐人类无法确定的新规则或调整。
高质量数据对于处理重要客户、员工、供应商和产品数据的交易和其他操作系统至关重要。但它也可以让沉浸在分析中的数据科学家的生活变得更加轻松。
人们常说，数据科学家将 80% 的时间花在清理和准备数据上。迈克尔·斯通布雷克 (Michael Stonebraker) 对这一估计提出异议：他引用了他与一位数据科学家的对话，这位数据科学家说她 90% 的时间都花在识别她想要分析的数据源、整合结果和清理数据上。然后，她将剩余 10% 的时间中的 90% 用于修复清洁错误。任何 AI/ML 数据编目或数据清理解决方案，只要能为她节省大量时间，都可以改变游戏规则。
数据质量从来都不是一劳永逸的工作。数据不断变化的性质及其经过的许多系统催生了一类新的解决方案：数据可观察性软件。 “这个类别正在做的是在数据流经数据管道时观察数据。它正在识别数据质量问题，”邦德说。他将初创公司 Anomolo 和 Monte Carlo 称为两个声称“使用 AI/ML 来监控数据质量的六个维度”的参与者：准确性、完整性、一致性、唯一性、及时性和有效性。
如果这听起来有点像 DevOps 必不可少的持续测试，那绝非巧合。越来“但你也为此添加了统计控制。”
问题在于观察数据问题是在事后才发生的。如果不紧急停止管道，就无法阻止不良数据到达用户。但正如 Bond 所说，当数据操作团队成员应用修正并捕获它时，“然后机器可以在下次发生异常时进行修正。”
数据管理和集成软件供应商将继续快速添加有用的 AI/ML 功能，以自动化数据发现、映射、转换、流水线、治理等。然而，Bond 指出，我们遇到了一个黑匣子问题：“每个数据供应商都会说他们的技术是智能的。其中一些仍然是雾里看花。但在这些产品的核心深处有一些真正的人工智能/机器学习的东西。”
对这种情报的需求是显而易见的。 Informatica 的 Ghai 表示：“如果我们要在这种异构、多云、碎片化的环境中提供 PB 级数据，我们就需要将 AI 应用于数据管理。” Ghai 甚至关注 OpenAI 的 GPT-3 大型语言模型系列。 “对我来说，最令人兴奋的是理解人类文本指令的能力，”他说。
然而，没有任何产品具备使数据混乱合理化或独立清理数据的智能。 “完全自动化的结构是不可能的，”Gartner 的 Thanaraj 说。 “必须在可以自动化的东西、可以增强的东西以及仍然可以由循环中的人类补偿的东西之间取得平衡。”
Stonebraker 列举了另一个局限性：AI/ML 人才严重短缺。没有用于数据管理和集成的交钥匙 AI/ML 解决方案，因此正确实施需要 AI/ML 专业知识。 “留给他们自己的设备，企业人员一遍又一遍地犯同样的错误，”他说。 “我认为我最大的建议是，如果你不擅长这些，找一个知道他们在做什么的合作伙伴。”
该声明的另一面是，如果您的数据架构基本上是健全的，并且您有可用的人才来确保您可以正确部署 AI/ML 解决方案，那么数据管理员、分析师和科学家的大量单调工作就可以消除。随着这些解决方案变得更加智能，这些收益只会增加。