east – 第44页 – gitweixin

人工智能 4月 7,2023

人工智能能否解决 IT 永恒的数据问题？

人工智能和机器学习已经为企业带来了大量实用价值，从欺诈检测到聊天机器人再到预测分析。但 ChatGPT 大胆的创意写作技巧将人们对 AI/ML 的期望提升到了新的高度。 IT 领导者不禁要问：AI/ML 是否最终准备好超越单点解决方案并解决核心企业问题？
以最大、最古老、最令人困惑的 IT 问题为例：管理和集成整个企业的数据。如今，随着本地和云平台上数据的数量、多样性、可变性和分布呈无休止的指数曲线攀升，这一努力迫切需要 AI/ML 技术的帮助。正如 IDC 数据集成和智能软件副总裁 Stewart Bond 所说：“你需要机器来帮助你管理它。”
AI/ML 真的可以帮助对数据混乱进行排序吗？答案是肯定的，但行业共识是我们只是触及了有一天可能实现的目标的表面。 Informatica、IBM 和 SnapLogic 等现有集成软件公司已经添加了 AI/ML 功能来自动执行各种任务，而 Tamr、Cinchy 和 Monte Carlo 等一批较新的公司将 AI/ML 置于其产品的核心。没有人能够提供能够端到端自动化数据管理和集成流程的 AI/ML 解决方案。
那根本不可能。没有任何产品或服务可以在没有人为干预的情况下协调所有数据异常，更不用说改革混乱的企业数据架构了。这些新的 AI/ML 驱动的解决方案如今可以做的是，从数据编目到构建数据管道再到提高数据质量，大大减少各种数据整理和集成工作中的体力劳动。
这些可能是值得注意的胜利。但要产生真正、持久的影响，需要 CDO（首席数据官）方法，而不是为一次性项目获取集成工具的冲动。在企业确定在何处应用哪些 AI/ML 解决方案之前，他们需要对整个数据资产（客户数据、产品数据、交易数据、事件数据等）有一个连贯的、自上而下的视图，并全面了解元数据定义那些数据类型。
如今，大多数企业都维护着大量的数据存储，每个数据存储都与自己的应用程序和用例相关联——云计算加剧了这种扩散，因为业务部门使用自己的数据孤岛快速启动云应用程序。其中一些数据存储可用于交易或其他运营活动，而其他数据存储（主要是数据仓库）则为从事分析或商业智能的人员服务。
Forrester Research 的副总裁兼首席分析师 Noel Yuhanna 说，让事情变得更加复杂的是，“地球上的每个组织都有超过两打的数据管理工具”。 “这些工具都不会相互交谈。”这些工具可处理从数据编目到 MDM（主数据管理）、数据治理到数据可观察性等一切事务。一些供应商已经为他们的产品注入了 AI/ML 功能，而其他供应商尚未这样做。
在基本层面上，数据集成的主要目的是映射各种数据源的模式，以便不同的系统可以共享、同步和/或丰富数据。例如，后者是开发 360 度客户视图的必备条件。但看似简单的任务，例如确定具有相同名称的客户或公司是否是同一实体——以及哪些记录的哪些细节是正确的——需要人工干预。领域专家经常被要求帮助建立处理各种异常的规则。
这些规则通常存储在嵌入集成软件的规则引擎中。 Michael Stonebraker 是关系数据库的发明者之一，也是 Tamr 的创始人，该公司开发了 ML 驱动的 MDM 系统。 Stonebraker 提供了一个真实世界的例子来说明基于规则的系统的局限性：一家大型媒体公司创建了一个“自制”MDM 系统，该系统已经积累了 12 年的规则。
“他们制定了 300,000 条规则，”Stonebraker 说。 “如果你问某人，你能理解多少规则，一个典型的数字是 500。用力推我，我会给你 1,000。拧我的胳膊，我给你2000。但是 50,000 或 100,000 条规则是完全无法管理的。之所以有这么多规则，是因为有这么多特殊情况。”
Tamr 的首席产品官 Anthony Deighton 声称，他的 MDM 解决方案克服了基于规则的系统的脆弱性。 “基于机器学习的方法的好处在于，当你添加新的来源时，或者更重要的是，当数据形状本身发生变化时，系统可以优雅地适应这些变化，”他说。然而，与大多数 ML 系统一样，需要使用大量数据进行持续训练，并且仍然需要人工判断来解决差异。
AI/ML 不是灵丹妙药。但它可以提供非常有价值的自动化，不仅适用于 MDM，而且适用于数据集成的许多领域。然而，要充分利用这一优势，企业需要收拾好自己的房子。
“数据结构”是用于描述整个企业有用数据的疯狂被子的操作短语。确定该结构的范围首先要了解数据的位置并对其进行编目。该任务可以使用 Informatica 的 AI/ML-infused CLAIRE 引擎或 IBM 的 Watson Knowledge Catalog 等解决方案的 AI/ML 功能实现部分自动化。其他编目软件供应商包括 Alation、BigID、Denodo 和 OneTrust。
Gartner 研究总监 Robert Thanaraj 给 CDO 的信息是，“你需要构建你的结构。你购买必要的技术组件，你构建，并根据你想要的结果进行协调。”他说，这种结构应该是“元数据驱动的”，由围绕企业数据本身的所有重要信息的汇编编织而成。
他对企业的建议是“投资于元数据发现”。这包括“人们与组织中的人一起工作的模式，人们与数据一起工作的模式，以及他们使用的数据组合。他们拒绝哪些数据组合？数据存储位置的模式是什么，数据传输位置的模式是什么？”
Informatica 首席产品官 Jittesh Ghai 表示，Informatica 的 CLAIRE 引擎可以帮助企业获得元数据洞察力并据此采取行动。 “我们应用 AI/ML 功能来提供预测数据……通过将元数据的所有维度链接在一起以提供上下文。”除其他外，这种预测性数据智能可以帮助自动创建数据管道。 “我们自动生成到来自各种源项目的公共元素的映射，并将其坚持到目标系统的模式。”
IDC 的 Stewart Bond 指出，SnapLogic 集成平台具有类似的管道功能。 “因为他们是基于云的，所以他们会查看……所有其他已经建立管道的客户，他们可以找出下一个最好的 Snap：你应该根据什么在这个管道中采取的下一个最佳行动是什么成百上千的其他客户已经这样做了。”
然而，邦德观察到，在这两种情况下，建议都是由系统提出的，而不是系统独立行动的。人类必须接受或拒绝这些建议。 “那里还没有很多自动化发生。我要说的是，即使在地图绘制方面，仍然有很多机会实现更多的自动化、更多的人工智能。”
根据 Bond 的说法，AI/ML 影响最大的地方在于更好的数据质量。 Forrester 的 Yuhanna 对此表示赞同：“AI/ML 确实推动了数据质量的提高，”他说。这是因为 ML 可以从大量数据中发现和学习模式，并推荐人类无法确定的新规则或调整。
高质量数据对于处理重要客户、员工、供应商和产品数据的交易和其他操作系统至关重要。但它也可以让沉浸在分析中的数据科学家的生活变得更加轻松。
人们常说，数据科学家将 80% 的时间花在清理和准备数据上。迈克尔·斯通布雷克 (Michael Stonebraker) 对这一估计提出异议：他引用了他与一位数据科学家的对话，这位数据科学家说她 90% 的时间都花在识别她想要分析的数据源、整合结果和清理数据上。然后，她将剩余 10% 的时间中的 90% 用于修复清洁错误。任何 AI/ML 数据编目或数据清理解决方案，只要能为她节省大量时间，都可以改变游戏规则。
数据质量从来都不是一劳永逸的工作。数据不断变化的性质及其经过的许多系统催生了一类新的解决方案：数据可观察性软件。 “这个类别正在做的是在数据流经数据管道时观察数据。它正在识别数据质量问题，”邦德说。他将初创公司 Anomolo 和 Monte Carlo 称为两个声称“使用 AI/ML 来监控数据质量的六个维度”的参与者：准确性、完整性、一致性、唯一性、及时性和有效性。
如果这听起来有点像 DevOps 必不可少的持续测试，那绝非巧合。越来“但你也为此添加了统计控制。”
问题在于观察数据问题是在事后才发生的。如果不紧急停止管道，就无法阻止不良数据到达用户。但正如 Bond 所说，当数据操作团队成员应用修正并捕获它时，“然后机器可以在下次发生异常时进行修正。”
数据管理和集成软件供应商将继续快速添加有用的 AI/ML 功能，以自动化数据发现、映射、转换、流水线、治理等。然而，Bond 指出，我们遇到了一个黑匣子问题：“每个数据供应商都会说他们的技术是智能的。其中一些仍然是雾里看花。但在这些产品的核心深处有一些真正的人工智能/机器学习的东西。”
对这种情报的需求是显而易见的。 Informatica 的 Ghai 表示：“如果我们要在这种异构、多云、碎片化的环境中提供 PB 级数据，我们就需要将 AI 应用于数据管理。” Ghai 甚至关注 OpenAI 的 GPT-3 大型语言模型系列。 “对我来说，最令人兴奋的是理解人类文本指令的能力，”他说。
然而，没有任何产品具备使数据混乱合理化或独立清理数据的智能。 “完全自动化的结构是不可能的，”Gartner 的 Thanaraj 说。 “必须在可以自动化的东西、可以增强的东西以及仍然可以由循环中的人类补偿的东西之间取得平衡。”
Stonebraker 列举了另一个局限性：AI/ML 人才严重短缺。没有用于数据管理和集成的交钥匙 AI/ML 解决方案，因此正确实施需要 AI/ML 专业知识。 “留给他们自己的设备，企业人员一遍又一遍地犯同样的错误，”他说。 “我认为我最大的建议是，如果你不擅长这些，找一个知道他们在做什么的合作伙伴。”
该声明的另一面是，如果您的数据架构基本上是健全的，并且您有可用的人才来确保您可以正确部署 AI/ML 解决方案，那么数据管理员、分析师和科学家的大量单调工作就可以消除。随着这些解决方案变得更加智能，这些收益只会增加。

作者 east

人工智能 4月 6,2023

人工智能取得真正进步的地方

多年来，我们一直在夸大人工智能的当前能力，但这并不意味着它没有光明的未来。这也许就是为什么斯坦福大学的研究人员在 2016 年构思了一项“人工智能百年研究”（100 年！），并计划在 2116 年之前每五年更新一次报告，记录人工智能的进展情况。在首次报告发布五年后，研究作者最近发布了第二份报告。
长话短说；博士？在不断改进的数据基础设施的支持下，我们在短短五年内取得了“显着进步”，但我们仍然“远未达到该领域在机器中重建完全类人智能的创始愿望。”然而，我们发现的是将人与机器结合起来以获得更好结果的重要性。它是“真正的”人工智能吗？不像最初设想的那样。但可以说它更好。
数据科学（以及由此产生的人工智能）成为现实的主要障碍之一与科学无关，而与数据有关。正如 FirstMark 投资者 Matt Turck 最近在“2021 年机器学习、人工智能和数据 (MAD) 格局”中所说的那样，直到最近，数据仓库才发展到“以一种有用的方式存储大量数据，而不是完全成本过高，并且不需要一群非常技术的人来维护。”是的，我们拥有数据仓库已有数十年，但它们既复杂又昂贵。最近我们涉足了 Apache Hadoop，它使事情变得更便宜但仍然过于复杂。
仅在过去几年中，该行业才专注于完善我们的数据基础架构，以使其对普通人（可能拥有也可能没有博士学位）变得更加平易近人。图尔克认为，通过以具有成本效益的方式“最终可能存储和处理大数据”，它“已被证明是其余数据/人工智能领域的主要解锁”，主要体现在三个方面：
尽管图尔克选择关注现代数据仓库的积极影响，但该行业也受益于数据库（分布式数据库、NoSQL 等）和云的其他进步，这使得数据迭代变得更加容易。通过这些和其他力量，存储和使用数据变得更加容易，这反过来又使组织能够利用这些数据做更多的事情。
这让我们回到了斯坦福大学的 AI100。
我们已经达到了这样一个地步，即我们在日常基础上与 AI 进行交互，并且通常会看到它的缺点。以特斯拉为例。尽管对注入人工智能的“全自动驾驶”进行了所有错误的营销，但特斯拉电动汽车远不能在任何情况下安全地将乘客从 A 点运送到 B 点，除非是在最严密控制的环境中。即便如此，我们已经看到了足够多的东西，对未来充满好奇和希望。
目前，AI100 的作者指出了人工智能取得真正进步的三个领域：
这并不意味着人工智能会很快取代人类，但它确实意味着人工智能越来越有能力以有意义的方式补充人类。正如他们解释的那样，“在人类和人工智能具有互补优势的情况下，增强人类能力的人工智能方法可能非常有价值。人工智能系统可能更擅长综合可用数据并在问题的特征部分做出决策，而人类可能更擅长理解数据的含义。”
例如，该报告的作者表示，机器永远不会成为照顾老人的合适替代品。 “良好的护理需要尊重和尊严，而我们根本不知道如何将这些东西编码到程序算法中。”但是，当老人可能需要药物或其他支持时，AI 会处理大量数据以向护理人员提出建议吗？或者也许使用 AI 驱动的图像处理来评估老年人可能自行服用但可能证明有害的药物（由于药物本身的数量或性质）并提醒护理人员？这是一个很好的组合。
有时诀窍是让 AI 模型自由地分析数据，然后弄清楚它是如何得出结论的。 “通过首先训练一个非常擅长做出预测的模型，然后努力理解为什么这些预测如此之好，我们加深了对从疾病到地震动力学的一切事物的科学理解，”作者指出。在这个例子中，机器促使人们更深入地思考数据，从机器无法理解但无论如何都能得出的结论中学习。
简而言之，机器能够分析大量信息，以更易于消化的方式总结或以其他方式将这些信息呈现给人们。这样，可以更有效地应用人类智能。人不会取代机器，机器也不会取代人。我们构建了数据基础架构，使大量数据成为可能，而机器则通过帮助我们理解所有数据来发挥作用。确实是一个很好的伙伴关系。

作者 east

人工智能 4月 6,2023

如何向业务主管解释机器学习生命周期

如果您是数据科学家或使用机器学习 (ML) 模型，您将拥有标记数据的工具、训练模型的技术环境以及对 MLop 和模型操作的基本理解。如果您有 ML 模型在生产中运行，您可能会使用 ML 监控来识别数据漂移和其他模型风险。
数据科学团队使用这些基本的 ML 实践和平台在模型开发、配置基础设施、将 ML 模型部署到不同环境以及大规模维护模型方面进行协作。其他寻求增加生产模型数量、提高预测质量并降低 ML 模型维护成本的人可能也需要这些 ML 生命周期管理工具。
不幸的是，向业务利益相关者和预算决策者解释这些实践和工具并不容易。对于想要了解机器学习和人工智能投资的投资回报和业务影响并且更愿意远离技术和运营杂草的领导者来说，这都是技术术语。
数据科学家、开发人员和技术领导者认识到，获得认可需要定义和简化行话，以便利益相关者了解关键学科的重要性。继上一篇关于如何向业务主管解释 DevOps 术语的文章之后，我想我会写一篇类似的文章来阐明业务领导者应该理解的几个关键 ML 实践。
作为开发人员或数据科学家，您拥有一个工程流程，可以将新想法从概念转化为交付业务价值。该过程包括定义问题陈述、开发和测试模型、将模型部署到生产环境、监控生产中的模型以及启用维护和改进。我们将此称为生命周期过程，因为我们知道部署是实现业务价值的第一步，而且一旦投入生产，模型就不是静态的，需要持续的支持。
企业领导者可能不理解生命周期这个词。许多人仍然认为软件开发和数据科学工作是一次性投资，这也是许多组织遭受技术债务和数据质量问题困扰的原因之一。
用关于模型开发、训练、部署和监控的技术术语来解释生命周期会让业务主管的眼睛呆滞。 Sauce Labs 技术战略副总裁 Marcus Merrell 建议为领导者提供一个真实世界的类比。
“机器学习在某种程度上类似于农业：我们今天所知道的作物是前几代人注意到模式、尝试组合并与其他农民共享信息以利用积累的知识创造更好的变化的理想结果，”他说。 “机器学习与您的算法训练时的观察、级联结论和复合知识的过程大致相同。”
我喜欢这个类比的地方在于，它说明了从一个作物年到下一个作物年的生成学习，但也可以考虑在生长季节可能因天气、供应链或其他因素而发生的实时调整。在可能的情况下，在您的行业或您的业务领导者了解的领域中找到类比可能会有所帮助。
大多数开发人员和数据科学家认为 MLops 等同于机器学习的 devops。自动化基础架构、部署和其他工程流程可改善协作并帮助团队将更多精力集中在业务目标上，而不是手动执行技术任务。
但对于需要简单定义 MLops 的业务主管来说，所有这些都是杂草，尤其是当团队需要工具预算或时间来建立最佳实践时。
Aporia 的首席技术官兼联合创始人 Alon Gubkin 说：“MLops 或机器学习操作是数据科学、IT 和业务之间协作和沟通的实践，以帮助管理机器学习项目的端到端生命周期。” . “MLops 是关于将组织内的不同团队和部门聚集在一起，以确保有效部署和维护机器学习模型。”
Talend 的技术产品营销经理 Thibaut Gourdel 建议为更受数据驱动的业务领导者添加一些细节。他说，“MLops 促进将敏捷软件原则应用于 ML 项目，例如数据和模型的版本控制以及持续的数据验证、测试和 ML 部署，以提高模型的可重复性和可靠性，以及您的团队’生产力。
每当您可以使用传达图片的单词时，将术语与示例或故事联系起来就容易得多。高管从诸如因风而漂移的船等示例中了解漂移是什么，但他们可能难以将其转化为数据、统计分布和模型准确性的世界。
Fiddler AI 的首席人工智能官兼科学家 Krishnaram Kenthapadi 说：“当模型在生产中看到的数据不再类似于它所训练的历史数据时，就会发生数据漂移。” “这可能是突然的，就像 COVID-19 大流行带来的购物行为变化一样。无论漂移是如何发生的，快速识别这些变化对于保持模型准确性和减少业务影响至关重要。”
Gubkin 提供了第二个示例，说明数据漂移是从训练模型的数据中逐渐转变的。 “数据漂移就像一家公司的产品随着时间的推移变得不那么受欢迎，因为消费者的偏好发生了变化。”
John Snow Labs 的 CTO David Talby 分享了一个普遍的类比。 “模型漂移发生在由于其运行的生产环境不断变化而导致精度下降时，”他说。 “就像一辆新车的价值在你把它开出停车场的那一刻就开始下降一样，一个模型也是如此，因为它所训练的可预测研究环境在生产中表现不同。不管它运行得有多好，随着周围世界的变化，模型总是需要维护。”
数据科学领导者必须传达的重要信息是，由于数据不是静态的，因此必须对模型的准确性进行审查，并根据更新的相关数据进行再培训。
制造商如何在将产品装箱并运送给零售商和客户之前衡量质量？制造商使用不同的工具来识别缺陷，包括当装配线开始显示与可接受的输出质量存在偏差时。如果我们将 ML 模型视为产生预测的小型制造工厂，那么数据科学团队需要 ML 监控工具来检查性能和质量问题是有道理的。 Neo4j 的数据科学解决方案架构师凯蒂·罗伯茨 (Katie Roberts) 说：“ML 监控是在生产过程中使用的一组技术，用于检测可能对模型性能产生负面影响的问题，从而导致质量不佳的洞察力。”
制造和质量控制是一个简单的类比，这里有两条建议提供 ML 模型监控细节：“随着公司加速对 AI/ML 计划的投资，AI 模型将从数十个急剧增加到数千个。每一个都需要安全存储并持续监控以确保准确性，”Teradata 首席产品官 Hillary Ashton 说。
MLops 侧重于协作开发、部署和维护模型的多学科团队。但是，领导者应该如何决定投资哪些模型，哪些模型需要维护，以及在哪些方面为人工智能和机器学习的成本和收益创造透明度？
这些是治理问题，也是 modelops 实践和平台旨在解决的部分问题。业务领导者想要模型操作，但在部分实施之前不会完全理解需求及其交付的内容。
这是一个问题，尤其是对于寻求对 modelops 平台进行投资的企业而言。 Mphasis 的首席执行官兼董事总经理 Nitin Rakesh 建议以这种方式解释模型操作。 “通过专注于模型操作，组织可以确保部署和维护机器学习模型以实现价值最大化并确保对不同版本的治理。”
Ashton 建议包括一个示例练习。 “Modelops 允许数据科学家识别和修复数据质量风险，自动检测模型何时降级，并安排模型再训练，”她说。
仍有许多新的 ML 和 AI 功能、算法和技术带有令人困惑的行话，它们将渗入业务领导者的词汇表中。当数据专家和技术专家花时间用业务领导者理解的语言解释术语时，他们更有可能获得协作支持和新投资的支持。

作者 east

技术架构 4月 5,2023

技术领导者的 2023 年指南

最近，我有机会向十几位领先的技术专家询问他们对 2023 年的希望、预测和指导。这篇文章提炼了我回想起的广泛对话和丰富的见解。未来一年在金融投资方面看起来很精简，但在创新方面却很长。
毫不奇怪，经济状况对许多技术人员来说很重要。用更少的钱做更多的事情的主题很普遍，同时推动技术解决方案来弥补这一不足。
Vercel 首席执行官兼创始人 Guillermo Rauch（见访谈）表示：“随着宏观经济压力不断上升，企业将不得不为每一分钱而更加努力地奋斗，同时用更少的钱做更多的事。在线企业将如何在短时间内解决这些挑战，同时牢记成本？通过为他们的开发人员配备合适的工具并转向前端性能优化和个性化，为他们的客户提供新的创意体验。”
Builder.io 的首席执行官兼创始人 Steve Sewell（见访谈）也提到了简化的推动力。 “由于裁员而减少工程人员意味着专注于核心业务，减少投机性投资，减少营销/增长支出，以及高效增长而不是不惜一切代价。不要过度修饰——简单。用更少的钱解决更多的事情。”
OutSystems 全球投资组合负责人 Prakash Vyas 对此表示赞同：“确保 IT 生产力在 2023 年将变得更加重要。由于越来越多的技术裁员加剧了开发人员的短缺。” Vyas 补充说，为开发团队提供低代码工具可能有助于最大限度地提高生产力。
Sentry.io 的首席执行官 Milin Desai 也谈到了专注的必要性：
Brave 的首席执行官兼联合创始人 Brendan Eich 指出，“ChatGPT 预测浏览和信息应用程序（不仅仅是搜索）将重新焕发活力，这要归功于网络上所有人类创建的文本。今年可能是结合区块链、隐私和浏览器技术的创新将打破 Big Social 围墙花园的一年。”
2022 年，我们看到人工智能和机器学习从前景广阔的前沿领域转变为许多业务流程中的实际因素。 Java Champion 和 Drools 项目负责人 Mario Fusco 希望在 2023 年采用更加慎重的方法：
OutSystems 的首席技术官 Patrick Jean 预测，今年，公司将采用低代码工具来实现高效的业务流程管理 (BPM)：
Guillermo Rauch 预计“基于 AI 的应用程序将包含整个软件类别。但每个应用程序都会找到嵌入人工智能的机会。”作为一个例子，他引用了 Vercel 的无头架构，“让开发人员可以轻松地将现成的人工智能模型集成到客户体验中。”他还预计人工智能/机器学习的进一步发展工作负载“正在为低延迟人工智能驱动的应用程序在边缘执行。”
SvelteKit 框架的创建者 Rich Harris（见访谈）看到了 AI 对用户界面设计的影响。 “AI 将无处不在，其中大部分将是垃圾——繁琐的界面、可疑的结果以及普遍存在的机会主义意识——但它也将在一代人中引发我们对 UI 和工作流程的看法的一些最根本的变化”
Fusion Auth 开发者关系负责人 Dan Moore 表示，机器学习“将继续集成到软件和应用程序中，但像 ChatGPT 这样的东西非常昂贵，只有大玩家才能拥有如此流畅的体验。”与此同时，机器学习“将继续成为任何寻求风险投资资金的公司所必需的闪亮对象，”摩尔说。
AI 取代人类的工作有一些声音和愤怒，但任何花时间使用 AI 工具的人都明白它们只是工具包中的一个工具。当前的 AI 是现有功能和数据的 NLP 接口——其解析和响应人类语言的能力令人印象深刻，但不是根本性的改变。
在过去的几年中，前端框架和技术一直处于激烈的发展之中，并且这种趋势显示出与我们保持一致的迹象。
Solid.js 的创建者（见访谈）和 JavaScript 框架前沿工作人员之一的 Ryan Carniato 说：“过去的一年有点觉醒。在过去十年的大部分时间里，我们一直假设我们开发网站和应用程序的方式正朝着一个特定的方向前进——可以在浏览器中运行的东西，将在浏览器中运行。”Carniato 继续说道：
Steve Sewell 还看到了对开发人员体验的日益关注：“制作高性能网站将更容易维护我们习惯的出色 DX。”他还指出，“React 的主导地位最终将开始失去一些动力。”
吉列尔莫·劳赫继续说道：
Vaadin 的首席营销官 Kim Weins 将 Java 引入了对话，他说“公司将使用全栈 Java 构建新的应用程序，或者将基于 TypeScript 和 JavaScript 的前端框架与 Java 后端相结合。”Weins 引用了开源框架 Hilla作为一个框架的例子，它使开发人员可以更快、更容易地将 React 与 Java 后端结合起来。
MongoDB 首席技术官 Mark Porter（见访谈）也指出，分析正在“左移”到应用程序开发中：
加密货币在 2022 年遭受了真正的打击。尽管如此，许多技术仍在向前发展。似乎在区块链主题上出现了两个阵营。一方面，正如 Mario Fusco 所说，“我希望人们最终会意识到加密货币只是历史上最大的庞氏骗局。”

作者 east

人工智能 4月 5,2023

担心生成式 AI(ChatGPT) 的 10 个理由

像 ChatGPT 这样的生成式 AI 模型非常好，以至于现在有些人声称 AI 不仅与人类平等，而且通常更聪明。他们以各种令人眼花缭乱的风格创作出精美的艺术品。他们炮制出充满丰富细节、想法和知识的文本。生成的工件千差万别，看似独一无二，很难相信它们来自机器。我们才刚刚开始发现生成式 AI 可以做的一切。
一些观察家喜欢认为这些新的 AI 终于跨过了图灵测试的门槛。其他人认为门槛并没有被轻轻地通过，而是被炸成了碎片。这种艺术是如此之好，以至于另一批人肯定已经走向失业线。
但一旦惊奇感消退，生成人工智能的原始明星力量也会消退。一些观察家把以恰到好处的方式提问作为一种运动，这样智能机器就会吐出一些空洞或错误的东西。有些人使用在小学美术课上流行的旧逻辑炸弹——比如要求一张晚上的太阳图片或暴风雪中的北极熊图片。其他人则提出奇怪的请求，以展示 AI 情境感知（也称为常识）的局限性。那些有这种倾向的人可以数一数生成式人工智能失败的方式。
以下是生成式人工智能的 10 个缺点和缺陷。这份清单读起来可能像酸葡萄一样——如果允许机器接管，作家将失去工作，这是嫉妒的涂鸦。称我为团队人类的小人类生根——希望 John Henry 继续击败蒸汽钻机。但是，我们不应该有点担心吗？
当 DALL-E 和 ChatGPT 等生成式 AI 模型创建时，它们实际上只是从训练集中的数百万个示例中创建新模式。结果是从各种来源提取的剪切和粘贴合成——当人类这样做时，也被称为剽窃。
当然，人类也可以通过模仿来学习，但在某些情况下，这种借鉴是如此明显，以至于会向小学老师告密。此类 AI 生成的内容由或多或少逐字呈现的大块文本组成。然而，有时，涉及的混合或合成足够多，以至于即使是大学教授小组也可能难以检测出来源。无论哪种方式，缺少的是唯一性。尽管它们光彩照人，但这些机器无法生产出任何真正新颖的东西。
虽然剽窃在很大程度上是学校的问题，但版权法适用于市场。当一个人窃取另一个人的作品时，他们就有可能被带上法庭，并处以数百万美元的罚款。但是人工智能呢？同样的规则适用于他们吗？
版权法是一门复杂的学科，生成人工智能的法律地位需要数年时间才能确定。但请记住这一点：当 AI 开始制作看起来足够好以让人类走上就业线的工作时，其中一些人肯定会花费他们新的业余时间提起诉讼。
剽窃和版权并不是生成式 AI 引发的唯一法律问题。律师们已经在为诉讼设想新的道德问题。例如，制作绘图程序的公司是否应该能够收集有关人类用户绘图行为的数据，然后将这些数据用于人工智能训练？人类是否应该因这种创造性劳动的使用而得到补偿？当前这一代人工智能的成功在很大程度上源于对数据的访问。那么，当生成数据的人想要分一杯羹时会发生什么？什么是公平？什么会被认为是合法的？
人工智能特别擅长模仿人类需要多年才能发展起来的那种智能。当一位人类学者能够介绍一位默默无闻的 17 世纪艺术家或以几乎被遗忘的文艺复兴时期的音调结构创作新音乐时，我们有充分的理由印象深刻。我们知道需要多年的学习才能发展出这种知识深度。当 AI 仅经过几个月的训练就可以完成这些相同的事情时，结果可能会非常精确和正确，但会遗漏一些东西。
如果训练有素的机器可以在装满数十亿条记录的数字鞋盒中找到正确的旧收据，它也可以了解关于像 Aphra Behn 这样的诗人的一切知识。您甚至可能认为机器是用来解码玛雅象形文字的含义的。 AI 可能看起来模仿了人类创造力中有趣和不可预测的一面，但它们并不能真正做到这一点。与此同时，不可预测性是推动创造性创新的动力。像时尚这样的行业不仅沉迷于变化，而且由变化来定义。事实上，人工智能有它的一席之地，过去来之不易的人类智慧也是如此。
说到智能，人工智能本质上是机械的和基于规则的。一旦 AI 研究了一组训练数据，它就会创建一个模型，而该模型并没有真正改变。一些工程师和数据科学家设想随着时间的推移逐渐重新训练 AI 模型，以便机器能够学会适应。但是，在大多数情况下，这个想法是创建一组复杂的神经元，以固定的形式对某些知识进行编码。恒常性有它的作用，可能适用于某些行业。人工智能的危险在于它将永远停留在其训练数据的时代精神中。当我们人类变得如此依赖生成式人工智能以至于我们无法再为训练模型生产新材料时会发生什么？
AI 的训练数据需要来自某个地方，而我们并不总是那么确定是什么卡在了神经网络中。如果 AI 从他们的训练数据中泄露个人信息怎么办？更糟糕的是，锁定人工智能要困难得多，因为它们被设计得非常灵活。关系数据库可以限制对包含个人信息的特定表的访问。不过，可以通过数十种不同的方式查询 AI。攻击者将很快学会如何以正确的方式提出正确的问题，以获取他们想要的敏感数据。例如，假设特定资产的纬度和经度被锁定。聪明的攻击者可能会在数周内询问该位置太阳升起的确切时刻。一个尽职尽责的 AI 会尝试回答。教 AI 保护私人数据是我们还不了解的事情。
即使是最早的大型机程序员在创造首字母缩略词 GIGO 或“垃圾输入，垃圾输出”时也理解了计算机问题的核心。人工智能的许多问题都来自糟糕的训练数据。如果数据集不准确或有偏差，结果将反映出来。
生成式 AI 的核心硬件可能像 Spock 一样是逻辑驱动的，但构建和训练机器的人却不是。偏见和党派偏见已被证明会进入 AI 模型。也许有人使用有偏见的数据来创建模型。也许他们添加了覆盖以防止模型回答特定的热键问题。也许他们输入了硬连线答案，然后很难检测到。人类已经找到了许多方法来确保人工智能成为我们有害信念的优秀载体。
原谅 AI 模型犯错很容易，因为它们在很多其他事情上做得很好。只是很多错误很难预料，因为人工智能的思维方式与人类不同。例如，许多使用文本转图像功能的用户发现 AI 会在相当简单的事情上出错，比如数数。人类很早就在小学学习基本算术，然后我们以各种方式使用这项技能。让一个 10 岁的孩子画一只章鱼，这个孩子几乎肯定会确定它有八条腿。当涉及到数学的抽象和上下文使用时，当前版本的人工智能往往会陷入困境。如果模型构建者对失误给予一些关注，这可能很容易改变，但还会有其他人。机器智能不同于人类智能，这意味着机器的愚蠢也会有所不同。
有时在没有意识到的情况下，我们人类往往会填补 AI 智能的空白。我们填写缺失的信息或插入答案。如果人工智能告诉我们亨利八世是杀害他妻子的国王，我们不会质疑，因为我们自己不了解那段历史。我们只是假设 AI 是正确的，就像我们在有魅力的主持人挥手时所做的一样。如果一个声明是有信心的，那么人类的头脑就会倾向于接受它是真实和正确的。
对于生成式 AI 的用户来说，最棘手的问题是知道 AI 何时出错。机器不能像人类那样撒谎，但这使它们更加危险。他们可以产生完全准确的数据段落，然后转向猜测，甚至公然诽谤，而没有人知道它发生了。二手车经销商或扑克玩家往往知道他们什么时候在捏造谎言，而且大多数人都会揭穿他们的中伤；人工智能没有。
数字内容可以无限复制，这已经使许多围绕稀缺性建立的经济模型变得紧张。生成式人工智能将进一步打破这些模型。生成式人工智能会让一些作家和艺术家失业；它还颠覆了我们赖以生存的许多经济规则。当广告和内容都可以无休止地重新组合和重新生成时，广告支持的内容是否有效？互联网的免费部分是否会陷入机器人点击网页广告的世界，所有这些都由生成人工智能精心制作并可以无限复制？
如此容易的富足可能会破坏经济的各个方面。如果可以永久复制，人们会继续为不可替代的代币付费吗？如果做艺术这么容易，它还会受到尊重吗？还会特别吗？如果它不特别，会有人关心吗？当一切都被视为理所当然时，一切都会失去价值吗？这就是莎士比亚所说的离谱命运的弹弓和箭的意思吗？我们不要试图自己回答。让我们向生成式 AI 询问一个有趣、古怪，并最终神秘地陷入对与错之间的某个阴间世界的答案。

作者 east

人工智能 4月 4,2023

MLops 是热门的新云计算职业道路

开源 MLops 平台 ClearML 发布了新的研究报告：“MLOps in 2023: What Does the Future Hold?”这项研究对美国的 200 名机器学习决策者进行了调查，研究了机器学习和 MLops（机器学习操作）的主要趋势。
ClearML 的研究发现，MLop 现在在企业中得到广泛采用，暂时搁置潜在的供应商自我服务偏见； 85% 的受访者表示，他们在 2022 年有专门的 MLops 预算。14% 的受访者表示，他们没有预算，但预计会在 2023 年制定。因此，企业现在或很快就会采用 MLops。
如果你没有注意到，ops 似乎是云计算工作的新焦点。我们有 cloudops（云运营）、finops（金融运营）、devops（开发和运营）和 secops（安全运营）。你可以看到趋势。
这是有充分理由的。构建和部署云解决方案或将现有解决方案迁移到云是必需的任务。通常，它们是一体的。然后重点转移到运营上，以保持该工作的价值回归业务。正如许多企业在过去几年中发现的那样，仅仅将东西扔给公共云提供商并希望获得最好的回报并不能带来价值。忽视运营——所有运营——会导致巨大的成本超支和极低的投资回报率。
MLops 是机器学习生命周期的重要组成部分，使组织能够在生产中管理和操作机器学习模型。 MLops 流程确保以一致且高效的方式部署、监控和更新模型，使组织能够获得机器学习的全部好处。可以利用 ML 作为创新差异化因素的应用程序可以为业务增加巨大的价值，远远超过对支持 ML 的系统的投资。
由于对驱动智能供应链、检测欺诈并提供营销和销售分析的 AI/ML 增强业务系统的新依赖，MLops 正在成为最近最热门的职业道路。当然，我们只需看看围绕 ChatGPT 的兴奋，就能看到将 AI 武器化以带来更大利润的兴趣和潜力，但这确实已经发展了 20 年。
MLop 涉及的主要任务是什么？如果你转到一份与 MLops 相关的工作，你每天会做什么？
在我职业生涯的某个阶段完成了这些任务中的每一项后，我列出的所有任务都不难理解。通常，MLops 是现有 cloudps 团队的一部分，但它需要接受一般机器学习以及公司特定 ML 系统的特殊培训。然后只需遵循流程和程序即可保持 ML 系统运行和更新。
这现在成为热门求职票的另一个原因是：如果机器学习系统没有得到适当的操作和维护，企业可能会遇到重大问题。其中包括损失数百万美元的误导营销活动，以及因机器学习系统中批准或拒绝家庭贷款的偏见而引起的诉讼。很多事情都可能出错，而且会出错。拥有合适的 MLops 人才将降低风险。
MLops 适合您吗？如果您正在寻找需要一些新的和持续培训的高薪职业，并且您对机器学习技术感兴趣，那么这可能是您现在可以获得的最有趣和最赚钱的工作。

作者 east

人工智能 4月 4,2023

在 Azure 中使用 Hugging Face 机器学习模型

微软最近的 Azure 开源日展示了一个使用云原生工具和服务构建的新参考应用程序，重点是微软自己的开源工具。该应用程序旨在成为一项服务，帮助主人与丢失的宠物团聚。它使用机器学习快速将失踪动物的照片与来自动物收容所、救援和社区站点的图像进行比较。这是一个很好的例子，说明开源工具如何构建复杂的站点和服务，从基础设施即代码工具到应用程序框架以及向代码添加功能的各种工具。
该应用程序的核心是一个开源机器学习模型，它是 Hugging Face 社区开发的数千个模型和数据集库的一部分，并建立在其大量不同工具和服务的基础上。社区的规模是使用 Hugging Face 模型的一个很好的理由，可以导入它们以在您自己的代码中进行推理，在您自己的服务器上运行，或者通过云 API 访问它们。
考虑在 Azure 中使用 Hugging Face 的另一个原因是：它允许您将 AI 应用于许多不同的业务问题。尽管 Microsoft 自己的认知服务 API 涵盖了许多具有定义良好的 API 的常见 AI 场景，但它们只是一家公司对哪些机器学习服务对企业有意义的看法。这确实使它们成为万事通，专为一般目的而不是特定任务而设计。如果您的代码需要支持边缘情况，那么向 API 添加适当的调优可能需要大量工作。
是的，可以选择使用 Azure 的机器学习工作室构建自己的特定模型，使用 PyTorch 和 TensorFlow 等工具从头开始设计和训练模型。但这需要在构建和训练模型方面具有重要的数据科学和机器学习专业知识。 “从头开始”的机器学习方法还有其他问题。 Azure 为机器学习训练提供了越来越多的虚拟机选项，但该过程可能具有很高的计算要求并且运行成本很高，尤其是在构建需要大量数据的大型模型时。我们并不都是开放人工智能，也没有预算来构建用于训练的云托管超级计算机！
Hugging Face 拥有超过 40,000 个基于其 Transformer 模型框架构建的模型，它拥有由社区构建和训练的模型，可用于比 Microsoft 单独使用的场景更多的场景，从而帮助解决定制问题。您也不限于文本； Hugging Face 的 Transformers 经过训练可以使用自然语言、音频和计算机视觉。 Hugging Face 将这些功能描述为“任务”，例如，有超过 2,000 个不同的图像分类模型和近 18,000 个文本分类模型。
Microsoft 最近在 Azure 上推出了对 Hugging Face 模型的支持，提供了一组可在您的代码中使用的端点，以及从 Hugging Face Hub 及其管道 API 导入的模型。模型由 Hugging Face 社区构建和测试，端点方法意味着它们已准备好进行推理。
免费提供模型；您只需支付用于运行推理任务的 Azure 计算资源。这并非微不足道，尤其是当您处理大量数据时，您应该将定价与 Azure 自己的认知服务进行比较。
创建端点非常简单。在 Azure Marketplace 中，选择 Hugging Face Azure ML 以将服务添加到你的帐户。将您的终结点添加到资源组，然后选择一个区域并为其命名。您现在可以从 Hugging Face Hub 中选择一个模型并选择模型 ID 和任何关联的任务。接下来，为服务选择 Azure 计算实例和 VNet 以确保服务安全。这足以创建端点，生成使用它所需的 URL 和密钥。
有用的是，该服务支持端点根据每分钟的请求数根据需要自动缩放。默认情况下，您仅限于单个实例，但您可以使用配置屏幕中的滑块来设置最小和最大实例数。扩展是由五分钟内的平均请求数驱动的，旨在消除可能导致不必要成本的需求高峰。
目前，关于 Azure 集成的文档很少，但您可以通过查看 Hugging Face 的 AWS 端点文档来了解它。 Endpoint API 基于现有的 Inference API，您可以决定如何构造有效负载。
该服务为您提供了一个方便的 playground URL 来测试您的推理模型。这包括示例 Python 和 JavaScript 代码，以及从命令行使用 curl 的选项。数据以 JSON 格式发送，响应以类似的方式传递。您可以使用标准库来组装和处理 JSON，从而允许您在代码中嵌入对 API 的 REST 调用。如果您使用的是 Python，则可以获取示例代码并将其复制到 Jupyter 笔记本中，您可以在其中与同事共享测试，共同构建更完整的应用程序。
现在，你可以在 Azure 机器学习中使用 Hugging Face 的基础模型，并使用你用来构建和训练自己的模型的相同工具。虽然该功能目前处于预览阶段，但它是一种使用模型的有用方式，使用熟悉的工具和技术，使用 Azure 机器学习在您的应用程序中微调和部署 Hugging Face 模型。您可以使用 Azure 机器学习注册表搜索模型，准备好运行。
这是为您的代码添加额外的预训练模型端点的快速方法；您还可以选择根据自己的数据微调模型，将 Azure 存储用于训练和测试数据，并使用 Azure 机器学习的管道来管理流程。将 Hugging Face 模型作为您自己模型的基础很有意义；它们已在一系列可能不太适合您的案例中得到证明。一个接受过识别金属制品缺陷训练的模型具有处理玻璃或塑料所必需的一些特征，因此额外的训练将降低出错的风险。
开源机器学习社区不断壮大，像微软这样的公司接受它很重要。他们可能有经验和技能，但他们没有更广泛社区的规模或专业化。通过与 Hugging Face 等社区合作，开发人员可以获得更多选择。这对每个人来说都是一场胜利。

作者 east

chatgpt 4月 3,2023

开始使用 Azure OpenAI

现代机器学习和 AI 研究已从实验室迅速转移到我们的 IDE，Azure 的认知服务等工具提供了对预训练模型的基于 API 的访问。提供人工智能服务有许多不同的方法，其中一种更有前途的处理语言的方法是一种称为生成预训练或 GPT 的技术，它可以处理大量文本。
OpenAI 研究实验室率先采用了这项技术，并于 2018 年发表了关于该主题的第一篇论文。它使用的模型经过了多次迭代，从无监督 GPT-2 开始，它使用未标记的数据来模仿人类。 GPT-2 建立在 40GB 的公共互联网内容之上，需要大量训练才能提供具有 15 亿个参数的模型。紧随其后的是 GPT-3，这是一个拥有 1750 亿个参数的更大模型。 GPT-3 独家授权给 Microsoft，是 GitHub Copilot 使用的以编程代码为中心的 Codex 和图像生成 DALL-E 等工具的基础。
像 GPT-3 这样的模型需要大量的计算和内存，大约为数千 petaflop/s-days，它是在专用超级计算机硬件上进行基于云的高性能计算的理想候选者。微软在 Azure 上构建了自己的基于 Nvidia 的超级计算服务器，其云实例出现在 TOP500 超级计算列表中。 Azure 的 AI 服务器围绕 Nvidia Ampere A12000 Tensor Core GPU 构建，通过高速 InfiniBand 网络互连。
OpenAI 的生成式 AI 工具已在 Azure 服务器上构建和训练。作为 OpenAI 和微软之间长期交易的一部分，OpenAI 的工具作为 Azure 的一部分提供，具有 Azure 特定的 API 并与 Azure 的计费服务集成。经过一段时间的私人预览后，Azure OpenAI API 套件现已普遍可用，支持 GPT-3 文本生成和 Codex 代码模型。微软表示将在未来的更新中添加 DALL-E 图像生成。
这并不意味着任何人都可以构建使用 GPT-3 的应用程序；微软仍在限制访问，以确保项目符合其道德人工智能使用政策，并严格限定在特定用例范围内。您还需要成为 Microsoft 的直接客户才能访问 Azure OpenAI。 Microsoft 使用类似的过程来访问其受限访问认知服务，其中可能存在冒充或侵犯隐私的情况。
这些政策可能会保持严格，而某些领域（例如医疗服务）可能需要额外保护才能满足监管要求。微软自己在 AI 语言模型方面的经验给它上了一课，它不想重蹈覆辙。作为附加保护，输入和输出上有内容过滤器，并向 Microsoft 和开发人员发出警报。
一旦你的帐户被批准使用 Azure OpenAI，你就可以开始构建使用其 API 端点的代码。可以从门户、Azure CLI 或 Arm 模板创建适当的 Azure 资源。如果您使用的是 Azure 门户，请创建分配给您的帐户的资源以及您打算用于您的应用程序和任何关联的 Azure 服务和基础结构的资源组。接下来，为资源命名并选择定价层。目前，只有一种定价选项，但随着微软推出新的服务等级，这种情况可能会发生变化。
有了资源，你现在可以使用 Azure OpenAI Studio 部署模型。这是您使用 OpenAI 完成大部分工作的地方。目前，您可以在 GPT-3 系列模型的成员之间进行选择，包括基于代码的 Codex。其他模型使用嵌入，为搜索优化的复杂语义信息。
在每个系列中，都有一组不同的模型，其名称同时表明了成本和能力。如果你使用 GPT-3，Ada 是成本最低且能力最差的，而 Davinci 是最高的。每个模型都是前一个模型的超集，因此随着任务变得越来越复杂，您无需更改代码，只需选择不同的模型即可。有趣的是，Microsoft 建议在设计基于 OpenAI 的应用程序时从功能最强大的模型开始，因为这可以让您在投入生产时调整基础模型的价格和性能。
尽管 GPT-3 的文本完成功能已经流行起来，但实际上您的应用程序需要更加关注您的特定用例。您不希望 GPT-3 为定期提供无关建议的支持服务提供支持。您必须使用带有输入和所需输出的训练示例构建自定义模型，Azure OpenAI 将其称为“完成”。拥有大量训练数据很重要，Microsoft 建议使用数百个示例。您可以将所有提示和完成内容包含在一个 JSON 文件中，以简化训练数据的管理。
自定义模型到位后，您可以使用 Azure OpenAI Studio 来测试 GPT-3 如何适用于您的场景。一个基本的 playground 可以让你看到模型如何响应特定的提示，一个基本的控制台应用程序可以让你输入一个提示并返回一个 OpenAI 完成。微软将构建良好的提示描述为“显示，不要告诉”，这表明提示需要尽可能明确以获得最佳输出。 playground 还有助于训练您的模型，因此如果您正在构建分类器，您可以在提供输入和触发以获得响应之前提供文本和预期输出列表。
playground 的一个有用功能是能够尽早设置意图和预期行为，因此如果您使用 OpenAI 为帮助台分类工具提供支持，您可以设置输出礼貌和冷静的期望，确保它获胜’模仿愤怒的用户。相同的工具可用于 Codex 模型，因此您可以看到它如何作为代码完成工具或动态助手工作。
准备好开始编码后，您可以直接或与 OpenAI Python 库一起使用部署的 REST 端点。后者可能是您获得实时代码的最快途径。您需要端点 URL、身份验证密钥和部署名称。一旦你有了这些，为你的代码设置适当的环境变量。与往常一样，在生产中最好不要对密钥进行硬编码，而是使用 Azure Key Vault 等工具来管理它们。
调用端点非常简单：只需使用 openai.Completion.create 方法获取响应，设置包含提示及其响应所需的最大令牌数。 API 返回的响应对象包含您的模型生成的文本，可以将其提取、格式化，然后供您的其余代码使用。基本调用很简单，您的代码还可以使用其他参数来管理响应。这些控制着模型的创造力以及它如何对其结果进行采样。您可以使用这些参数来确保响应直接且准确。
如果您使用其他语言，请使用其 REST 和 JSON 解析工具。您可以在 Azure OpenAI 文档中找到 API 参考，或利用 Azure 的 GitHub 托管的 Swagger 规范来生成 API 调用并处理返回的数据。这种方法适用于 Visual Studio 等 IDE。
OpenAI 模型的一个关键要素是它们基于代币的定价模型。 Azure OpenAI 中的令牌不是我们熟悉的身份验证令牌；它们是字符串的标记化部分，是使用内部统计模型创建的。 Open AI 在其网站上提供了一个工具来显示字符串是如何标记化的，以帮助您了解您的查询是如何计费的。你可以期望一个标记大约是四个字符的文本，尽管它可以更少也可以更多；然而，它最终应该有 75 个单词，需要大约 100 个标记（大约是一段普通文本）。
模型越复杂，代币的价格就越高。基本型号 Ada 每 1,000 个代币的价格约为 0.0004 美元，高端 Davinci 为 0.02 美元。如果您应用自己的调整，则会产生存储成本，如果您使用嵌入，则由于计算需求增加，成本可能会高出一个数量级。微调模型需要支付额外费用，起价为每计算小时 20 美元。 Azure 网站提供样本价格，但实际价格可能会有所不同，具体取决于您的组织与 Microsoft 的帐户关系。
也许 Azure OpenAIclo 最令人惊讶的地方在于它的简单性。当您使用预建模型（可以进行一些微调）时，您需要做的就是应用一些基本的预训练，了解提示如何生成输出，并将工具链接到您的代码，随时生成文本内容或代码这是需要的。

作者 east

人工智能 4月 3,2023

什么是生成式人工智能？人工智能的演变

生成式 AI 是任何一种使用算法来生成、操作或合成数据的自动化过程的总称，通常以图像或人类可读文本的形式出现。之所以称为生成式，是因为 AI 创造了以前不存在的东西。这就是它与判别式 AI 的不同之处，判别式 AI 会区分不同类型的输入。换句话说，有辨别力的人工智能试图回答这样的问题：“这张图片是画兔子还是狮子？”而生成式 AI 会响应诸如“给我画一张狮子和兔子坐在一起的照片”之类的提示。
本文向您介绍生成式 AI 及其在 ChatGPT 和 DALL-E 等流行模型中的用途。我们还将考虑该技术的局限性，包括为什么“太多的手指”已成为人工生成艺术的死胡同。
生成式 AI 已经存在多年，可以说自 1966 年麻省理工学院开发了 ELIZA 以来，ELIZA 是一种模拟与治疗师交谈的聊天机器人。但是随着新的生成式 AI 系统的发布，多年来在 AI 和机器学习方面的工作最近取得了成果.您几乎肯定听说过 ChatGPT，这是一种基于文本的 AI 聊天机器人，可以生成非常像人类的散文。 DALL-E 和 Stable Diffusion 也因其根据文本提示创建生动逼真的图像的能力而备受关注。我们经常将这些系统和其他类似的系统称为模型，因为它们代表了一种尝试，即基于有关现实世界的信息子集（有时是一个非常大的信息子集）来模拟或建模现实世界的某些方面。
这些系统的输出是如此不可思议，以至于许多人都在问关于意识本质的哲学问题——并担心生成人工智能对人类工作的经济影响。但是，尽管所有这些人工智能创造无疑都是大新闻，但可以说，表面之下发生的事情并不像某些人想象的那样。稍后我们将讨论其中一些大问题。首先，让我们看看 ChatGPT 和 DALL-E 等模型的幕后情况。
生成式 AI 使用机器学习来处理大量视觉或文本数据，其中大部分是从互联网上搜集而来的，然后确定哪些事物最有可能出现在其他事物附近。生成式 AI 的大部分编程工作都用于创建算法，这些算法可以区分 AI 的创建者感兴趣的“事物”——ChatGPT 等聊天机器人中的单词和句子，或者 DALL-E 中的视觉元素。但从根本上说，生成式人工智能通过评估其训练所依据的大量数据来创建输出，然后根据该语料库确定的概率范围内的内容来响应提示。
自动完成——当您的手机或 Gmail 提示您输入的单词或句子的剩余部分可能是什么时——是一种低级形式的生成 AI。像 ChatGPT 和 DALL-E 这样的模型只是把这个想法带到了更先进的高度。
开发模型以容纳所有这些数据的过程称为训练。对于不同类型的模型，一些底层技术在这里发挥作用。 ChatGPT 使用所谓的转换器（T 代表什么）。转换器从一长串文本中获取意义，以了解不同的词或语义成分可能如何相互关联，然后确定它们出现在彼此附近的可能性有多大。这些转换器在一个称为预训练（即 Pin ChatGPT）的过程中在大量自然语言文本上无人监督地运行，然后由与模型交互的人类进行微调。
另一种用于训练模型的技术是所谓的生成对抗网络或 GAN。在这种技术中，您有两种相互竞争的算法。一种是根据从大数据集导出的概率生成文本或图像；另一个是有辨别力的人工智能，它经过人类训练，可以评估输出是真实的还是人工智能生成的。生成式 AI 反复尝试“欺骗”判别式 AI，自动适应有利于成功的结果。一旦生成性 AI 持续“赢得”这场比赛，判别性 AI 就会被人类微调，并且这个过程会重新开始。
这里要记住的最重要的事情之一是，虽然在训练过程中有人为干预，但大部分学习和适应都是自动发生的。需要如此多的迭代才能使模型产生有趣的结果，因此自动化是必不可少的。该过程在计算上相当密集。
用于创建和训练生成式 AI 模型的数学和编码非常复杂，远远超出了本文的范围。但是，如果您与作为此过程最终结果的模型进行交互，那么这种体验无疑是不可思议的。您可以让 DALL-E 生产看起来像真正艺术品的东西。您可以与 ChatGPT 进行对话，就像与另一个人对话一样。研究人员真的创造了一台思考机器吗？
从事 Watson AI 产品工作的前 IBM 自然语言处理负责人 Chris Phipps 说不。他将 ChatGPT 描述为“非常好的预测机器”。
Phipps 也是一名喜剧演员，他将游戏与一种名为 Mind Meld 的普通即兴游戏进行了比较。
我们可以向这些 AI 模型提供某些提示，这将使 Phipps 的观点更加明显。例如，考虑“什么更重，一磅铅还是一磅羽毛？”这个谜语。答案当然是它们的重量相同（一磅），尽管我们的直觉或常识可能告诉我们羽毛更轻。
ChatGPT 会正确回答这个谜语，您可能会认为它会这样做，因为它是一台冷酷的逻辑计算机，没有任何“常识”来使它出错。但这不是幕后发生的事情。 ChatGPT 并没有从逻辑上推理出答案；它只是根据对关于一磅羽毛和一磅铅的问题的预测来生成输出。由于它的训练集包括一堆解释谜语的文本，它会组装一个正确答案的版本。但如果你问 ChatGPT 两磅羽毛是否比一磅铅重，它会自信地告诉你它们的重量相同，因为根据其训练集，这仍然是关于羽毛和铅的提示最有可能的输出。告诉 AI 它错了并看着它做出反应可能很有趣；我让它为它的错误向我道歉，然后建议两磅羽毛的重量是一磅铅的四倍。

作者 east

Hive 4月 2,2023

如何把cdh中hive存储在表数据转换为pgsql

要把cdh中hive存储在表数据转换为pgsql，您可能需要以下步骤：

DROP TABLE IF EXISTS TestHiveTableCSV;
CREATE TABLE TestHiveTableCSV ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' AS SELECT * FROM TestHiveTable;

在CDP Data Lake集群上使用以下命令将CSV文件复制到本地目录：

hadoop fs -copyToLocal /user/hive/warehouse/testhivetablecsv /tmp

在本地目录上使用以下命令将CSV文件导入到pgsql数据库：

psql -d testdb -c "COPY testpgtable FROM '/tmp/testhivetablecsv' WITH (FORMAT csv);"

作者 east

人工智能 4月 2,2023

采用并扩展 Excel 以进行 AI 数据准备

有时最好的 IT 解决方案就是您已经拥有的解决方案。当然，并非总是如此：例如，云基础设施往往比私有数据中心产生更多的灵活性和选择。除非你是嘿！，在这种情况下，你会认为私有数据中心是正确的选择。
正如我的同事 David Linthicum 所强调的那样，关键是不要沉迷于“面向流行语的架构”，在这种架构中，企业可能“花费两倍的钱来实现实际上不需要容器化的工作负载的现代化，这一切都是因为有人想把他们简历上的容器。”
问题不在于容器。或云。或者 [在此处插入热门技术]。不，问题在于将行业流行语广泛应用于业务问题，而不是让业务问题决定解决方案。
鉴于疯狂的企业如何将神奇的机器学习仙尘应用到他们的业务挑战中，机器学习和人工智能 (ML/AI) 是值得深思熟虑的领域之一。鉴于当今 ML/AI 人才相对匮乏，值得看看如何更好地利用贵公司已经雇用的人才，而不是祈祷你能够聘请数据科学家神奇地发现数据中的洞察力。一种更好的方法可能是更好地利用世界上最流行的数据工具来为机器学习模型准备好数据。是的，我说的是 Excel。
人工智能的新进展为数百万人提供了机会，让他们可以通过机器学习开始创作各种内容，从代码到复制再到艺术。自 2022 年 11 月公开发布以来，ChatGPT 占据了世界各地的头条新闻，并引发了商业应用的热潮，同时也出现了许多滥用 ChatGPT 反馈、担心论文和考试作弊等例子。
谷歌推出了一款名为 GPT for Sheets 的 Chrome 扩展程序，它允许用户使用会话语言来操作数据；微软表示，它将把 ChatGPT 集成到其所有产品中，首先是 Bing。微软最近向 ChatGPT 的创建者 OpenAI 投资了 100 亿美元。
但与 ChatGPT 应用程序一样令人兴奋（有时令人失望）的是，已经有一种更加平凡且有前途的机器学习方法可用。
我之前写过关于 Akkio 的文章，这是一家结合了无代码和人工智能的机器学习公司，以及民主党如何在 2022 年选举周期中将该工具变成印钞机。 Akkio 推出了 Chat Data Prep，这是一个很酷的新机器学习平台，允许用户使用普通对话语言转换数据。技术术语是自然语言处理，但考虑它的不那么流行的方式是它可以改变 Excel 用户的工作方式，并使他们能够更轻松地接受 AI 的承诺。
全世界估计有 7.5 亿人使用 Excel。微软 CEO 萨蒂亚·纳德拉 (Satya Nadella) 宣布 Excel 是公司最重要的消费产品。将 Excel 转变为机器学习的强大工具，对于让机器学习成为普通企业员工最终可以利用的东西大有帮助。
Akkio 联合创始人 Jonathan Reilly 在接受采访时说：“我们试图弄清楚的一件事是如何在数据上构建使用 AI 所需的所有转换，即使在我们简单的无代码 ML 平台上也是如此。” “然后我们意识到我们可以只使用 ML 来完成这项任务。没有组织希望财务规划人员花时间导入、导出和处理数据——他们希望他们专注于数据告诉他们的事情。”
Akkio 的新功能让用户只需输入会话语言即可更改电子表格数据。利用人工智能和大型语言模型，该平台解释用户的请求并对数据进行必要的更改。这出奇的简单。亲眼看看 Akkio 的在线演示（非门控）。
为什么这很重要？您可能会向数据科学家支付六位数的费用来让您的数据发挥作用，但他们的大部分时间都花在了数据转换上，也就是数据争论上。这是在不更改数据集内容的情况下将数据从一种格式、标准或结构转换为另一种格式、标准或结构的技术过程，以便为机器学习模型的使用做好准备。数据准备相当于清洁工作，尽管是非常重要的工作。转型提高了业务和分析流程的效率，并使企业能够做出更好的数据驱动决策。但除非用户熟悉 Python 或流行的查询语言 SQL，否则它既困难又耗时。
例如，涉及几个步骤，从数据清理开始（转换数据类型并删除不需要的字符）。下面是一个假设的示例，说明了解 SQL 或 Python 的人可能会进行转换以协调多个数据集以用于机器学习模型：
从 Year_Birth 中减去当前年份。
它与上面的相似，但增加了从日期特征中提取年份部分。
这包括四个步骤：
并不断。
在 Excel 的四分之三的十亿用户中，没有多少人拥有这些基本的编程技能。但他们中的任何一个都可以用普通英语输入一个简单的请求，而 Chat Data Prep 将完成数据转换的繁重工作。它甚至可以提供结果预览，以便您检查输出是否符合您的要求。 Akkio 声称 Chat Data Prep 可以将准备分析数据所需的时间减少 10 倍。借助 Chat Data Prep，用户可以重新格式化日期、执行基于时间的数学运算，甚至可以使用简单的对话命令修复混乱的数据字段。
使数据分析更易于访问、更高效、更准确是 AI 在幕后悄悄使越来越成为可能的平凡魔术之一。 ChatGPT 将成为头条新闻，但您的 Excel 用户可能会在企业内承担机器学习转型的重任。

作者 east

人工智能 4月 2,2023

零样本学习和生成人工智能的基础

我们可能记得 2022 年是认知人工智能技术从实验室走向主流应用的一年。 ChatGPT 是一种回答问题的对话式 AI，在不到一周的时间内用户从零增加到一百万。图像生成 AI DALL-E 2、Midjourney 和 Stable Diffusion 开放了公众访问，并以从短短语和句子生成的图像的多样性和质量吸引了全世界的关注。
我承认玩 DALL-E 2 很有趣。这是两个迷失的灵魂在鱼缸里游泳的演绎，蒂姆伯顿描绘了打开未成熟鳄梨的痛苦。
Snowflake 产品管理总监 Torsten Grabs 表示：“人工智能已经成为特斯拉和 Waymo 等自动驾驶汽车、无与伦比的游戏玩法（想想 AlphaGo）以及 DALL-E 等迷人的艺术一代等项目的头条新闻。”
许多机器学习模型使用监督学习技术，其中使用标记数据集训练神经网络或其他模型。例如，您可以从标记为猫、狗和其他宠物的图像数据库开始，然后训练 CNN（卷积神经网络）对它们进行分类。
在现实世界中，大规模标记数据集既昂贵又复杂。医疗保健、制造业和其他行业有许多不同的用例来做出准确的预测。合成数据可以帮助扩充数据集，但训练和维护监督学习模型的成本仍然很高。
要了解生成式 AI，首先要了解不依赖于标记数据集的学习算法。单次和零次学习算法是示例方法，它们是生成式 AI 技术的基础。
以下是 ChatGPT 定义单次学习和零次学习的方式：
John Snow Labs 的首席技术官 David Talby 说：“顾名思义，单次或少量学习旨在从一个或仅几个示例中对对象进行分类。目标是让人类用简单的英语提示模型成功识别图像、短语或文本。”
一次性学习是通过对每个样本进行单一训练示例来执行的，比如新员工的头像。然后该模型可以计算两个头像之间的相似度分数，例如与样本匹配的人的照片，并且该分数确定足够的匹配以授予访问权限。一次性学习的一个示例使用了 Omniglot 数据集，该数据集包含来自 50 个不同字母表的 1,623 个手绘字符。
在零样本学习中，网络接受图像和相关数据的训练，包括字幕和其他上下文元数据。零样本学习的一种方法使用 OpenAI 的 CLIP（对比语言-图像预训练）将图像降维为编码，从文本中创建所有可能标签的列表，然后计算匹配图像与标签的相似度得分。然后可以使用该模型使用相似性得分将新图像分类为标签。
OpenAI 的生成 AI DALL-E 使用 CLIP 和 GAN（生成对抗网络）来执行反向功能并从文本创建图像。
小样本学习技术的一项应用是在医疗保健领域，其中带有诊断结果的医学图像可用于开发分类模型。 “不同的医院可能会以不同的方式诊断病情，”Talby 说。 “通过一次或几次学习，临床医生可以在不使用代码的情况下提示算法来实现特定结果。”
但不要指望全自动放射学诊断会过早出现。 Talby 说：“虽然自动提取信息的能力非常有价值，但一次性、少量甚至零样本学习不会很快取代医疗专业人员。”
Persistent 的首席技术官 Pandurang Kamat 分享了其他几个潜在的应用。 “零样本和少样本学习技术在药物发现、分子发现、零日攻击、客户支持团队的案例偏转以及其他可能很难标记训练数据的领域释放机会。”
Kamat 还警告当前的局限性。 “在计算机视觉中，这些技术在图像识别、分类和跟踪方面效果很好，但在需要高精度/精确度的场景中可能会遇到困难，例如识别癌细胞并在病理图像中标记它们的轮廓，”他说。
制造业在识别缺陷方面也有潜在的小样本学习应用。 IndustrialML 的首席执行官 Arjun Chandar 说：“没有任何一家运营良好的工厂会产生足够多的缺陷来拥有大量的缺陷类图像来进行训练，因此需要构建算法以基于少至几十个样本来识别它们。”
数据科学家可能会尝试使用单次和零次学习方法来解决未标记数据集的分类问题。学习算法和工具的一些方法包括使用 Amazon SageMaker 构建基于新闻的警报系统或在会话代理中使用零样本学习。
开发人员和数据科学家还应该将新的学习技术和可用模型视为新应用程序和解决方案的构建块，而不是针对特定问题优化的模型。例如，Moveworks 的工程总监 Chang Liu 表示，开发人员可以利用大规模 NLP（自然语言处理）模型，而不是自己构建模型。
“随着大型语言模型的引入，团队正在利用这些智能系统大规模解决问题。语言模型不需要构建一个全新的模型，只需要根据任务的描述和适当的答案进行训练，”刘说。
未来的人工智能解决方案可能看起来像今天的软件应用程序，混合了专有模型、嵌入式商业和开源组件以及第三方服务。 Snowflake 的 Grabs 表示：“几乎所有愿意花时间定义 AI 解决方案问题并采用新工具和实践来产生初始和持续改进的公司都可以获得成就。”
我们可能会在 2023 年看到新的学习方法和 AI 成就，因此数据科学团队必须不断研究、学习和试验。

作者 east