零样本学习和生成人工智能的基础

我们可能记得 2022 年是认知人工智能技术从实验室走向主流应用的一年。 ChatGPT 是一种回答问题的对话式 AI，在不到一周的时间内用户从零增加到一百万。图像生成 AI DALL-E 2、Midjourney 和 Stable Diffusion 开放了公众访问，并以从短短语和句子生成的图像的多样性和质量吸引了全世界的关注。
我承认玩 DALL-E 2 很有趣。这是两个迷失的灵魂在鱼缸里游泳的演绎，蒂姆伯顿描绘了打开未成熟鳄梨的痛苦。
Snowflake 产品管理总监 Torsten Grabs 表示：“人工智能已经成为特斯拉和 Waymo 等自动驾驶汽车、无与伦比的游戏玩法（想想 AlphaGo）以及 DALL-E 等迷人的艺术一代等项目的头条新闻。”
许多机器学习模型使用监督学习技术，其中使用标记数据集训练神经网络或其他模型。例如，您可以从标记为猫、狗和其他宠物的图像数据库开始，然后训练 CNN（卷积神经网络）对它们进行分类。
在现实世界中，大规模标记数据集既昂贵又复杂。医疗保健、制造业和其他行业有许多不同的用例来做出准确的预测。合成数据可以帮助扩充数据集，但训练和维护监督学习模型的成本仍然很高。
要了解生成式 AI，首先要了解不依赖于标记数据集的学习算法。单次和零次学习算法是示例方法，它们是生成式 AI 技术的基础。
以下是 ChatGPT 定义单次学习和零次学习的方式：
John Snow Labs 的首席技术官 David Talby 说：“顾名思义，单次或少量学习旨在从一个或仅几个示例中对对象进行分类。目标是让人类用简单的英语提示模型成功识别图像、短语或文本。”
一次性学习是通过对每个样本进行单一训练示例来执行的，比如新员工的头像。然后该模型可以计算两个头像之间的相似度分数，例如与样本匹配的人的照片，并且该分数确定足够的匹配以授予访问权限。一次性学习的一个示例使用了 Omniglot 数据集，该数据集包含来自 50 个不同字母表的 1,623 个手绘字符。
在零样本学习中，网络接受图像和相关数据的训练，包括字幕和其他上下文元数据。零样本学习的一种方法使用 OpenAI 的 CLIP（对比语言-图像预训练）将图像降维为编码，从文本中创建所有可能标签的列表，然后计算匹配图像与标签的相似度得分。然后可以使用该模型使用相似性得分将新图像分类为标签。
OpenAI 的生成 AI DALL-E 使用 CLIP 和 GAN（生成对抗网络）来执行反向功能并从文本创建图像。
小样本学习技术的一项应用是在医疗保健领域，其中带有诊断结果的医学图像可用于开发分类模型。 “不同的医院可能会以不同的方式诊断病情，”Talby 说。 “通过一次或几次学习，临床医生可以在不使用代码的情况下提示算法来实现特定结果。”
但不要指望全自动放射学诊断会过早出现。 Talby 说：“虽然自动提取信息的能力非常有价值，但一次性、少量甚至零样本学习不会很快取代医疗专业人员。”
Persistent 的首席技术官 Pandurang Kamat 分享了其他几个潜在的应用。 “零样本和少样本学习技术在药物发现、分子发现、零日攻击、客户支持团队的案例偏转以及其他可能很难标记训练数据的领域释放机会。”
Kamat 还警告当前的局限性。 “在计算机视觉中，这些技术在图像识别、分类和跟踪方面效果很好，但在需要高精度/精确度的场景中可能会遇到困难，例如识别癌细胞并在病理图像中标记它们的轮廓，”他说。
制造业在识别缺陷方面也有潜在的小样本学习应用。 IndustrialML 的首席执行官 Arjun Chandar 说：“没有任何一家运营良好的工厂会产生足够多的缺陷来拥有大量的缺陷类图像来进行训练，因此需要构建算法以基于少至几十个样本来识别它们。”
数据科学家可能会尝试使用单次和零次学习方法来解决未标记数据集的分类问题。学习算法和工具的一些方法包括使用 Amazon SageMaker 构建基于新闻的警报系统或在会话代理中使用零样本学习。
开发人员和数据科学家还应该将新的学习技术和可用模型视为新应用程序和解决方案的构建块，而不是针对特定问题优化的模型。例如，Moveworks 的工程总监 Chang Liu 表示，开发人员可以利用大规模 NLP（自然语言处理）模型，而不是自己构建模型。
“随着大型语言模型的引入，团队正在利用这些智能系统大规模解决问题。语言模型不需要构建一个全新的模型，只需要根据任务的描述和适当的答案进行训练，”刘说。
未来的人工智能解决方案可能看起来像今天的软件应用程序，混合了专有模型、嵌入式商业和开源组件以及第三方服务。 Snowflake 的 Grabs 表示：“几乎所有愿意花时间定义 AI 解决方案问题并采用新工具和实践来产生初始和持续改进的公司都可以获得成就。”
我们可能会在 2023 年看到新的学习方法和 AI 成就，因此数据科学团队必须不断研究、学习和试验。