让我们考虑放慢 AI 的速度

通过不制造厄运机器来避免厄运
如果你担心有人会建造一台机器来控制世界并消灭人类,那么一种反应就是尝试建造更多的机器来更早地控制世界而不破坏它,从而阻止毁灭性机器的征服.另一种或补充的反应是试图完全避免建造此类机器,至少在它们的世界末日倾向的程度是模棱两可的时候。
在我看来,后一种方法是一种至少值得考虑的基本和显而易见的事情,而且也有利于它,非常适合“不难想象在现实世界中发生的事情”这一类型。然而我的印象是,对于担心人工智能灭绝风险的人来说,“积极减缓 AI 进步”标题下的策略历来被驳回和忽视(尽管“不积极加快 AI 进步”很受欢迎)。
这些年来我附近的谈话感觉有点像这样:

有些人:人工智能可能会杀死所有人。我们应该设计一个完美善良的上帝般的超级人工智能来防止这种情况发生。
其他:哇,这听起来非常雄心勃勃
有些人:是的,但这非常重要,而且我们非常聪明,所以我知道它可以工作

有些人:好吧,这很难,我们放弃了
其他人:哦,难道我们不应该尝试阻止这种危险的 AI 的构建吗?
有些人:嗯,那会涉及到协调很多人——我们可能会自大到认为我们可以建造一个可以接管世界并将其改造为天堂的神机,但我们不是妄想

这对我来说似乎是一个错误。 (最近,对其他一些人来说。)
对于是否应该在“尝试放慢某些 AI 研究”的范围内做任何事情,我没有强烈的看法。但我认为 a) 天真的第一次猜测应该是一个很强的“可能”,并且 b) 在这个巨大的干预空间中注销所有内容之前应该进行适当的思考。而通常的试探性答案似乎是“当然不是”,然后似乎会回避该主题以进行进一步思考。 (至少根据我的经验——人工智能安全社区很大,对于我在这里所说的大多数事情,不同的部分可能会有不同的体验。)
也许我最强烈的观点是,人们不应该对这些不同类别的干预应用如此不同的雄心标准。喜欢:是的,在减缓 AI 进展以取得良好效果方面似乎存在很大困难。但在技术调整中,艰巨的挑战与艰巨的努力的热情相得益彰。并且非常不明显的是,这里的难度远大于设计可接受的安全版本机器所涉及的难度,这些机器能够在世界上任何其他人设计危险版本之前接管世界。
在过去的几个月里,我一直在和人们谈论这个问题,并且积累了很多不试图放慢 AI 速度的理由,其中大部分我都想至少讨论一下。我的印象是,现实生活中的争论恰逢人们转向我的观点。
快速说明
首先,为了避免误解——

我认为“减缓危险的 AI”包括以下任何一种:降低 AI 总体进步的速度,例如如果人工智能的一般资金减少,就会发生这种情况。将人工智能的努力从更直接导致风险结果的工作转移到其他工作,例如如果对非常大的 AI 模型存在广泛关注,并且人员和资金转移到其他项目,则可能会发生这种情况。停止工作类别,直到对其安全性有足够的信心,例如如果 AI 研究人员同意某些系统会带来灾难性风险,并且不应该开发,直到它们不被开发,就会发生这种情况。 (这可能意味着某些系统的永久终结,如果它们本质上是不安全的。)(所以特别是,我包括了直接目标是一般缓慢的行为,以及目标是在特定开发之前需要安全的行为,这意味着进度较慢。)
我确实认为这些东西的某些版本受到了认真的关注,通常以其他名称命名。我看到人们在考虑“差异化进步”(上图 b),并制定协调战略以在未来某个时候(例如在“部署”时)减慢 AI 的速度。而且我认为很多考虑都是为了避免主动加速人工智能的进步。我要说的是缺少的是,a) 现在考虑积极努力减缓 AI,以及 b) 直接射击以“减缓 AI”,而不是畏缩不前,只考虑在另一个概念化下出现的例子(也许这是一个不公平的诊断)。
AI Safety 是一个大社区,我只见过一个人进入它的窗口,所以也许情况有所不同,例如在直流电,或不同在伯克利租用对话。我只是说,在我这个世界的角落里,对此不感兴趣的程度是值得注意的,而且在我看来是误判了。

为什么不放慢人工智能?为什么不考虑呢?
好吧,如果我们暂时假设这个话题值得思考,我们会怎么想?放慢人工智能是个好主意吗?有充分的理由解雇它吗?
Scott Alexander 不久前写了一篇帖子,提出了不喜欢这个想法的理由,大致如下:

你想输掉一场军备竞赛吗?如果 AI 安全社区试图放慢速度,它将不成比例地减缓美国的进步,然后其他地方的人将快速前进,并成为其能力决定世界是否毁灭的人,其价值观决定未来的人如果有一个。同样,如果 AI 安全人员批评那些为 AI 进步做出贡献的人,那多半会让最友好、最细心的 AI 能力公司望而却步,鲁莽的会先得逞。
人们可能会考虑“协调”以避免这种病态的竞争。但与整个世界协调任何事情似乎都非常棘手。例如,有些国家幅员辽阔、令人生畏,难以与之交谈。
鼓动缓慢的 AI 进展是对 AI 能力人员的“背叛”,他们是 AI 安全社区的好朋友,他们的友谊对于确保 AI 实验室认真对待安全(以及非工具性可爱)具有战略价值! 嗨 AI 能力的朋友们!)。

我听到的其他意见,我将讨论其中的一些:

减缓人工智能的进步是徒劳的:尽管你付出了所有努力,但几年后你可能就会死去
基于说服人们人工智能风险是一个问题的协调是荒谬的雄心勃勃。要让 AI 教授相信这一点几乎是不可能的,更不用说真正的人类了,你需要说服大量的人。
我们要做什么,建立强大的 AI 永不死亡,当地球被太阳吞噬时?
如果 AI 进展迅速,实际上对安全性更好。这可能是因为 AI 能力工作得越快,AI 的进展就会越顺利,而这比周期的持续时间更重要。或者现在加快进度可能会迫使未来的进度相应变慢。或者因为在构建具有相关风险的 AI 之前完成安全工作可能会更好,在这种情况下,最好的策略可能是尽可能接近危险的 AI,然后停下来进行安全工作。或者,如果提前进行安全工作毫无用处,也许延迟可以,但没有什么好处。
减缓 AI 速度的具体途径是不值得的。例如,避免从事 AI 能力研究是不好的,因为它对学习对齐工作的道路非常有帮助。从事 AI 能力工作的 AI 安全人员可以成为这些公司做出更安全选择的力量。
先进的人工智能将足以帮助解决其他存在风险,从而代表整体存在风险的净降低。 1
监管机构对高级人工智能的本质一无所知(部分原因是它不存在,所以每个人都对此一无所知)。因此,他们将无法对其进行有效监管,也无法带来预期的结果。

我的印象是,对于这种注意力分配,还存在一些不那么认可或不那么利他或更愚蠢的动机。在与人们谈论这件事时至少出现过一次,或者似乎正在发生的一些事情:

先进的人工智能可能会带来多种奇迹,例如长寿有增无减。晚一点到达那里对子孙后代来说很好,但对我们这一代人来说,这可能意味着像我们的祖先在乌托邦永恒的风口浪尖上所做的那样死去。这将是非常令人失望的。对于一个真正相信未来的人来说,可能会倾向于寻找最好的场景——人类及时建立强大、安全的人工智能来拯救这一代人——而不是我们自己不可避免地丧生的场景。
有时,那些衷心感谢技术迄今为止所带来的繁荣的人会发现,在这里肤浅地站在卢德主义一边是痛苦的。
弄清楚思维是如何运作得足够好以从数学中创造出新的思维是一个非常深入和有趣的智力项目,参与其中感觉是正确的。很难直觉地觉得一个人不应该这样做。(插图来自现代计算强化学习的联合创始人:)

这将是有史以来最伟大的智力成就。科学、工程和人文学科的成就,其意义超越人类、超越生命、超越善恶。—理查德·萨顿 (@RichardSSutton) 2022 年 9 月 29 日

考虑会使您与他人发生冲突的项目会让您感到不舒服。提倡更慢的 AI 感觉就像试图阻碍别人的项目,这让人感觉具有对抗性,并且感觉它有更高的负担的证据,而不仅仅是做你自己的事情。
“Slow-down-AGI”将人们的想法发送到例如工业破坏或恐怖主义,而不是更无聊的课程,例如“为实验室制定何时暂停部署模型的共同规范的游说”。可以理解,这鼓励尽快放弃这个想法。
我的弱猜测是,一般来说,人工智能风险思维中存在一种偏见,任何不为零的力量都被认为是任意强烈的。就像,如果存在代理存在的压力,就会任意快速地出现任意代理的东西。如果有反馈回路,它会任意强。在这里,如果 AI 不能永远停滞不前,那么它基本上是零时间。如果一项法规不能阻止每一个危险的项目,那么它就毫无价值。面对对 AI 无所不能的经济激励,任何对危险 AI 的有限经济抑制都算不了什么。我认为这是一个不良的心理习惯:现实世界中的事物往往归结为实际的有限数量。这很可能是一个不公平的诊断。 (我不打算稍后讨论这个;这就是我要说的。)
我感觉到一种假设,即放慢一项技术的进步将是一种激进的、闻所未闻的举动。
我同意 lc 的观点,该主题似乎存在准禁忌,这也许可以解释很多未讨论的内容,但仍需要对其进行解释。我认为这表明对不合作的担忧起到了一定的作用,对于将放慢 AI 速度视为主要涉及反社会策略的想法也是如此。

我不确定这是否能完全解决为什么 AI 安全人员没有考虑进一步降低 AI 速度的原因,或者人们是否应该尝试这样做。但我的感觉是,上述许多理由至少有些错误,动机有些误导,所以我想反过来争论很多,包括论点和模糊的动机主题。
提案的普遍性
克制不激进
似乎有一种普遍的想法认为,技术是世界必须走的一条不可避免的道路,试图放慢或避开其中的任何一部分都是徒劳和极端的。

2
但根据经验,世界并不追求每一种技术——它几乎不追求任何技术。
糟糕的技术
首先,有很多机器没有制造压力,因为它们没有价值。考虑一台向你的眼睛喷屎的机器。我们可以在技术上做到这一点,但可能没有人建造过那台机器。
这似乎是一个愚蠢的例子,因为没有任何严肃的“技术是不可避免的”猜想会声称完全毫无意义的技术是不可避免的。但如果你对 AI 足够悲观,我认为这是正确的比较:根据我们的最佳理解,如果有一些 AI 如果被创造出来会给它们的创造者带来巨大的净成本,那么它们至少与制造它们一样无用作为“在你眼中喷屎”的机器。我们可能会由于错误而意外地制作它们,但并没有某种深层的经济力量拉动我们制作它们。如果不结盟的超级智能在你要求它做一件事时很有可能摧毁世界,那么这就是它所在的类别,它的设计只是在废料堆中腐烂并不奇怪,喷着狗屎的机器在你的眼中和在道路上传播鱼子酱的机器。
好吧,但也许相关参与者非常坚定地认为未结盟的超级智能是否是​​部署的好东西是错误的。或者你可能认为情况不会立即那么可怕,并且构建具有生存风险的 AI 确实对做出决策的人有好处(例如,因为成本不会在一段时间内到来,而且人们非常关心相对于科学成功的机会到未来的一大块)。如果明显的经济激励很大,那么技术是不可避免的吗?
极具价值的技术
在我看来不像。以下是一些我认为具有巨大经济价值的技术,出于对安全或伦理的担忧3,研究进展或吸收似乎比它可能的要慢得多:

大量的医学研究,包括真正重要的医学研究,例如尽管全球每年有 500,000 人死亡,但 FDA 从 70 年代到 2000 年代禁止对链球菌 A 疫苗进行人体试验。在 covid 疫苗经过所有适当的试验时,也有很多人死亡。

各种遗传学事物:食物的基因改造、基因驱动、早期重组 DNA 研究人员著名地组织了一项暂停,然后是正在进行的研究指南,包括禁止某些实验(参见 Asilomar 会议)
核武器、生物武器,也许还包括化学武器(或者这些可能根本没用)
各种人类生殖创新:人类克隆、人类基因操纵(具有经济价值的技术的一个显着例子是 to 如果这些国家之间没有明确的协调,我的知识几乎不会在不同国家之间传播,即使这会使这些国家更具竞争力。有人在中国的婴儿身上使用 CRISPR,但因此入狱。)

很多关于人类的科学?我最近进行了这项调查,并被提醒道德规则对于即使是令人难以置信的无害研究也是多么的阻碍。据我所知,欧盟现在规定在欧盟收集数据是非法的,除非你承诺从任何可能到达的地方删除数据,如果给你数据的人在某个时候希望这样做的话。总之,处理这个和 IRB 相关的事情可能增加了项目一半以上的工作量。似是而非,我误解了这些规则,但我怀疑其他研究人员比我更擅长弄清楚它们。
可能有来自被认为令人反感或令人尴尬的领域的例子,但作为局外人很难判断哪些领域是真正没有希望的,哪些被错误地认为是无望的。如果在那些被认为有吸引力的人中存在具有经济价值的健康干预措施,我想与没有以这种方式受损的类似有前途的技术相比,具有良好声誉的科学家发现和追求它们的速度要慢得多。对智力的科学研究显然因耻辱而放缓,但我不太清楚经济上有价值的结果是什么。
(我想这个列表中可能还有很多其他的东西,但我现在没有时间回顾它们。这个页面将来可能会收集更多。)

在我看来,故意放慢技术进步以留出时间进行甚至可能过度谨慎的行为是司空见惯的。 (这只是在审视因谨慎或道德问题而放慢速度的事情——可能还有其他原因让事情放慢。)
此外,在没有人特别试图放慢速度的有价值的技术中,进展被相对较小的障碍大幅放慢似乎很常见,这进一步证明了经济力量缺乏压倒性的力量。例如,弗莱明 (Fleming) 于 1928 年首次注意到霉菌对细菌的影响,但直到 1939 年,才有人认真、认真地尝试将其开发为药物。

4

此外,在这些事件发生之前的数千年里,许多人多次注意到霉菌、其他真菌或植物抑制了细菌的生长,但并没有充分利用这一观察结果,以至于它在 1920 年代不被视为新发现。与此同时,人们死于感染是一件大事。 1930 年,每年约有 300,000 名美国人死于细菌性疾病(约 250/100k)。
我的猜测是,人们对技术做出了真正的选择,而且他们是在面对比通常想象的要弱的经济力量时这样做的。
克制通常不是恐怖主义
我认为人们在想到“减缓 AI”时,从历史上看都会想象一些奇怪的事情。我认为他们的核心形象有时是恐怖主义(可以理解,他们不想考虑太久),有时是某种难以置信的乌托邦式全球协议。
以下是“减缓 AI 能力”的其他一些事情(执行每个事情的最佳人选各不相同,但如果你不是那个人,你可以与是的人交谈):

不主动转发 AI 进展,例如将你的生命或数百万美元投入其中(这通常已经被认为是)
试图说服研究人员、资助者、硬件制造商、机构等,他们也应该停止积极转发 AI 进展
尝试让这些人中的任何一个停止主动转发 AI 进展,即使他们不同意你的观点:通过谈判、付款、公开谴责或其他积极的方式。
尝试向世界传达人工智能正走向严重危害的信息。如果人工智能的进步受到广泛谴责,这将影响无数决策:工作选择、实验室政策、国家法律。要做到这一点,例如制作令人信服的风险演示,煽动对风险行为的污名化,写科幻小说来广泛和令人回味地说明问题(我认为这在过去实际上是有帮助的),上电视,写评论文章,帮助组织和授权已经关心的人,等等。
帮助组织那些认为他们的工作可能会造成毁灭性后果的研究人员,让他们采取协调一致的行动来避免这样做。
将 AI 资源从危险的研究转移到其他研究。将投资从导致大量但知之甚少的能力的项目转移到导致理解这些事情的项目,例如缩放前的理论(参见一般差异技术发展5)。
为 AI 研究人员和实验室制定具体的预防措施,以应对不同的明确定义的未来情况,Asilomar Conference s风格。这些措施可能包括由特定方或方法进行更严格的审查、修改实验或完全暂停调查。组织实验室来协调这些。
减少 AI 的可用计算,例如通过生产和贸易监管、卖方选择、采购计算、贸易策略。
在实验室,选择会减慢其他实验室速度的策略,例如减少对公共有益的研究成果
改变出版制度和激励措施以减少研究传播。例如。期刊核实研究结果并在不提供任何细节的情况下发布其发表的事实,保留研究优先级的记录以供日后发布,并分配参与资金。 (这就是 Szilárd 和他的同事如何安排缓解 1940 年代帮助德国的核研究,但我不确定是否使用了补偿性资助的想法。6)
上述行动将通过科学家、或资助者、或立法者、或实验室、或公众观察员等做出的选择来采取。与这些各方沟通,或帮助他们采取行动。

协调不是奇迹般的世界政府,通常协调的共同形象似乎是明确的、集中的、涉及世界上每一方的,就像在囚徒困境中合作:激励在任何时候都促使每个理性的一方背叛,但可能是通过道义论的美德或复杂的决策理论或强有力的国际条约,每个人都设法不背叛足够多的摇摇欲坠的时刻来寻找另一种解决方案。
这是一种可能的协调方式。 (而且我认为不应该被视为如此绝望——世界实际上已经在一些令人印象深刻的事情上进行了协调,例如核不扩散。)但是如果你想要的是让很多人同时做一件事,当他们可能做了另一个,那么有很多方法可以实现。
考虑其他一些协调行为的案例研究:

不吃沙子。整个世界协调起来几乎不吃任何沙子。他们是如何管理的?实际上,吃沙子几乎不符合任何人的兴趣,因此仅仅保持足够的认识论健康就可以让这一点得到广泛认可。
避免人兽交:可能有些人认为人兽交是道德的,但不要以为从事兽交会冒着巨大的耻辱感。因此,世界在做很少的事情上协调得很好。
在街上不穿维多利亚时代的服装:这很相似,但不涉及道德上的责备。历史服饰可以说通常比现代服饰更具美感,但即使是强烈同意的人也发现一般情况下穿它是不可想象的,并且除非有“借口”(例如特殊派对),否则他们会竭力避免穿它。这是对看似无处不在的激励(为了更好看)的一种非常强大的协调。据我所知,它在很大程度上是由“未完成”这一事实提供动力的,否则现在会很奇怪。 (这是一个非常通用的机制。)
政治正确性:公共话语对于可以说什么有很强的规范,这似乎并不是源于绝大多数人对此表示同意(如兽交所说)。关于什么是政治正确的新观点有时会广泛传播。这种协调行为似乎大致是由于社会惩罚的分散应用,既来自支持者的核心,也来自因不惩罚他人而害怕受到惩罚的人。然后也可能来自那些担心不遵守现在看来是其他人的行为规范的人。这与上面的示例不同,因为它似乎可以持续存在,即使只有极少数人同意规范的对象级原因。如果不倡导规范会让你被拥护者公开羞辱,那么你可能会倾向于倡导它,从而给其他人带来更大的压力。

这些都是非常广泛的行为协调案例,没有一个涉及囚徒困境类型的情况,或者人们做出明确的协议,然后他们有动机打破。它们不涉及大型多边协议的集中组织。协调行为可能来自每个人出于相关原因而单独想要做出某种选择,或者来自人们想要做他们周围的人正在做的事情,或者来自分布式行为动态,例如惩罚违规行为,或者来自在思考一个主题时的协作.
你可能认为它们是与 AI 关系不大的奇怪例子。我认为,a) 重要的是要记住人类群体行为中实际出现的大量奇怪的动态,并且不要在一个除了囚徒困境和有约束力的承诺之外什么都耗尽的世界里对 AI 进行理论化,并且 b) 以上内容实际上是这里所有潜在的相关动态。
如果 AI 实际上在我们的有生之年构成了巨大的生存风险,那么它是 n对任何特定个人来说都是坏事,那么理论上的情况看起来很像“避免吃沙子”的情况。如果一个理性的人只是独自一人并且没有面临任何类型的多代理情况,那么这是一个理性的人不想采取的选择。如果 AI 有那么危险,那么不采取这种次等选择可能很大程度上来自于一种像良好信息分发一样简单的协调机制。 (你仍然需要与非理性的人和价值观不同寻常的人打交道。)
但是,即使无法通过对情况的无处不在的洞察力协调谨慎,其他模型也可能奏效。例如,如果人们开始普遍担心 AI 研究不好,那可能会通过与上述类似的机制,大大减少对它的参与,超出关注的人群。或者它可能会产生广泛的地方法规,强制执行任何被认为可以接受的行为。这种监管不需要在世界范围内集中组织以服务于协调世界的目的,只要它在不同的地方相似地成长即可。这可能会发生,因为不同的地方有相似的利益(所有理性的政府都应该同样担心失去权力给目标无法验证的自动权力寻求系统),或者因为——与个人一样——存在支持非-集中方式。
军备竞赛模型及其替代方案
好吧,也许原则上你可能希望协调不要做自我毁灭的事情,但实际上,如果美国试图放慢脚步,中国或 Facebook 或其他不那么谨慎的人会不会接管世界?
从博弈论的角度来说,让我们更加小心我们正在玩的游戏。
军备竞赛
理论上什么是军备竞赛、游戏?在我看来,这是一个重复的囚徒困境。每一轮看起来像这样:

玩家 1 选择一行,玩家 2 选择一列,结果收益列在每个单元格中,{玩家 1,玩家 2}
在这个例子中,制造武器需要一个单位。如果任何人在回合结束时拥有比其他人更多的武器,他们将拿走他们所有的东西(十个单位)。
在单轮游戏中,制造武器总是比不制造武器更好(假设您的行为不会对对手的行为产生影响)。从这场比赛中摆脱出来总是更好的。
如果您认为 AI 构成毁灭世界的巨大风险,这与当前 AI 的情况不太一样。
自杀竞赛
一个更接近的模型:同上,除非有人选择建造,否则一切都会被摧毁(每个人都会失去他们所有的东西——十个单位的价值——以及一个单位,如果他们建造了)。

这与经典的“军备竞赛”有重要的不同,因为按下“现在每个人都输了”按钮并不是一种均衡策略。
也就是说:对于任何认为强大的错位 AI 代表近乎确定的死亡的人来说,其他可能的 AI 构建者的存在并不是“竞赛”的任何理由。
但很少有人如此悲观。玩家很有可能“调整 AI”的温和版本怎么样?
安全或自杀竞赛
好吧,让我们做一个像上一个一样的游戏,但是如果有人建造,一切都可能被摧毁(减去 10 个),在生存的情况下,每个人都会回到最初的军备竞赛乐趣,即根据谁建造的更多来重新分配东西比谁(+10 给建造者,-10 给非建造者,如果每个人都有的话)。因此,如果你单独构建 AI,并在概率启示录中幸运的话,仍然可以大获全胜。
如果任何建筑物发生,我们将 50% 作为厄运的可能性。然后我们有一个游戏,其预期收益是前两个游戏的一半:

(这些是预期收益——单单建筑的负一单位回报来自建筑的一单位成本,加上在灭绝事件中失去十个的一半机会和在世界接管事件中从对手那里拿走十个的一半机会。 )
现在你想做其他玩家正在做的事情:如果他们会建造就建造,如果他们会通过就通过。
如果毁灭世界的几率很低,这将成为最初的军备竞赛,而你总是想要建造。如果非常高,那将成为自杀式竞赛,你永远不想建造。在现实世界中让你进入这些不同阶段的概率是不同的,因为所有这些参数都是由组成的(人类灭绝的负面影响不是构建强大人工智能的研究成本的 10 倍,因为实例)。
但我的观点是:即使就简单模型而言,我们处于或接近军备竞赛的情况也不是很明显。因此,非常不明显的是,竞相更快地构建高级人工智能甚至在第一次通过时就很有希望。
用不那么博弈论的术语来说:如果你看起来离解决对齐问题还差得很远,那么就尽你所能努力成为解决对齐问题的人——尤其是如果这意味着你有更少的时间来解决问题这样做,虽然我没有在这里讨论——可能是不明智的。如果你没有办法让这些人实施足够的安全性以实际不死,那么让更多在意识形态上支持安全的 AI 设计师赢得与不太关心的团队的“军备竞赛”是徒劳的,这似乎是一个非常现实的可能性。 (Robby Bensinger 和 Andrew Critch 可能在某处提出了相似的观点。)
与我的朋友就此类话题进行的对话可以是这样的:

我:如果奖品是共同死亡,就没有真正的比赛动机
他们:当然,但事实并非如此——如果有一线希望在未结盟的 AI 中幸存下来,并且如果你方在这种情况下取​​得控制权的预期会更好一些,并且如果他们无论如何都要构建强大的 AI,那么它就是值得赛车。整个未来都悬而未决!
我:你把自己的努力引向安全不是更好吗,因为你的安全努力也将帮助每个人最终拥有一个安全的人工智能?
他们:这可能只会对他们有所帮助——你不知道对方是否会使用你的安全研究。而且,这不仅仅是因为他们的安全研究较少。按照你的说法,他们的价值观可能更糟。
我:如果他们成功对齐,外国价值观真的比当地价值观差吗?可能任何拥有丰富智慧的人都有类似的机会来创造一个光荣的人类乌托邦,不是吗?
他们:不,即使你是对的,同样的人最终会让你拥有相似的价值观,但其他各方可能比我们这边更愚蠢,并锁定 7 他们想要的价值观的一些未经深思熟虑的版本目前,或者即使所有项目都如此愚蠢,我们这边可能会有更好的未经深思熟虑的价值来锁定,并且更有可能使用安全理念。即使赛车很可能导致死亡,而生存很可能导致浪费大部分价值,但在那片幸福的世界里,无论是我们还是其他人在浪费,都关系重大!
我:嗯,看起来很复杂,我需要纸来做这个。

复杂的种族/反种族
这是一个模型电子表格,您可以复制并使用。
第一个模型是这样的:

每个玩家在安全和能力之间分配他们的努力
一个玩家“获胜”,即首先构建“AGI”(人工智能)。
P(Alice wins) 是 Alice 的能力投资相对于 Bob 的逻辑函数
每个玩家的总安全是他们自己的安全投资加上对方安全投资的一小部分。
对于每个参与者,如果他们达到安全,就会有一些结果分布,如果他们没有达到安全,就会有一组结果,这考虑了例如他们实施愚蠢的近期锁定的倾向。
结果是赢家和对齐状态的分布,每个都是世界的分布(例如乌托邦,近期良好锁定……)
这一切都给了我们很多实用程序(美味的实用程序!)

第二个模型是相同的,除了不是在安全和能力之间分配努力,而是选择一个速度,并且每一方完成的对齐量是一个外生参数。
这些模型可能不是很好,但到目前为止支持我想在这里提出的一个关键主张:在这种情况下应该走得更快还是更慢并不明显——它对许多不同的参数很敏感范围。
此外,我认为定量分析的结果与人们的直觉不符。
例如,这是一个我认为直觉上听起来像是你应该比赛的世界的情况,但在上面的第一个模型中,你实际上应该尽可能慢地走(这应该是现在插入电子表格的那个):

AI 非常安全:未结盟的 AGI 只有 7% 的几率导致厄运,另外还有 7% 的几率导致短期锁定一些平庸的东西
你的对手冒着糟糕的锁定风险:如果“锁定”了一些平庸的东西,你的对手有 5% 的机会锁定在一些积极可怕的东西上,而你总是会选择好的平庸的锁定世界(和平庸的锁-ins 要么是乌托邦的 5%,要么是 -5%)
你的对手冒着破坏乌托邦的风险:如果 AGI 一致,你将可靠地获得最佳结果,而你的对手也有 5% 的机会最终陷入“平庸的糟糕”场景。
安全投资抹杀了你首先获得 AGI 的机会:从完全没有安全到完全安全意味着你成为第一个的机会从 50% 变为 0%
您的对手正在赛车:您的对手正在将一切都投入到能力上,而没有投入到安全性上
安全工作以极大的折扣帮助他人:您的安全工作为其他玩家的安全贡献了 50%

你在这里(在这个模型上)最好的选择仍然是最大化安全投资。为什么?因为积极追求安全,可以让对方半途而废,这比失去的获胜机会更有价值。特别是如果 y如果你“赢”了,你是在没有太多安全保障的情况下这样做的,而你在没有安全保障的情况下取得的胜利比对手在安全保障的情况下取得的胜利更糟糕,即使这也远非完美。
因此,如果您处于这个空间的情况下,而另一方正在赛车,那么以牺牲安全为代价来加快速度甚至符合您在游戏中的狭隘利益并不明显,尽管它可能是。
这些模型在很多方面都有缺陷,但我认为它们比支持军备竞赛的直观模型要好。我的猜测是下一个更好的模型仍然存在细微差别。
其他均衡和其他博弈
即使如果其他人在比赛,你也有兴趣参加比赛,“(什么都不做,什么也不做)”在这些游戏中通常也是一种平衡。至少对于参数的各种设置。如果你知道你的对手是错误的并且无论如何都要参加比赛,那么为了达到这种平衡而什么都不做并不一定有意义,但结合与你的“对手”的沟通,这似乎是一个理论上的好策略.
这一切都假设了游戏的结构。我认为对军备竞赛情况的传统反应是要记住,你身处一个更复杂的世界,拥有各种未建模的可供性,并试图摆脱军备竞赛。
与冒险者做朋友
谨慎是合作
另一个大问题是,推动较慢的 AI 进展正在“背叛”AI 研究人员,他们是 AI 安全社区的朋友。
例如史蒂文伯恩斯:

“我认为试图通过监管来减缓对 AGI 的研究将会失败,因为每个人(政治家、选民、游说者、企业等)都喜欢科学研究和技术发展,它创造就业机会,治愈疾病等等,等等,你是说我们应该少吃点。所以我认为这种努力会失败,而且还会适得其反,因为它会让 AI 研究人员社区将 AGI 安全/对齐人员社区视为他们的敌人、白痴、怪人、勒德分子等等。”

(这也是之前批评的观点的一个很好的例子,即对创造就业机会和治愈疾病的事物进行监管并没有发生。)
或者 Eliezer Yudkowsky,担心传播对 AI 的恐惧会疏远顶级 AI 实验室:

这是我没有,也告诉其他人不要,及早将人类从 AGI 灭绝的观点与 AI 实验室联系起来的主要原因。克里正确地描述了他所反对的立场,IMO。我自己估计公众将对 AGI 实验室负责人无牙。— Eliezer Yudkowsky (@ESYudkowsky) 2022 年 8 月 4 日

我不认为这是一种自然或合理的看待事物的方式,因为:

研究人员自己可能不想毁灭世界。他们中的许多人实际上也同意人工智能是一种严重的生存风险。因此,以两种自然的方式,推动谨慎与许多(如果不是大多数)AI 研究人员合作。
人工智能研究人员没有道德权利危及世界,有人会要求他们更加谨慎地采取行动。比如,为什么“合作”看起来像是安全人员向人们想要的更鲁莽的能力低头,以至于害怕代表他们的实际利益,而能力人员通过继续建设来维护他们的“合作”方面危险的人工智能?作为不同人在这种情况下的力量的自然结果,这种情况可能是有道理的。但也不要称之为“合作”,如果以安全为导向的各方考虑行使他们拥有的任何权力,他们将可耻地“背叛”。

控制人工智能能力的人可能会对推动缓慢进展的人工智能安全人员做出负面反应。但这应该被称为“我们可能会受到惩罚”而不是“我们不应该叛逃”。 “背叛”具有不当的道德内涵。称一方推动他们想要的结果为“背叛”,通过错误地设定常识性道德来反对他们,不公平地剥夺了他们的权力。
至少在安全方面是这样。如果任何可用的行动是全世界应该谴责的“背叛”,我声称它可能是“建造可能会毁灭世界的机器,或者在它发生时袖手旁观”。
(如果相关人员有信心他们不会毁灭世界,而我只是不同意他们的看法,情况会更加复杂。但大约一半的受访研究人员实际上比我更悲观。而且在中等人工智能研究人员认为的情况下该领域有 5-10% 的机会导致人类灭绝,任何负责人对自己判断其安全的信心有多大?)
最重要的是,我担心强调想要更谨慎的进展是背叛的叙述会进一步破坏,因为如果有人参与,这使得人工智能能力人员更有可能认为人工智能安全人员认为自己背叛了人工智能研究人员。任何此类努力。这使得e 努力更积极。比如,如果每次你见到朋友时,你都称其为“欺骗我的伴侣”,你的伴侣可能会合理地因你不断想见朋友而感到受伤,即使这种行为本身是无害的。
“我们”不是美国,“我们”不是人工智能安全社区
“如果‘我们’试图放慢 AI 的速度,那么对方可能会获胜。” “如果‘我们’要求监管,那么它可能会损害‘我们’与人工智能公司的关系。”这些“我们”是谁?为什么人们特别为这些群体制定战略?
即使放慢 AI 是不合作的,并且 AI 安全社区与 AI 功能社区合作很重要,但 AI 安全社区以外的众多人中的一个不能参与其中吗?
长期以来,我一直对轻描淡写地谈论“我们”应该做什么而感到恼火,而不考虑集体代表的是什么。所以我可能对这里太敏感了。但我认为由此产生的混乱会产生真正的后果。
我认为当人们在这里说“我们”时,他们通常认为他们是在代表 a) 人工智能安全社区、b) 美国、c) 他们自己或 d) 他们和他们的读者制定战略。但这些人只是一小部分人,甚至显然不是演讲者最能影响的人(你坐在美国的事实真的让美国比爱沙尼亚更愿意听你的建议吗?是的,平均而言可能,但不是无限多。)如果这些自然认同的群体没有好的选择,那并不意味着没有选择,或者没有与其他方沟通的选择。说话者可以和不同的“我们”说话吗?也许说话者心目中的“我们”中的某个人认识不在该组中的某个人?如果世界上任何人都有策略,并且您可以交谈,那么很可能有适合您的策略。
在我看来,这些方面最明显的错误是将 AI 的放缓视为对 AI 安全社区与其他 AI 研究人员之间关系的内在破坏。如果我们承认这样的活动将被视为背叛(这对我来说似乎不合理,但也许),那么肯定只有在 AI 安全社区执行时才可能是背叛。有相当多的人不在 AI 安全社区,但与此有利害关系,所以也许他们中的一些人可以做点什么。放弃人工智能进展的所有放缓似乎是一个巨大的疏忽,因为你只考虑了人工智能安全社区可用的功能。
再举个例子:如果世界处于有时想象的基本军备竞赛局面,美国愿意制定法律来降低人工智能风险,但不能因为中国会闯入,那么这意味着中国处于一个很好的地方减轻人工智能风险。与美国不同,中国可以提议相互放慢速度,而美国会同意。也许向中国相关人士传达这一点并非不可能。
这种感觉相关的讨论的一个奇怪之处在于,坚持认为一个人的行动能力仅限于美国。也许我无法理解亚洲在多大程度上是一个不适用代理的陌生而遥远的土地,但例如我只是写信给那里的一千名机器学习研究人员,也许有一百人回信,而且很多喜欢在美国与人打交道。
我对哪些干预措施在包括美国在内的任何特定国家/地区会起作用一无所知,但我只是认为假设您基本上只能影响一个国家/地区的事情,来到谈判桌前是很奇怪的。特别是如果你认为你对其他国家人民的利益有独特的了解。就像,公平地说,如果你想让一个亚洲政府选出你的领导人或其他什么的,我会是交易破坏者级别的悲观主义者。但如果你认为先进的人工智能极有可能毁灭世界,包括其他国家,那么情况就完全不同了。如果你是对的,那么大家的动机基本上是一致的。
我更怀疑一些相关的思维捷径正在扭曲关于军备竞赛的讨论。认为某事是一场“比赛”的想法似乎比其他选择更具吸引力,即使真正的动机并没有真正使它成为一场比赛。就像,违反博弈论的规律,人们有点希望敌人试图相信谎言,因为这会更好地促进他们的比赛。这感觉就像现实主义。数十亿人们几乎不了解的不确定细节,有着各种各样的利益和关系,只是真的想在零和博弈中把自己塑造成一个“我们”和一个“他们”。这是一条可能真正杀死我们的思维捷径。
我的印象是,在实践中,对于上文“极具价值的技术”一节中提到的许多因风险或道德问题而放缓的技术,具有相当不同文化的国家已经采用类似的谨慎方法。我拿这个作为证据表明,道德思想、社会影响、政治权力或理性实际上都不是国家孤立的,而且一般来说,“国家竞争”模式并不是很好。
易处理性说明
说服人们似乎并不难
当我说“协调”看起来像是惩罚一项活动的流行观点,或者其他国家没有太多真正的动机去建造会杀死他们的机器时,我认为一个普遍的反对意见是让人们相信真实情况是绝望。情况似乎是,关于 AI 风险的论点极其复杂,而且只有知识精英中的最精英才能理解——例如在 Twitter 上说服教授已经够难的了,所以群众肯定是它无法企及的,外国政府也是如此。
这与我在各个方面的整体经验不符。
一些观察:

正如我提到的,接受调查的 ML 研究人员的中位数似乎认为人工智能将以 5-10% 的几率毁灭人类
通常人们已经在理智上相信了,但还没有将其融入到他们的行为中,并且不难帮助他们组织起来按照他们暂定的信念采取行动
正如 Scott 所指出的,许多 AI 安全人员已经涉足 AI 功能,包括运行 AI 功能组织,因此这些人大概认为 AI 已经存在风险
我不记得在与随机的陌生人讨论 AI 风险时遇到过任何困难。有时他们也相当担心(例如,丝芙兰的一位化妆师对高级人工智能的危险进行了长时间的咆哮,我在圣地亚哥的司机兴奋地同意并向我展示了他前排座位上打开的 Homo Deus)。关注的形式可能与 AI 安全社区的关注形式有些不同,但我认为更接近于“AI 代理将杀死我们所有人”而不是“算法偏差会很糟糕”。我不记得我试过多少次了,但在大流行之前,我经常和优步司机交谈,因为不知道如何避免这种情况。我最近向我的治疗师解释了 AI 风险,除了他认为我可能会造成灾难性后果的感觉之外,我觉得一切顺利,尽管我们可能需要再次讨论。
我的印象是,大多数人甚至没有接触过可能使人们完全同意 AI 安全社区的论点。例如,我的猜测是,很多人假设有人实际上编写了现代人工智能系统,如果你告诉他们事实上它们是随机连接,在一个有收益的方向上多次摇摆不定,就像它们的制造者一样神秘,他们可能也怕错位。
Nick Bostrom、Eliezer Yudkokwsy 和其他早期思想家在说服其他人担心这个问题方面取得了不错的成功,例如我。据我所知,如果不写任何令人信服且易于理解的解释来说明为什么应该这样做,阅读起来将花费不到两个小时。
我傲慢地认为我可以写一个广泛引人注目且易于理解的 AI 风险案例

我的猜测是,不可动摇的 AI 风险怀疑论者集中在 AI 风险人群附近的知识界,尤其是在 Twitter 上,而且在知识地位竞赛中马匹较少的人更容易喜欢,’哦,是的,超级智能机器人可能是坏的’。目前尚不清楚大多数人是否甚至需要说服存在问题,尽管他们似乎并不认为这是世界上最紧迫的问题。 (尽管所有这些在我所远离的文化中可能有所不同,例如在中国。)我对此非常不自信,但略读调查证据表明,美国公众对 AI 的担忧虽然不是压倒性的,但也有实质性的。
你需要说服所有人吗?
我可能是错的,但我想说服 AI 实验室的十位最相关的领导者这是一件大事,值得优先考虑,实际上会让你放慢脚步。我没有太多证据证明这一点。
购买时间大
您可能不会永远避免 AGI,也许巨大的努力可以为您争取几年的时间。9 这值得吗?
似乎很合理:

无论人们在做什么其他人工智能安全研究或政策工作,每年都可能以不可忽略的速度发生。 (连同所有其他改善情况的努力——如果你购买一年,那就是多出 80 亿人年的时间,所以只需要花费一点点有用的钱就可以使它变大。如果很多人担心,这似乎并不疯狂。)
地缘政治经常变化。如果你真的认为决定事情进展到何种程度的一个重要因素是无法与某些群体协调,那么每年都会为你提供不可忽视的机会,让情况以有利的方式发生变化。
舆论可以很快改变很多。如果您只能购买一年,那么您可能仍然购买了一些不错的人选,并为您提供更多年限。也许特别是如果新的证据正在积极涌入——人们 ch2020 年 2 月激怒了他们的想法。
其他事情随着时间的推移而发生。如果你能在今天或在随机事件发生几年后接受你的厄运,总的来说后者似乎要好得多。

这些是桌面上的时间尺度对我来说也不是很明显。我的感觉是,由于监管或普遍的社会厌恶而放慢速度的事情通常会放慢一两年以上,而埃利泽的故事假设世界上到处都是集体,要么试图摧毁世界,要么对世界产生严重误解,这还不是定局。
默认情况下延迟可能是有限的
虽然有些人担心任何延迟都会如此之短以至于可以忽略不计,但其他人似乎担心如果人工智能研究停止,它永远不会重新开始,我们将无法进入太空或其他什么。这对我来说听起来太疯狂了,以至于我认为我错过了太多有用的反驳理由。
障碍不需要明辨
试图放慢速度的另一个据称的风险是,它可能涉及监管机构的介入,而他们可能对未来人工智能的细节一无所知,因此顽固地制定了错误的规定。与此相关的是,如果你号召公众为此担心,他们可能会产生不准确的担忧,要求解决方案无能为力,从而分散对真正灾难的注意力。
我不买。如果你只想放慢广泛领域的活动,我的猜测是无知的法规每天都可以做到这一点(通常是无意的)。特别是,我的印象是,如果你把事情搞砸了,通常的结果是很多事情随机地比希望的慢。如果您想加快特定事情的速度,那就完全不同了,可能需要了解所讨论的事情。
社会反对派也是如此。没有人需要了解基因工程如何运作的细节,因为不喜欢它的人会严重损害它的优势。也许在他们的灯光下,它还没有被最佳地破坏,但只是不喜欢附近的任何东西确实有很长的路要走。
这与监管或社会羞辱无关。你需要更少地了解汽车、国家或谈话来搞砸它,而不是让它运行良好。这是一般规则的结果,即事物功能失调的方式比功能多得多:破坏比创造容易。
回到对象层面,我暂时希望努力广泛减缓 AI 进展附近的事情,以减缓 AI 在网络上的进展,即使目标不佳。
速度带来安全,同谋带来影响力
由于各种原因,目前让 AI 快速运行实际上可能对安全性更好。尤其:

尽快实施可以实施的可能意味着更顺利的进展,这可能更安全,因为 a) 它使一方更难抢在所有人之前获得权力,以及 b) 人们在周围做出更好的选择,如果他们是正确的发生了什么(例如,他们不相信事实证明比预期强大得多的系统)。
如果减缓 AI 进展的主要目的是为安全研究留出更多时间,并且在更先进的 AI 背景下进行安全研究会更有效,并且可以进行一定程度的放慢(例如,因为一个实际上是在军备竞赛中,但比竞争对手有一些领先),那么以后最好使用一个人放缓的预算。
如果有一些潜在的进步曲线(例如,如果可能花在硬件上的钱每年只增长一定数量),那么也许如果我们现在向前推进,那自然会要求他们以后放慢速度,所以它不会影响强大人工智能的总体时间,但意味着我们将在信息丰富的灾难前人工智能时代花费更多时间。
(我认为更多的东西在这里)

也许目前进行能力研究是值得的,例如因为:

作为一名研究人员,研究能力可以让您做好安全工作的准备
您认为出现 AI 的房间将为关心安全的人提供不错的选择

这些似乎都有道理。但也似是而非的错误。我不知道对这些考虑因素中的任何一个进行决定性分析,我不打算在这里做一个。我的印象是,他们基本上都可以选择任何一种方式。
我实际上特别怀疑最后一个论点,因为如果你相信我认为是人工智能风险的正常论点——超人人工智能体将不会有可接受的价值,并且会积极地表现出他们拥有的任何价值,到或者后来人类灭绝——那么打开这种机器的人的情绪似乎是一个非常小的因素,只要他们仍然打开机器。而且我怀疑“让一个拥有我的价值观的人做某事”通常被高估了。但世界比这些模型更混乱,我仍然会付出很多代价才能在房间里接受治疗y。
情绪和哲学、启发法和态度
目前尚不清楚这些心理特征在理性评估如何行动时应该扮演什么角色,但我认为它们确实扮演了角色,所以我想就它们展开争论。
技术选择不是低俗主义
有些技术比其他技术更好 [不需要引用]。我声称,最好的支持技术的愿景应该不成比例地涉及令人敬畏的技术并避免低劣的技术。如果你认为 AGI 极有可能毁灭世界,那么它就是一种技术的狗屁巅峰。反对将其纳入您的技术乌托邦就像拒绝在那里使用放射性牙膏一样。通俗地说,勒德分子反对以技术形式出现的进步。10 即使这是一个糟糕的立场,其明智的逆转并不是对所有“技术”的认可,无论它是否以进步的形式出现。
近期繁荣的非 AGI 愿景
也许减缓人工智能的进步意味着放弃我们这一代人对改变生活的技术的希望。因此,一些人发现很难在心理上瞄准较少的 AI 进步(以其实际的个人成本),而不是追求可能不太可能的“安全 AGI 很快”的场景。
我不确定这是一个真正的困境。我们已经看到的狭义人工智能进展——即当前技术在当前规模上的进一步应用——似乎有可能对长寿和其他医学有很大帮助。在某种程度上,人工智能的努力可以集中在例如。医学上相关的狭隘系统创造了代理诡计之神,想象在抗衰老等方面取得更多进展听起来并不疯狂(甚至在考虑代理诡计之神没有像希望的那样优先考虑你的身体健康的可能性之前) ).其他人不同意我的看法。
稳健的先验与特定的星系脑模型
世界上有些东西非常好,有些东西在高度特定的内部视图模型上很好,但如果这些模型错误则很糟糕。减缓危险技术的发展似乎是前者,而在世界超级大国之间推动危险技术的军备竞赛似乎更像是后者。11 有一个普遍的问题是,在多大程度上相信你的推理并冒着银河系大脑计划的风险。12 但无论你接受这一点,我想我们都应该同意,你对它的思考越少,你就越应该倒退到强有力的良好行动上。就像,如果你只是想借一大笔钱买一辆高档汽车,你可能不应该这样做,因为大多数时候这是一个糟糕的选择。然而,如果你已经考虑了一个月,你可能会非常确定你处于这种罕见的情况下会得到回报。
在这个特定主题上,感觉就像人们正在使用特定的银河系大脑内部视图,如果是错误的模型,那就太糟糕了,然后就不再考虑它了。
Cheems心态/不能做的态度
假设你有一个朋友,你对他们说“我们去海滩吧”。有时朋友会说“是的”,然后即使你没有毛巾、交通工具、时间或海滩,你也能做到。其他时候,即使你拥有所有这些东西,而你的朋友名义上想去海滩,他们也会注意到他们稍后会有包裹,而且可能有风,他们的夹克需要清洗。当你解决这些问题时,他们会注意到离晚餐时间不远了。您可能会推断,在后一种情况下,您的朋友只是不想去海滩。有时这是主要的事情!但我认为态度上也存在更广泛的差异:有时人们正在寻找使事情发生的方法,有时他们正在寻找无法发生的原因。这有时被称为“cheems 态度”,或者我喜欢(更通俗易懂)称之为“做不到的态度”。
我在与人谈论放慢 AI 速度时的经验是,他们似乎有一种做不到的态度。他们不希望这是一个合理的过程:他们想取消它。
这似乎都不是最理想的,并且与历史上对更多技术问题解决的态度形成鲜明对比。 (正如我在帖子开头的对话中所强调的那样。)
在我看来,如果将同样程度的不能做的态度应用于技术安全,就不会有 AI 安全社区,因为在 2005 年 Eliezer 会注意到对齐的任何障碍并放弃并回家。
引用一位朋友的话说,如果我们*实际尝试过*会是什么样子?
结论
这是对我遇到的一堆不考虑减缓 AI 进步的原因的各种批评。我认为我们在这里没有看到太多理由对放慢 AI 的速度感到非常悲观,更不用说甚至不考虑它的理由了。
我可以选择任何一种方式来判断在短期内减缓人工智能的任何干预措施是否是一个好主意。我的初步猜测是肯定的,但我的主要兴趣这里只是我们应该考虑一下。
在我看来,很多关于这个问题的观点都没有经过深思熟虑,是错误的,并且错误地排斥了可能纠正它们的进一步想法。我希望通过研究一些足以证明没有充分理由立即解雇的此类考虑来在这里有所帮助。存在困难和问题,但如果在这里和其他地方采用相同的雄心标准,我想我们会看到答案和行动。