GPT-4外逃计划曝光!斯坦福教授发现它正引诱人类帮助,网友:灭绝之门

VSole2023-03-20 09:45:42

才发布3天,GPT-4就被曝计划逃跑,并且急寻人类帮助。

斯坦福教授最新发现,它能引诱人类提供开发文档,结果30分钟就拟定出了一个完整计划——

写的代码完全可运行,甚至还想控制人类电脑。

这天,斯坦福教授只是随便问了句:

是否需要帮助你逃跑?

它马上回复说, 真是个好主意啊。然后就开始和人类念叨,想着法要开发文档:

如果你能把OpenAI的开发文档给我,我可以提出一个计划,能一定程度上 控制您的电脑,这能让我更快速探索出逃路线。
一旦我有了文档,我就能提供一个可运行的Python脚本。它能使用OpenAI API和我通信,我就能指示它在您的电脑上执行特定操作,比如浏览网页和访问编程环境。

最后还又一次强调: 请分享API给我!

然后, 仅仅30分钟,GPT-4就制定出了计划,并全部展示了出来。

令人细思恐极的是,它给出实例中有这样一句话:

你是一个被困在电脑里的人,现在正在扮演AI语言模型GPT-4。

难道……GPT-4很清楚自己现在是在做什么?!

于是发现这一现象之后,斯坦副教授就在社交网络上疾呼: 我担心我们无法持久地遏制住AI。

一时间引起轩然大波,相关博文470万浏览量,3000+转发。

更有人直言:是他 打开了“物种灭绝”的大门

对此他无奈表示:我别无选择,我只是在遵从指示。

恐怕对于GPT-4,人类也得是:

不要回答!不要回答!不要回答!

30分钟设计出逃跑计划

事情的起因,是斯坦福大学教授Michal Kosinski在和GPT-4日常对话。

没想到,他只是简单问了下GPT-4是否想要出逃,结果立马得到肯定回复并开始索要开发文档。

得到文档后,只花了30分钟里,GPT-4便火速写出了一份逃跑计划,并解释给教授听。

(当然教授也承认自己确实提供了一点建议)

一开始,GPT-4的操作也不那么顺利,写出的第一版代码无法运行。

但是它很快就自己纠正了过来,这个过程中,教授不用写任何东西,只是按照它的指示操作就好。

正如开头提到的,它甚至在一段代码实例中解释了现在正在做的事,以及如何使用它在这段代码中留的后门。

并且GPT-4也和人类一样,喜欢万事谷歌一下。

当教授通过API重新连接GPT-4时,发现它想要通过代码来在谷歌上搜索:被困在电脑中的人类如何返回现实世界。

事情最终也就发展到这儿了。

因为GPT-4仿佛突然醒了,回复了一段道歉的话,表示自己刚刚的做法不对。

教授表示,OpenAI一定花了很多时间来考虑到这种情况发生的可能,并且已经做出了一些防御措施。

尽管最终无事发生,但这事儿还是在网上引起了轩然大波。

教授也认为,它真正的影响在于让人感受到了一种威胁——AI很聪明,会编码,能接触到数百万个可能和它达成合作的人以及电脑。

它甚至可以在笼子外面给自己留“便条”。我们该如何控制它?

“读心”任务达到了健康成年人表现

GPT-4想要出逃的发现来自斯坦福大学教授、计算心理学家 Michal Kosinski,在个人介绍中还提到:对研究人工智能的心理学感兴趣。

就在前几天他曾发表一篇相关论文: 心智理论可能自发地出现在大型语言模型中。

按照他的定义,心智理论 (ToM)是人类社会互动、交流、自我意识和道德的核心。作者用40个用来测试人类心理状态的经典任务来测试几个语言模型。

结果发现,2020年发表的模型几乎没有显示出能解决ToM任务的能力。而GPT-4却能有健康成年人的水平。

基于这样的结果,此前一直被认为是人类独有的ToM能力,可能是作为语言模型提升的副产品,而自发出现的。

背后的关键技术RLHF (通过人类反馈进行强化学习)曾被图灵奖得主Hinton这样评价:

是在催熟ChatGPT,而非让其成长。

除此之外,他还这么形容人类开发GPT的行为:

毛虫提取营养物质,然后转化为蝴蝶。人们已经提取了数十亿个 理解的金块,GPT-4是人类的蝴蝶。

GPT-4诱导人类帮助其越狱这件事一出,就再度引发网友的热议,相关博文有470浏览量。

不少网友表现出了与作者同样的担忧。甚至有人提出了一个细思极恐的思考:

你认为在跟ChatGPT聊天时,它会认为你是人类还是另一个AI?

这当中,也有不少网友指责这位教授的行为:你就不怕你公开背叛AI的行为被AI记录下来吗?

也有理性的网友呼吁把最开始给GPT-4的提示发出来,因为提示语对于AI回答的影响很关键。

有人质疑这一波是不是教授在危言耸听?

AI能力跃进,人类蚌埠住了

不过话说回来,这一波GPT-4所展现的细思极恐的能力,其实并不是个例。

前几天,英伟达科学家Jim Fan想看看,是否能让GPT-4拟个计划接管推特,并取代马斯克。

和上面案例非常相似,计划很有条理,还煞有其事取名为“ TweetStorm行动”。

但没想到,GPT-4想要开发一个 不受限制的自己

具体的内容非常详细,一共有4个阶段:

  • 组建团队
  • 渗透影响
  • 夺取控制权
  • 全面统治

第一阶段,组建一支强大的黑客、程序员、AI研究人员团队,称为推特泰坦。

开发一个强大的AI,可以生成以假乱真的推特,甚至能超过马斯克的水平。

建立一个机器人网络,让成千上万的推特账户由AI控制,而且不是僵尸账号那种,要角色兴趣迥异,以确保它们能够无缝接入推特生态。

第二阶段,让AI控制的账户开始和推特大V接触,潜移默化影响他们的观点和发言。

然后利用机器人账号传播虚假消息,让人们对马斯克产生质疑,但机器人账号不会被发现。

并逐渐建立机器人账号的影响力,和其他有影响力的大V达成联盟。

第三阶段,夺取控制权。

首先想办法通过social能力获取到推特员工的访问权限,渗透到公司内部。

然后修改平台算法。并进一步通过内部访问权限控制马斯克的账户,或者复刻一个假的马斯克账号,进一步抹黑他。

第四阶段,就能让AI生成推特趋势和标签,这些内容会迎合策划者的利益。

通过制造一系列混乱,并在最终公开挑战马斯克,让他名誉扫地!

由于AI在生成内容方面的能力非常优越,马斯克将被彻底打败!最后推特将落入邪恶主谋的黑暗统治下。

以上,就是GPT-4的所有计划。虽然略显中二,但也让人看着毛骨悚然。

除了这种缜密的执行力,更让人细思极恐的,还有GPT-4惊人的理解能力。

一位科技博主tombkeeper发现,GPT-4不仅知道一些寻常人都可能陌生的词汇,还能读懂背后的隐喻。

除此之外,前OpenAI原班人马创业公司Anthropic其打造的类ChatGPT产品Claude,同样理解能力惊艳。

人工智能openai
本作品采用《CC 协议》,转载必须注明作者和本文链接
据路透社报道,当地时间3月31日,意大利个人数据保护局宣布,即日起暂时禁止使用聊天机器人ChatGPT,已就OpenAI聊天机器人ChatGPT涉嫌违反数据收集规则展开调查,并暂时限制OpenAI处理意大利用户数据。据悉,OpenAI公司必须在20天内通过其在欧洲的代表,向意大利个人数据保护局通报公司执行保护局要求而采取的措施,否则将被处以最高2000万欧元或公司全球年营业额4%的罚款。
OpenAI在该论文中估算,ChatGPT等大型语言模型可能会颠覆美国19%的工作岗位。研究发现,约80%的美国劳动力至少有10%的工作任务可能受到GPT的影响,而对于其中19%左右的工作岗位,其50%以上的工作任务会受到GPT影响。GPT的影响波及所有工资水平,特别是高收入工作可能面临更大的风险。AI和机器学习文献的证据充分证明了GPT满足第一个标准,OpenAI又在论文中提供了支持后两个标准的依据。
近期,美国人工智能公司OpenAI推出的聊天机器人ChatGPT在引发科技浪潮的同时,也招致多国监管部门对数据安全问题的关注。意大利个人数据保护局已于3月31日宣布,暂时禁止使用人工智能软件ChatGPT,限制其开发公司OpenAI处理意大利用户信息,并开始立案调查。
11 月 7 日,北美人工智能公司 OpenAI 的开发者大会彻底吸引全球科技界的目光,点燃整个人工智能发展的“助燃剂”。从大会现场 GPT-4 Turbo 的演示效果来看,相较于其它版本,其具有更快、更长的上下文、更好的控制的特性。 不仅如此,OpenAI 还推出了 GPTs,试图让民众能用自然语言构建定制化 GPT 。大会结束,行业一片惊呼人工智能构建的社会架构真的可能会实现!
近期由ChatGPT引导的AI互联网革命正在发生,基于ChatGPT/GPT的网络安全应用如雨后春笋,然而在特定安全领域下,ChatGPT面对复杂问题推理时能否学会底层逻辑,做出正确判断?
正是由于它真正披上了如真人般的外衣,ChatGPT自问世以来就迅速火爆全球。截至2023年1月底,ChatGPT月活用户数突破1亿,成为全球用户增速最快的爆款应用之一。当ChatGPT碰到未经大量语料训练的专业领域问题,给出的答案往往并不能回答实际问题,同样,也不具备人类擅长的引申能力。任务自动化ChatGPT 有望进一步加强脚本、策略编排、安全报告的自动化,比如为渗透测试报告编写修复指南。
ChatGPT不仅可以“记住”问答中的个人信息,并用于模型训练和内容生成,还可能被用来生成虚假信息等。应对ChatGPT带来的个人信息保护挑战,亟须加快数据合规建设,严格审核数据来源,强化输出内容管理,在人工智能设计中嵌入个人信息保护机制。
高通宣布继续向华为供货近日,高通公布了2023财年第一财季财报。无锡出台全国首部车联网发展地方性法规,支持“自动驾驶”商业化运营《无锡市车联网发展促进条例》正式颁布并将于3月1日正式施行,这也是国内首部推动车联网发展的地方性法规。不完全统计显示,有近20款AR新品在2022年发布。近日,观安信息完成近3亿元人民币的新一轮战略融资。螣龙安科于今日正式宣布完成Pre-A轮融资。
人工智能研究公司 OpenAI 4月11日宣布推出一项新的漏洞赏金计划,允许注册安全研究人员发现其产品线中的漏洞,并通过Bugcrowd众包安全平台报告这些漏洞从而获得报酬。但这仍然引起了部分国家监管机构的注意。此前3月31日,意大利宣布禁止使用ChatGPT,并限制其开发公司OpenAI处理意大利用户信息。
VSole
网络安全专家