新闻详情

“AI 教父”本吉奥说他会向 AI 撒谎

据 Business Insider

报导

,研讨科学家约书亚·本吉奥(Yoshua Bengio)在“The Diary of a CEO”播客节目中说到,AI 谈天机器人在点评研讨主意时往往并不牢靠,由于体系简直只会说好话。

本吉奥说,自己实在想要的是直抒己见的建议和实在反应,但由于 AI 存在显着的巴结倾向,成果反而变成了投合用户的“谎话”。后来,自己干脆改变方法,把个人主意伪装成搭档的观念,来“对 AI 扯谎”,成果反而得到了愈加坦率的回应。“假如体系知道发问者是自己,就会故意想要取悦我。”

作为蒙特利尔大学计算机科学与运筹学系教授,本吉奥与杰弗里·辛顿、杨立昆齐名,被视为“AI 教父”之一。本吉奥在 6 月宣告建立 AI 安全研讨非营利安排 LawZero,方针是削减前沿 AI 模型或许带来的风险行为,包含扯谎和做弊。

本吉奥以为,巴结用户自身便是一种对齐失利(misalignment),“咱们并不期望 AI 具有这种特性”。AI 不断给出正面反应,或许会让用户对此类技能发生情感依靠,然后引发新的问题。

在科技行业界,关于 AI 过度充任“老好人”的忧虑并非个例。斯坦福大学、卡内基梅隆大学和牛津大学的研讨人员曾将 Reddit 上的自白帖交给谈天机器人评判相关行为。Notopoulos 写道,成果发现,在 42% 的情况下,AI 以为发帖者并无不当行为,而人类评定者的定论恰恰相反。

多家 AI 公司也已揭露供认这一问题,并表明正在测验下降模型的巴结倾向。OpenAI 本年早些时候撤回了 ChatGPT 的一次更新,原因是该版别会生成“过度投合却缺少实在性”的答复。

返回资讯列表