“AI 教父”本吉奥说他会向 AI 撒谎

发布时间：2025-12-17 06:46:50

据 Business Insider

报导

，研讨科学家约书亚·本吉奥（Yoshua Bengio）在“The Diary of a CEO”播客节目中说到，AI 谈天机器人在点评研讨主意时往往并不牢靠，由于体系简直只会说好话。

本吉奥说，自己实在想要的是直抒己见的建议和实在反应，但由于 AI 存在显着的巴结倾向，成果反而变成了投合用户的“谎话”。后来，自己干脆改变方法，把个人主意伪装成搭档的观念，来“对 AI 扯谎”，成果反而得到了愈加坦率的回应。“假如体系知道发问者是自己，就会故意想要取悦我。”

作为蒙特利尔大学计算机科学与运筹学系教授，本吉奥与杰弗里·辛顿、杨立昆齐名，被视为“AI 教父”之一。本吉奥在 6 月宣告建立 AI 安全研讨非营利安排 LawZero，方针是削减前沿 AI 模型或许带来的风险行为，包含扯谎和做弊。

本吉奥以为，巴结用户自身便是一种对齐失利（misalignment），“咱们并不期望 AI 具有这种特性”。AI 不断给出正面反应，或许会让用户对此类技能发生情感依靠，然后引发新的问题。

在科技行业界，关于 AI 过度充任“老好人”的忧虑并非个例。斯坦福大学、卡内基梅隆大学和牛津大学的研讨人员曾将 Reddit 上的自白帖交给谈天机器人评判相关行为。Notopoulos 写道，成果发现，在 42% 的情况下，AI 以为发帖者并无不当行为，而人类评定者的定论恰恰相反。

多家 AI 公司也已揭露供认这一问题，并表明正在测验下降模型的巴结倾向。OpenAI 本年早些时候撤回了 ChatGPT 的一次更新，原因是该版别会生成“过度投合却缺少实在性”的答复。

新闻详情