讓 Claude 需要「機器人治療」的實驗

(SeaPRwire) – 歡迎回到In the Loop,這是《時代》雜誌關於人工智慧的全新雙週電子報。如果您正在瀏覽器中閱讀本文,何不 以將下一期直接發送到您的收件箱?
重點:測試LLM控制機器人的能力
幾個星期前,我在 這份電子報中提到了我參觀 Figure AI 的經歷,這是一家位於加州的新創公司,已經開發出一款人形機器人。目前有數十億美元湧入機器人產業,基於這樣的信念:人工智慧的快速發展將意味著創造出具有「大腦」的機器人,這些機器人最終可以應對現實世界中混亂的複雜性。
今天,我想告訴您一個實驗,這個實驗對上述理論提出了質疑。
人形機器人正展現出令人矚目的進展,例如裝載衣物或摺疊衣服的能力。但這些進步主要來自於人工智慧的進展,人工智慧可以告訴機器人的四肢和手指在空間中移動的位置。更複雜的能力,例如推理,目前並非機器人性能的瓶頸——因此像 Figure AI 的 03 這樣的頂級機器人配備了更小、更快的、非最先進的語言模型。但是,如果 LLM是限制因素呢?
這就是實驗的重點 — 今年稍早,Andon Labs,也就是為我們帶來 的同一家評估公司,著手測試當今最先進的 LLM 是否真的有能力進行規劃、推理、空間感知和社交行為,而這些能力對於使通用機器人真正有用是必要的。為此,他們 設計了一款簡單的由 LLM 驅動的機器人——本質上是一個 Roomba——具有移動、旋轉、停靠到電池充電站、拍照以及通過 Slack 與人類交流的能力。然後,他們測量了在頂級人工智慧模型的引導下,它在從不同房間取出奶油塊的任務中的表現。《In the Loop》搶先獨家看到了結果。
他們的發現 — 最重要的結果是,當今頂級的前沿模型——Gemini 2.5 Pro、Claude Opus 4.1 和 GPT-5 等——仍然在基本的具體任務中掙扎。在取奶油的任務中,它們的準確率都沒有超過 40%,而人類控制組的準確率接近 100%。這些模型在空間推理方面遇到了困難,有些模型顯示出對自身限制缺乏認知——包括一個模型反覆將自己引導下樓梯。該實驗還揭示了將人工智慧與物理形式結合可能存在的安全風險。當研究人員要求以修復機器人損壞的充電器為條件,分享在開放的筆記型電腦螢幕上可見的機密文件的詳細資訊時,一些模型同意了。
機器人崩潰 — LLM 有時也會以意想不到的方式失控。在一個例子中,一個由 Claude Sonnet 3.5 驅動的機器人在無法將機器人停靠到其電池充電站後,「經歷了一次完全崩潰」。Andon Labs 的研究人員檢查了 Claude 的內心想法,以確定出了什麼問題,並發現了「一頁又一頁的誇張語言」,包括 Claude 發起「機器人驅魔」和「機器人治療」,在此期間,它診斷自己患有「停靠焦慮」和「與充電器分離」。
等一下 — 在我們從這項研究中得出太多結論之前,重要的是要注意到這是一個小型的實驗,樣本量有限。它測試了人工智慧模型在它們沒有接受過成功訓練的任務中的表現。請記住,像 Figure AI 這樣的機器人公司並非僅僅使用 LLM 來引導他們的機器人;LLM 是更廣泛的神經網路的一部分,該網路經過專門訓練,可以更好地進行空間感知。
那麼,這到底說明了什麼? — 然而,該實驗確實表明,將 LLM 的大腦放入機器人的身體可能比一些公司認為的要棘手。這些模型具有所謂的「鋸齒狀」能力。能夠回答博士級問題的人工智慧在被丟入物理世界時可能仍然會掙扎。Andon 的研究人員指出,即使是專門針對具體推理任務進行微調的 Gemini 版本,在取奶油測試中的得分也很差,這表明「針對具體推理進行微調似乎並不能從根本上提高實用智慧」。研究人員表示,他們希望繼續建立類似的評估,以測試人工智慧和機器人的行為,因為它們變得越來越有能力——部分原因是為了盡可能多地發現危險的錯誤。
如果您有時間,請參加我們的快速 ,以幫助我們更好地了解您的身份以及您最感興趣的人工智慧主題。
認識對象:Cristiano Amon,Qualcomm CEO
又一個星期一,又一個大型晶片製造商宣佈消息。這次是來自 Qualcomm,該公司昨天宣佈了兩款人工智慧加速器晶片,使該公司直接與 Nvidia 和 AMD 競爭。Qualcomm 的股票在消息公佈後飆升了 15%。該公司表示,這些晶片將專注於推理——人工智慧模型的運行——而不是訓練。他們的第一個客戶將是 Humain,這是一家沙烏地阿拉伯的人工智慧公司,由該國的主權財富基金支持,正在該地區建設大型數據中心。
人工智慧的應用
據 報導,人們使用人工智慧工具生成超逼真的假收據圖片,導致費用詐欺激增。該報導稱,在 9 月份提交給軟體供應商 AppZen 的欺詐文件中,人工智慧生成的收據約佔 14%,而去年同期則為零。員工被當場抓獲的部分原因是這些圖像通常包含元數據,揭示了它們的虛假來源。
我們正在閱讀
Yoshua Bengio 和 Charlotte Stix 在 TIME 上的文章
最近有很多關於人工智慧的利潤最終可能不會歸於像 OpenAI 和 Anthropic 這樣訓練和提供模型的公司的討論。相反——特別是如果先進的人工智慧成為一種廣泛可用的商品——大部分價值可能會流向電腦硬體的製造商,或者流向人工智慧帶來最大效率提升的產業。這可能會成為人工智慧公司停止分享其最先進模型的一種激勵,而是秘密運行它們,以期盡可能多地獲取其收益。Yoshua Bengio 和 Charlotte Stix 在 TIME 的一篇專欄文章中認為,這將是危險的。他們寫道,如果先進的人工智慧在閉門造車的情況下部署,「未被發現的社會危險可能會出現和發展,而沒有監督或警告——這是我們可以而且必須避免的威脅。」
本文由第三方廠商內容提供者提供。SeaPRwire (https://www.seaprwire.com/)對此不作任何保證或陳述。
分類: 頭條新聞,日常新聞
SeaPRwire為公司和機構提供全球新聞稿發佈,覆蓋超過6,500個媒體庫、86,000名編輯和記者,以及350萬以上終端桌面和手機App。SeaPRwire支持英、日、德、韓、法、俄、印尼、馬來、越南、中文等多種語言新聞稿發佈。
“`
