人工智慧正在學習執行醫師、律師與顧問的工作

BRAZIL-HEALTH-VIRUS-DIAGNOSIS-ARTIFICIAL INTELLIGENCE

(SeaPRwire) –   這些任務類似於律師、醫生、金融分析師和管理顧問為生而解決的那些。其中一項任務要求根據九項多媒體證據診斷一名六歲患者;另一項要求就音樂家的遺產提供法律建議;第三項則要求對一家醫療科技公司的部分資產進行估值。

Mercor 聲稱向每家頂尖AI公司提供「專家數據」,並表示已花費超過50萬美元開發了200項任務,以測試AI在法律、醫學、金融和管理諮詢等領域是否「能執行具有高經濟價值的知識工作」。根據 Mercor 的說法,週三發布的結果報告 (APEX) 的合著者中,包括 McKinsey 的前全球董事總經理、Harvard Business School 的前院長以及 Harvard Law School 的教授,他們就各自領域的任務設計和範圍提供了建議。該公司22歲的執行長 Brendan Foody 表示,APEX「專注於深入研究」。「我們如何才能非常全面地了解成為顧問、銀行家、醫生或律師的意義?」

為了創建這些任務,Mercor 聘請了曾服務於頂級銀行 (Goldman Sachs, JPMorgan)、諮詢公司 (McKinsey, Boston Consulting Group)、律師事務所 (Latham & Watkins) 和醫院 (Mount Sinai) 的白領專業人士。他們平均擁有7.25年的專業經驗,在 Mercor 獲得的報酬與他們之前聲望很高的雇主相比具有競爭力。Mercor 的網站宣傳平均時薪為每小時81美元,對於需要至少四年專業經驗才能申請的「資深領域專家」來說,時薪可達每小時200美元以上——相當於年薪約40萬美元。

Bank of America 的前投資銀行分析師 Matt Seck 說道:「從薪資角度來看,很難想像有比這更好的時薪工作了。」他受 Mercor 聘用撰寫與該報告中類似的金融任務。

基準測試長期以來被用於評估AI的能力,但直接量化AI模型執行具經濟價值工作的能力,代表著一場「範式轉移」,該論文的作者之一 Osvald Nitski 說。Nitski 表示,在 Mercor 的基準測試中,「獲得100%意味著你基本上擁有了一個『盒子裡的分析師或助理』,你可以向他們發送任務,然後他們會根據合夥人、總經理或任何將評定該工作的人的要求完成任務。」

這些模型尚未達到預期水平,但它們正在快速改進。OpenAI 的 GPT-4o 於2024年5月發布,在該基準測試中獲得35.9%的分數。而僅僅一年多後發布的 GPT-5,則以64.2%的成績奪得榜首。該論文作者寫道,在基準測試中獲得64.2%並不意味著 GPT-5 能提供人類工作者64.2%的價值——未達到100%的工作「可能實際上是無用的」。根據 Mercor 的說法,GPT-5 在200項任務中只有兩項獲得滿分——一項是法律任務,一項是投資銀行任務——這些任務「主要涉及基本推理、簡單計算和大量基礎信息搜索」。

即使一個模型在 Mercor 的基準測試中達到100%,它可能也無法很好地取代人類專業人士。Mercor 基準測試中的任務側重於「範圍明確的交付成果」,例如做出診斷或建立財務模型,而非可能有多個正確答案的更開放式任務。這要求任務描述中包含大量假設,以確保所需的輸出是明確的。AI的輸出完全基於文本,這意味著該基準測試沒有檢測AI使用電腦的能力,而這是人類工作者會做的事情。(Mercor 表示,未來版本的 APEX 將解決這些限制。)Seck 表示,起草模型完成任務所需的冗長提示「會比自己動手做更繁瑣」。

儘管如此,仍有跡象表明AI模型正變得與人類具有競爭力。另一項由 OpenAI 於9月25日星期四發布的基準測試顯示,在220項任務(包括為房產設計銷售手冊和評估皮膚病變圖像)中,專業人類評估者有47.6%的時間更喜歡AI的工作而非人類的工作。OpenAI 還發現,其模型的性能在短時間內顯著提升,在2024年6月至2025年9月期間,其對抗人類的「勝率」增加了一倍多。

隨著模型能力的增長,被測試任務的複雜性以及創建足夠具挑戰性任務所需的人類技能也隨之增加。早期的測試衡量了關於 大型語言模型多項選擇 問題相對抽象的能力。 在 ChatGPT 於2022年發布之前,數據通常來自群眾外包服務,這些服務支付工人 每小時不到2美元。到了2023年,博士生被 聘請 創造生物學、物理學和化學領域的挑戰性多項選擇題。9月,xAI 解雇了 其500名「通用型」數據工作者,作為公司「擴張和優先考慮」其「專業型」數據工作者的一部分。誠然,低薪數據工作者 對AI模型的發展做出了貢獻,但開發AI基準測試所需的技能和報酬上限正在迅速提高。

Nitski 說,直接衡量AI模型在具有經濟價值的任務上的效用「非常難實現」。在金融和諮詢等領域,成功標準比例如軟件工程領域更難定義。即使手握完美的標準,大規模評分AI的輸出也比軟件工程更困難,在軟件工程中,自動化測試可以檢查一段程式碼是否正確運行。這部分解釋了為什麼旨在衡量AI模型實際效用的測試自2023年以來在軟件工程領域 迅速發展,但在其他白領領域卻有所滯後。然而,隨著AI的改進,它們幫助解決了複雜任務的評分問題。Mercor 任務的成功標準由人類專家撰寫,但評分由AI完成,Mercor 表示AI在89%的時間裡與人類評分員意見一致,這有助於擴大評估規模。

開發基準測試不僅僅是為了了解模型的優劣。在AI領域,如同在商業領域一樣,「被衡量的事情才會被完成」——好的測試往往能加速AI在這些測試上的進步。Foody 說:「評估和訓練最終是相同的數據類型。」評估圍棋等遊戲的表現是簡單明了的;AI 在2016年就擊敗了 圍棋大師。2023年,基準測試 開始 評估AI在軟件工程中的真實世界任務。兩年後,初級程式設計師的勞動統計數據 變得可疑

Foody 說:「AI 獲得了它的博士學位。」「現在它正開始進入就業市場。」

本文由第三方廠商內容提供者提供。SeaPRwire (https://www.seaprwire.com/)對此不作任何保證或陳述。

分類: 頭條新聞,日常新聞

SeaPRwire為公司和機構提供全球新聞稿發佈,覆蓋超過6,500個媒體庫、86,000名編輯和記者,以及350萬以上終端桌面和手機App。SeaPRwire支持英、日、德、韓、法、俄、印尼、馬來、越南、中文等多種語言新聞稿發佈。