GPT-4.5 順利通過圖靈測試:這項里程碑對人工智慧的發展意味著什麼?

最後更新: 2025年07月04日

  • 在修改後的圖靈測試中,GPT-4.5 成功讓 73% 的參與者相信它是人類。
  • 實驗表明,人工智慧的成功很大程度上取決於指令和「個性」的採用。
  • LLaMa-3.1 等其他模型的成功率較低,並且由於缺乏個人化,結果會大幅下降。
  • 這項研究對人工智慧的當前限制以及其日益增強的對話真實感所帶來的風險提出了質疑。
GPT-4.5 通過了 Turing-0 測試

你能區分與真人和機器的對話嗎? 這個問題最早由艾倫·圖靈在七十多年前提出,在最近的一項實驗中,該實驗在具有挑戰性的環境下測試了最先進的人工智慧模型,因此這個問題再次引起了人們的注意。

加州大學聖地牙哥分校的研究人員進行了一項 這項研究挑戰了我們區分人類和人工智慧的能力。湖在實驗的中心, GPT-4.5模型 OpenAI 不僅在特定條件下通過了圖靈測試,而且 他被認定為人類的次數甚至比被認定為真實人類的次數還多。

嚴格條件下的實驗

圖靈測試期間的人工智慧面試

這項研究由研究員 Cameron Jones 和 Benjamin Bergen 領導, 專注於經典圖靈測試的修改版本,共有超過300人參加,其中包括大學生和網路平台使用者。在五分鐘的會議期間,每位參與者同時進行兩次對話:一次與人,一次與人工智慧系統。到底, 他們必須判斷對話者中哪一個是人類.

獨家內容 - 點擊這裡  Como Conseguir La

結果是驚人的: GPT-4.5 模型在 73% 的情況下被認為是人類 當他被賦予一種明確的性格時——例如,一個擁有數位文化知識的年輕人。這個百分比不僅超出了認為測試通過的統計閾值,也超出了真實人類在本次實驗中表現出的人性的能力。這種方法強化了這樣的想法 la 人工智慧 已在近幾十年中不斷發展。

然而,當沒有賦予人工智慧特定的個性,而只是被要求在沒有進一步提示的情況下表現出人類特徵時,其有效性就會暴跌至 36%。這強調了 提示中情境和個人化的重要性 賦予語言模型。

模型與意外結果的比較

正在測試的各種 AI 模型

除了 GPT-4.5 之外,實驗還包括其他模型,例如 Meta 的 LLaMa-3.1-405B當賦予虛構人物時,準確率仍達 56%。雖然這一數字低於 GPT-4.5,但仍高於偶然機率。相較之下,其他版本如GPT-4o或60世紀21年代的老牌聊天機器人ELIZA,分別不超過23%和XNUMX%,這清楚地表明了當前技術與原始技術之間的差距。

Estos resultados 顯示人工智慧在圖靈測試等任務中的成功更多地取決於如何指導它,而不是模型本身。關鍵是要採用可信的角色,而不是有意識地模擬人類的智慧。如果你想深入了解 電腦 隨著時間的推移,你會發現有趣的資訊。

獨家內容 - 點擊這裡  Bizum何時才能進入銀行體系?

此外,研究發現,即使有複雜的指令,有些模型也無法維持足夠令人信服的對話。 GPT-4o 承認自己是一款幾乎沒有挑戰的人工智慧。,這種說法很快就在人類對話者中失去了可信度。

欺騙,還是思考?圖靈測試爭議

人工智慧中的認知討論

通過圖靈測試並不意味著人工智慧理解你所說的話或意識到你的話。這是專家之間的精彩討論。雖然有些人認為這項成就是模擬人類行為的重大進步,但有些人認為 這種測試對於衡量人工智慧系統的「真實智慧」已經不再可靠。.

Google工程師 François Chollet 等專家指出, 圖靈測試更多的是一個哲學實驗,而不是目前有用的測量方法。。根據這種觀點,人工智慧欺騙了我們,並不意味著它能夠推理或對世界有深刻的理解。相反,它利用從數百萬文本中學習到的模式來建構合理的答案。為了更好地了解這個領域,你可以查看誰是 人工智慧創辦人.

因此,令人擔憂的並不是這些人工智慧能做什麼,而是我們認為它們能做什麼。 人類傾向於將對話系統擬人化就像 60 世紀 XNUMX 年代的 ELIZA 一樣,它似乎並沒有隨著時間的推移而消失。如今,這現象透過更為複雜的模型被放大。

聽起來太過人性化的人工智慧的應用和風險

人工智慧可以在簡短對話中模仿人類,這不僅帶來了機會,也 構成重大風險 在安全、教育和社會關係方面。

  • 身份盜竊: 令人信服的人工智慧可用於詐騙或社會工程活動。
  • Desinformación: 能夠產生人類語音的模型可以成為操縱或傳播假新聞的有效工具。
  • Automatización laboral: 客戶服務或技術支援等領域可能會被這些對話式人工智慧所取代,從而影響人類的就業。
  • 教育與評估: 檢測文本是由人還是人工智慧編寫的成為一項複雜的任務,並對學術領域產生影響。
獨家內容 - 點擊這裡  Lumo,Proton 的隱私優先人工智慧聊天機器人

研究人員還警告說 這些技術的標準化可能會使它們的檢測更加困難。 將來。隨著我們越來越習慣於與自動化系統交互,我們可能會放鬆警惕,使得這些模型更容易在我們沒有意識到的情況下與人類對話者變得難以區分。

另一個反覆出現的擔憂是其實施的道德問題。人工智慧應該在多大程度上假裝人類而不暴露其人工智慧的本質?是否應該對其在現實生活中的使用方式和時間作出明確的限制?

GPT-4.5 並未證明機器能像我們一樣推理但它明確表示,它們可以以一種難以區分的方式模仿我們。這個里程碑標誌著一個轉捩點,這並不是因為機器是什麼,而是因為它讓我們質疑:在人工與現實相融合的數位時代,我們對於「成為人類」的意義的看法。