GPT-4.5はチューリングテストに73%の成功率で合格

GPT-4.5 は、改訂されたチューリングテストで参加者の 73% にそれが人間であると信じ込ませることに成功しました。
実験により、AI の成功は主に指示と「個性」の採用に依存することが明らかになりました。
LLaMa-3.1 などの他のモデルでは成功率が低く、パーソナライゼーションがないと結果が大幅に低下しました。
この研究は、人工知能の現在の限界と、会話のリアリティが高まることに伴うリスクについて疑問を提起している。

実際の人間との会話と機械との会話を区別できますか? この疑問は、70年以上前にアラン・チューリングによって初めて提起されたもので、困難な状況で人工知能の最も先進的なモデルをテストした最近の実験を受けて、新たな注目を集めている。

カリフォルニア大学サンディエゴ校の研究者らは、 人間と人工物を区別する私たちの能力に挑戦する研究。l.実験の中心は、 GPT-4.5モデル OpenAIは特定の条件下でチューリングテストに合格しただけでなく、 彼は実在の人物よりも頻繁に人間として識別されました。

厳しい条件下での実験

キャメロン・ジョーンズとベンジャミン・バーゲンの研究者が率いるこの研究は、 古典的なチューリングテストの修正版に焦点を当てたには、大学生やオンラインプラットフォームのユーザーなど300人以上が参加しました。 XNUMX分間のセッション中、各参加者は同時にXNUMXつの会話を行いました。XNUMXつは人間との会話、もうXNUMXつは人工知能システムとの会話です。最後に、 彼らは対話者の誰が人間であるかを判断しなければならなかった.

限定コンテンツ - ここをクリックしてください Como Conseguir La

結果は驚くべきものでした。 GPT-4.5モデルは73%のケースで人間として認識された。 たとえば、デジタル文化の知識を持つ若者といった明確な性格が与えられたときです。この割合は、テストに合格したとみなす統計的閾値を超えただけでなく、この実験で実際の人間が人間に見える能力も超えました。このアプローチは、 la 人工知能ここ数十年で進化しました。

しかし、AIに特定の性格が与えられず、それ以上の指示なしに単に人間のように見えるように求められた場合、その有効性は36％に急落しました。これは、 プロンプトにおけるコンテキストとパーソナライゼーションの重要性 言語モデルに与えられます。

モデルの比較と予想外の結果

GPT-4.5に加えて、実験には次のような他のモデルも含まれていました。 メタの LLaMa-3.1-405B架空の人物も登場させた場合、56% の精度を達成しました。この数値は GPT-4.5 よりも低いですが、それでも確率を上回っています。対照的に、GPT-4o や 60 年代のベテランチャットボット ELIZA などの他のバージョンは、それぞれ 21% と 23% を超えず、現在のテクノロジーと原始的なテクノロジーのギャップが明らかになりました。

Estos resultados チューリングテストのようなタスクにおけるAIの成功は、モデル自体よりも、AIがどのように指示されるかに大きく依存することを示す。重要なのは、人間の知性を意識的にシミュレートすることではなく、信頼できる役割を採用することです。より深く知りたい場合は、コンピューター時間が経つにつれて、興味深い情報が見つかるでしょう。

限定コンテンツ - ここをクリックしてください Bizum はいつ銀行システムに導入されますか?

さらに、洗練された指示があっても、一部のモデルは十分に説得力のある会話を維持できないことが判明しました。 GPT-4o は、ほとんど挑戦を必要としない AI であることを認めました。、それは人間の対話者の間ですぐに信頼性を失いました。

騙すのか、考えるのか？チューリングテスト論争

チューリングテストに合格しても、AI があなたの言うことを理解したり、あなたの言葉を認識したりするわけではありません。ここに専門家の間で行われた素晴らしい議論の 1 つがあります。この成果を人間の行動シミュレーションにおける大きな進歩として称賛する人もいるが、 このタイプのテストは、人工システムの「真の知能」を測定するのにもはや信頼できるものではありません。.

グーグルのエンジニアであるフランソワ・ショレ氏のような専門家は、 チューリングテストは、現在有用な測定というよりも、哲学的な実験です。。この見解によれば、AI が私たちを欺くからといって、それが推論したり世界を深く理解したりしているということにはなりません。むしろ、何百万ものテキストから学習したパターンを活用して、もっともらしい回答を構築します。この分野をよりよく理解するために、 AIの創始者.

そうなると、心配なのは、これらの AI が何ができるかではなく、AI が何をすると考えているかという点です。 会話システムを擬人化する人間の傾向60 年代の ELIZA の場合と同様に、時間の経過とともに消えたわけではないようです。今日では、この現象ははるかに洗練されたモデルによって拡大されています。

人間らしく聞こえるAIの応用とリスク

AIが短い会話で人間と見分けがつくという事実は、チャンスをもたらすが、 重大なリスクをもたらす 安全、教育、社会関係の面で。

Suplantación de identidad: 説得力のある AI は、詐欺やソーシャルエンジニアリングキャンペーンに使用される可能性があります。
Desinformación: 人間の音声を生成できるモデルは、フェイクニュースを操作したり拡散したりするための効果的なツールとなる可能性がある。
Automatización laboral: 顧客サービスや技術サポートなどの分野は、これらの会話型 AI に置き換えられ、人間の雇用に影響を及ぼす可能性があります。
教育と評価: テキストが人間によって書かれたものか AI によって書かれたものかを検出することは複雑な作業となり、学術分野に影響を与えます。

限定コンテンツ - ここをクリックしてくださいプロトンのプライバシー重視の人工知能チャットボット「Lumo」

研究者らはまた、 これらの技術の標準化により、検出がより困難になる可能性があります。 将来。自動化されたシステムとのやり取りに慣れてくると、私たちは警戒を怠り、気づかないうちにこれらのモデルと人間の対話者との区別がつかなくなる可能性が高くなります。

もう一つの繰り返し懸念は、その実施の倫理性です。 AI は、その人工的な性質を明かさずに、どの程度まで人間のふりをすべきでしょうか?実際の状況でいつ、どのように使用できるかについて明確な制限を設ける必要がありますか?

GPT-4.5は、機械が人間のように推論できることを示していないしかし、彼らは人間を模倣し、区別することが困難になることが明らかになりました。この画期的な出来事は、機械が何であるかという理由ではなく、人工物が現実と融合するデジタル時代において「人間」であることの意味についての私たち自身の考えという、機械が私たちに疑問を抱かせるものであるという点で、転換点となる。

アルベルト・ナバロ

私はテクノロジー愛好家であり、その「オタク」の興味を職業に変えています。私は 10 年以上、純粋な好奇心から最先端のテクノロジーを使用し、あらゆる種類のプログラムをいじくり回してきました。現在はコンピューター技術とビデオゲームを専門にしています。これは、私が 5 年以上、テクノロジーやビデオゲームに関するさまざまな Web サイトに執筆し、誰にでも理解できる言語で必要な情報を提供することを目的とした記事を作成しているためです。

ご質問がございましたら、私の知識は Windows オペレーティングシステムから携帯電話用の Android に関連するあらゆるものまで多岐にわたります。そして、私はあなたに対して、いつでも喜んで数分を費やして、このインターネットの世界であなたが抱いている疑問を解決するお手伝いをしたいと考えています。