GPT-4.5는 73%의 성공률로 튜링 테스트를 통과했습니다.

GPT-4.5는 개정된 튜링 테스트에서 참가자의 73%를 설득하여 자신이 인간임을 증명했습니다.
실험 결과 AI의 성공은 주로 지시와 "개성"의 채택에 달려 있음이 밝혀졌습니다.
LLaMa-3.1과 같은 다른 모델은 성공률이 낮았고, 개인화가 없으면 결과가 크게 떨어졌습니다.
이 연구는 인공지능의 현재 한계와 대화의 사실성이 증가함에 따라 발생하는 위험에 대한 의문을 제기합니다.

실제 사람과의 대화와 기계와의 대화를 구별할 수 있나요? 70년 전 앨런 튜링이 처음 제기한 이 문제는 까다로운 환경에서 최첨단 인공지능 모델을 테스트한 최근 실험 이후 새로운 주목을 받고 있습니다.

캘리포니아 대학교 샌디에이고 캠퍼스의 연구원들은 인간과 인공을 구별하는 우리의 능력에 도전하는 연구입니다.엘. 실험의 중심에는, GPT-4.5 모델 OpenAI는 특정 조건에서 튜링 테스트를 통과했을 뿐만 아니라 그는 실제 사람들보다 더 자주 인간으로 확인되었습니다.

엄격한 조건에서의 실험

연구원 Cameron Jones와 Benjamin Bergen이 이끄는 연구는 고전적 튜링 테스트의 수정된 버전에 초점을 맞추었습니다., 대학생과 온라인 플랫폼 이용자를 포함해 300명 이상이 참여했습니다. XNUMX분 세션 동안 각 참가자는 동시에 두 번의 대화를 나누었습니다. 하나는 인간과, 다른 하나는 인공 지능 시스템과 대화했습니다. 결국, 그들은 대화 상대 중 누가 인간인지 판단해야 했습니다..

독점 콘텐츠 - 여기를 클릭하세요 조각가 은하수: 전례 없는 초상화가 풀 컬러로 그 비밀을 드러낸다

결과는 놀라웠습니다. GPT-4.5 모델은 73%의 경우 인간으로 인식되었습니다. 그에게 정의된 성격이 주어졌을 때, 예를 들어 디지털 문화에 대한 지식을 가진 젊은이의 성격이 주어졌을 때. 이 비율은 통과된 테스트로 간주하기 위한 통계적 임계값을 넘어섰을 뿐만 아니라, 이 실험에서 실제 인간이 인간처럼 보일 수 있는 능력도 넘어섰습니다. 이 접근 방식은 어떻게 되는지에 대한 아이디어를 강화합니다. la 인공지능 최근 수십 년 동안 발전해 왔습니다.

하지만 AI에게 특정한 성격이 주어지지 않고 별다른 지시도 없이 그저 인간처럼 보이도록 요구했을 때, 그 효과성은 36%로 급격히 떨어졌습니다. 이것은 다음을 강조합니다. 프롬프트에서 컨텍스트와 개인화의 중요성 언어 모델에 주어짐.

모델과 예상치 못한 결과의 비교

GPT-4.5와 함께 실험에는 다음과 같은 다른 모델이 포함되었습니다. 메타의 LLaMa-3.1-405B가상의 인물이 제공되었을 때 정확도는 56%에 달했습니다. 이 수치는 GPT-4.5보다 낮지만 여전히 가능성이 높습니다. 반면, 4년대의 GPT-60o나 베테랑 챗봇 ELIZA 등의 다른 버전은 각각 21%와 23%를 넘지 못해 현대 기술과 원시 기술 간의 격차가 뚜렷하게 드러났습니다.

Estos resultados 튜링 테스트와 같은 작업에서 AI의 성공은 모델 자체보다 AI가 지시받는 방식에 훨씬 더 많이 달려 있음을 보여줍니다.. 중요한 것은 인간의 지능을 의식적으로 모방하는 것이 아니라, 신뢰할 수 있는 역할을 맡는 것입니다. 더 자세히 알아보고 싶다면 컴퓨터 시간이 지나면서 흥미로운 정보를 발견하게 될 겁니다.

독점 콘텐츠 - 여기를 클릭하세요 아카풀코는 어떤 곳인가요?

게다가 정교한 지침을 사용하더라도 일부 모델은 충분히 설득력 있는 대화를 유지할 수 없다는 사실이 밝혀졌습니다. GPT-4o는 별다른 어려움 없이 AI가 될 수 있다고 인정했습니다., 이로 인해 인간 대화상대 사이에서 빠르게 신뢰를 잃었습니다.

속이는 것인가, 생각하는 것인가? 튜링 테스트 논란

튜링 테스트를 통과했다고 해서 AI가 당신의 말을 이해하거나 당신의 말을 알고 있다는 것을 의미하지는 않습니다. 전문가들 사이에서 중요한 토론 중 하나가 여기에 있습니다. 일부 사람들은 이 성과를 인간 행동 시뮬레이션의 중요한 발전으로 축하하지만 다른 사람들은 이런 유형의 테스트는 더 이상 인공 시스템의 '실제 지능'을 측정하는 데 신뢰할 수 없습니다..

Google 엔지니어인 François Chollet 등의 전문가들은 다음과 같이 지적했습니다. 튜링 테스트는 현재 유용한 측정 방법이라기보다는 철학적 실험에 가깝습니다.. 이 관점에 따르면, AI가 우리를 속인다고 해서 그것이 추론 능력이 있거나 세상을 깊이 이해하고 있다는 걸 의미하지는 않습니다. 오히려 수백만 개의 텍스트에서 학습한 패턴을 활용하여 그럴듯한 답을 구성합니다. 이 분야를 더 잘 이해하려면 누가 누구인지 확인할 수 있습니다. AI의 창시자.

그러므로 걱정되는 것은 AI가 무엇을 할 수 있느냐가 아니라, 우리가 AI가 무엇을 할 수 있다고 생각하느냐는 것입니다. 대화 시스템을 의인화하려는 인간의 경향60년대의 ELIZA와 마찬가지로, 시간이 지나도 사라진 것 같지는 않습니다. 오늘날 이 현상은 훨씬 더 정교한 모델로 더욱 확대되었습니다.

너무 인간적인 AI의 응용과 위험

AI가 짧은 대화에서 인간으로 인식될 수 있다는 사실은 기회를 제공하지만, 심각한 위험을 초래합니다 보안, 교육, 사회 관계 측면에서.

신분 도용: AI를 설득하는 것은 사기 또는 사회공학적 캠페인에 사용될 수 있습니다.
Desinformación: 인간의 말을 생성할 수 있는 모델은 가짜 뉴스를 조작하거나 퍼뜨리는 데 효과적인 도구가 될 수 있다.
Automatización laboral: 고객 서비스나 기술 지원과 같은 분야가 대화형 AI로 대체될 수 있으며, 이는 인간의 고용에 영향을 미칠 수 있습니다.
교육 및 평가: 어떤 글을 사람이 썼는지 AI가 썼는지 알아내는 일은 복잡한 작업이며, 학계에 큰 영향을 미칩니다.

독점 콘텐츠 - 여기를 클릭하세요 알렉사의 숨겨진 기능을 활성화하는 방법

연구자들은 또한 다음과 같은 방법에 대해 경고했습니다. 이러한 기술이 표준화되면 탐지가 더 어려워질 수 있습니다. 미래에. 우리가 자동화 시스템과의 상호작용에 점점 더 익숙해지면서 경계심을 늦추고, 우리가 모르는 사이에 모델이 인간 대화자와 구별하기 어려워질 수도 있습니다.

또 다른 반복적인 우려는 이를 실행하는 방식의 윤리에 대한 것입니다. AI는 인공적 본질을 드러내지 않으면서도 어느 정도까지 인간인 척할 수 있을까? 실제 상황에서 어떻게, 언제 사용할 수 있는지에 대한 명확한 제한이 있어야 할까요?

GPT-4.5는 기계가 우리처럼 추론한다는 것을 보여주지 않았습니다.하지만 그들이 우리를 구별하기 어려울 정도로 우리를 모방할 수 있다는 것이 분명해졌습니다. 이 획기적인 사건은 기계가 무엇인가가 아니라, 기계가 우리에게 무엇을 의문시하게 만드는가, 즉 인공과 현실이 융합된 디지털 시대에 '인간답게 사는 것'이 무엇을 의미하는지에 대한 우리 자신의 생각 때문에 전환점을 의미합니다.

알베르토 나바로

나는 그의 "괴짜" 관심을 직업으로 바꾼 기술 열광자입니다. 나는 10년 넘게 최첨단 기술을 사용하고 순수한 호기심으로 온갖 프로그램을 만지작거리며 살아왔습니다. 이제 저는 컴퓨터 기술과 비디오 게임을 전공했습니다. 왜냐하면 저는 5년 넘게 기술 및 비디오 게임에 관한 다양한 웹사이트에 글을 쓰고 모든 사람이 이해할 수 있는 언어로 필요한 정보를 제공하려는 기사를 작성해 왔기 때문입니다.

질문이 있으시면 제가 알고 있는 지식은 Windows 운영 체제는 물론 휴대폰용 Android까지 다양합니다. 그리고 저는 여러분을 위한 헌신을 하고 있습니다. 저는 항상 몇 분씩만 시간을 내어 이 인터넷 세계에서 여러분이 가질 수 있는 모든 질문을 해결하도록 도와드릴 의향이 있습니다.