주요 인공지능(AI) 모델을 대상으로 한 검색 정확도 평가에서 구글의 'AI 모드'가 1위를 차지했다. 오픈AI의 챗GPT는 2위에 머물렀다.
워싱턴포스트(WP)는 미국의 공공·대학 도서관 사서들과 함께 진행한 실험 결과를 27일(현지시간) 공개했다. WP는 "가장 신뢰할 수 있는 검색 AI가 누구인지 직접 검증했다"고 설명했다.
이번 테스트에는 구글 'AI 모드'와 'AI 오버뷰', 오픈AI 챗GPT(GPT-5·GPT-4 터보), 앤스로픽의 클로드, 메타 AI, 일론 머스크의 그록(xAI), 퍼플렉시티, 마이크로소프트의 빙 코파일럿 등 9개 도구가 이름을 올렸다.
검증은 모두 무료 버전(7~8월 기준)으로 진행됐으며 30개의 난도 높은 질문을 던져 총 900건의 답변을 평가하는 방식으로 이루어졌다. 평가 항목은 △퀴즈 △전문자료 탐색 △최신 사건 대응 △편향성 여부 △이미지 인식 등 다섯 분야였다.
구글 AI 모드는 평균 60.2점으로 가장 높은 점수를 기록했다. GPT-5 기반 챗GPT는 55.1점을 받아 2위를 차지했으며, 퍼플렉시티가 51.3점으로 3위에 올랐다. 반면 그록3는 40.1점에 그쳐 8위를, 메타 AI는 33.7점으로 최하위를 기록했다.
분야별로 보면 구글 AI 모드는 최신 사건과 퀴즈 문제에서 독보적 성과를 냈고, 전문 자료 검색에서는 빙 코파일럿이 우세했다. 이미지 인식은 퍼플렉시티가 가장 뛰어난 결과를 냈다. 흥미롭게도 GPT-4 터보는 가장 '편향이 적은 답변'을 제시한 모델로 평가됐다.
GPT-5는 종합 점수에서 2위에 오르며 전반적 성능이 향상됐지만 일부 영역에서는 오히려 GPT-4보다 낮은 평가를 받았다. 이는 "최신 모델이 반드시 모든 분야에서 더 낫다고 단정할 수는 없다"는 점을 보여준다.
테스트를 진행한 WP는 "이번 테스트는 AI의 약점을 의도적으로 공략했지만 일상 질문 중 상당수에 대해 여전히 AI가 제대로 답하지 못한다는 사실이 드러났다"며 "결국 AI 답변을 그대로 믿기보다는 출처 확인, 최신성 검증, 비판적 사고를 거쳐야 한다는 교훈이 강조됐다"고 말했다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >