GPT가 답변하면 클로드가 검증...MS, 업무용AI서 한꺼번에 쓴다
기업용 모델 크리티크 기능 추가
동시에 보고서 작성 후 내용 평가
출처·완성도 등 비교해 결과 도출
입력2026-03-31 17:26
지면 10면
마이크로소프트(MS) 업무용 인공지능(AI) 에이전트에 멀티 AI 기능이 도입됐다. 최고 성능을 자랑하는 AI 모델들이 팀을 꾸려 서로의 검색 결과를 검증한 뒤 더 나은 결과를 찾도록 진화한 것이다.
MS는 30일(현지 시간) 자사 블로그를 통해 기업용 AI 서비스인 365 코파일럿 중 업무용 심층 연구 AI 에이전트인 ‘리서처’에 ‘크리티크(Critique·자기 검토)’ 기능을 추가했다고 밝혔다. AI 에이전트는 AI 스스로 추론을 통해 명령을 이행하는 전체 서비스로 에이전틱 AI는 이를 위한 세부 기능을 말한다.
크리티크는 하나의 플랫폼에서 AI 모델 2개를 함께 쓰는 멀티 모델 방식을 따른다. 모델 하나가 답변을 생성하면 다른 모델이 타당성을 검증하고 논리적으로 구조가 짜였는지 들여다본다. 평가 역할을 하는 모델은 정보 출처가 신뢰할 만한지, 보고서가 완성도 있게 작성됐는지, 근거가 타당한지 검토한다.
예를 들어 오픈AI의 ‘GPT’가 보고서를 작성하면 앤스로픽 ‘클로드’가 검증한 뒤 더 나은 결과를 도출할 수 있다. 이용자가 클로드 검색을 보다 선호하면 역할을 바꿀 수도 있다. 사티아 나델라 MS 최고경영자(CEO)는 “여러 모델을 한꺼번에 써서 최적의 답변과 보고서를 생성할 수 있다”고 강조했다.
MS는 심층 연구의 정확성·완전성·객관성을 평가하는 ‘드라코(DRACO)’ 지표를 측정한 결과 크리티크가 단일 모델 방식보다 분석 폭과 깊이, 발표 품질, 사실적 정확도, 인용 품질 등에서 더 높은 평가를 받았다고 설명했다. 의학과 일반 지식 부문에서 성능이 각각 54.5%, 30% 높아진 반면 창의성이나 고정된 지식을 바탕으로 하는 사용자 경험 디자인과 학문 분야는 각각 12.4%, 6.1% 좋아지는 데 그쳤다.
MS는 두 모델이 동시에 보고서를 작성하는 ‘카운슬(Council)’ 기능도 선보였다. GPT와 클로드가 서로 보고서를 작성하면 제3의 전용 심사 모델이 두 보고서를 논평해 주요 결과를 요약하고 공통점과 차이점을 분석해준다. 여러 AI 모델 답변을 나란히 비교해 어떤 답을 믿을지 고르는 도구로 활용할 수 있다.
MS는 자체 AI 모델을 개발하면서도 클라우드에 타사 모델을 통합하는 방식으로 개방적 자세를 취해왔다. 지난해 GPT 중심이던 MS오피스와 코파일럿365에 클로드를 추가하면서 오픈AI 의존도를 낮췄다. 최근에는 앤스로픽 AI 에이전트인 ‘클로드 코워크’의 인기를 반영해 클로드 코워크 기반 ‘코파일럿 코워크’도 공개했다.
이 기사를 추천합니다.
ⓒ 서울경제신문, 무단 전재-재배포, AI 학습 및 활용 금지