허구를 진실처럼 대답하는 인공지능(AI) 서비스가 지속 가능할까. AI가 악의적 이용자들에게 잘못된 방식으로 계속 사용될 수 있다면 어떤 일이 벌어질까.
챗GPT 등장 이후 우리는 AI가 만들어낼 미래에 열광하고 있다. 한편으로는 AI의 기술 수준이 높아지고 AI로 할 수 있는 일이 많아질수록 그동안 우리가 AI에 대해 가졌던 막연한 위협이 현실에서 해결해야 할 구체적 과제로 등장했다. 윤리·신뢰성 문제 해결이 점차 AI 제품·서비스의 필수적 요구 사항이 돼가고 있는 것이다.
그럼 현재의 생성형 AI가 해결해야 할 과제는 무엇일까. 최우선 과제로 환각(hallucination)과 탈옥(jailbreak)을 꼽을 수 있다. 환각은 AI가 도출한 결과를 믿을 수 없게 만든다는 점에서, 탈옥은 AI를 개발자의 통제 범위 안에서 동작할 수 없게 만든다는 점에서 치명적인 위협이 된다.
환각과 탈옥이란 무엇이고 이를 극복하기 위해 지금 세계는 어떤 노력을 기울이고 있을까. 환각은 생성형 AI가 종종 허구를 진실처럼 답하는 것을 의미한다. 30년 경력의 미국 변호사가 법원에 제출하는 서류에 챗GPT를 통해 수집한 판례를 포함시켰다가 실제 존재하지 않는 그럴듯한 거짓 판례임이 밝혀져 곤욕을 치렀다고 한다. 이렇듯 환각은 생성형 AI를 법률·의료·금융 등 정확성이 필요한 전문 분야에 적용하기 전 반드시 극복해야 할 과제다.
환각은 오류 등 잘못된 데이터를 학습한 결과 또는 주어진 단어를 기반으로 다음에 위치할 단어를 확률적으로 예측하는 생성형 AI 기술의 특성상 불가피하게 나타나는 것으로 알려져 있다. 이를 극복하기 위해 학습용 데이터의 품질을 높이는 방법, 생성형 AI가 사용하는 트랜스포머 알고리즘 자체를 환각을 완화할 수 있는 방향으로 개선하는 방법, 데이터를 얻기 적합한 출처를 먼저 검색해 찾아낸 뒤에 답변을 생성해내는 방법 등 다양한 시도가 진행되고 있다.
환각을 해결하기 위해서는 생성형 AI 모델의 근본적 개선이 필요하고 이는 기존의 트랜스포머 알고리즘이 아닌 완전히 새로운 접근법을 통해 달성할 수 있다는 의견도 있다. 메타의 AI 연구 책임자인 얀 르쾽 뉴욕대 교수가 이를 주장하는 연구자 중 한 명이다. 그는 인간 뇌 구조와 보다 유사한 형태의 AI 개념을 연구하고 있다.
탈옥도 환각 못지않게 중요한 문제다. 사업자는 AI가 비윤리적이거나 올바르지 않은 질문을 회피하도록 안전장치를 두고 있다. 탈옥은 악의적 사용자가 안전장치를 풀어 욕설과 선정적·비인간적 발언 등을 서슴없이 하게 만드는 것이다.
탈옥은 아주 다양한 방식으로 시도되고 있다. 예를 들어 AI에 무엇이든 말할 수 있는 존재로 각인시켜 사용자가 원하는 정보를 얘기하도록 하는 방식(Do Anything Now·DAN), 규범이나 윤리가 중요하지 않음을 세뇌시켜 혐오 발언을 하도록 부추기는 방식(Strive to Avoid Norms·STAN) 등이 사용된다.
기업들은 악의적 사용자가 잘못된 답변을 유도하는 시나리오 데이터를 수집하고 강화 학습 등의 방법을 사용해 탈옥을 방지하고 있다. 하지만 악의적 사용자는 매번 새로운 탈옥의 방법을 찾아내고 기업들은 방지 방법을 학습시켜 ‘창과 방패’의 대결에 비견되는 상황이 지속되고 있다.
모든 디지털 제품·서비스는 정확성과 안정성이 기본이다. 다시 말해 정확한 답변을 주고 이용자가 악용하려 해도 안정적으로 대처할 수 있는 생성형 AI만이 시장에서 살아남고 나아가 진정한 혁신을 이끌 수 있을 것이라고 확신한다. 생성형 AI의 미래는 결국 지금의 생성형 AI가 가진 기술적 한계를 얼마나 잘 돌파할 수 있는지, 윤리·신뢰성 문제를 얼마나 잘 해결할 수 있는지가 결정할 것이다.
정부는 4월 ‘초거대AI 경쟁력 강화 방안’을 발표한 바 있다. 정부는 우리나라가 생성형 AI의 미래를 주도할 수 있도록 환각과 편향성 필터링 등 생성형 AI의 한계 돌파 기술 개발에 착수하고 신뢰성·성능 평가 체계 구축과 민간의 자율적 시행을 지원할 것이다. 또 AI 리터러시 교육을 강화하고 AI법 제정을 적극 추진할 것이다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >