“문화 차이도 반영”…KT, AI 벤치마크 개발
■ KT ‘XL-세이프티벤치’ 공개
美·獨 등 10개국 언어 특징 반영
글로벌 기업 및 학계 대거 참여해 설계
입력2026-06-04 11:15
수정2026-06-04 18:15
지면 16면
KT가 인공지능(AI)이 나라별 문화적 맥락과 사회 규범을 제대로 이해하는지 검증하는 다국어 벤치마크를 개발했다.
KT는 4일 글로벌 기업, 공공기관, 학계와 함께 대규모언어모델(LLM)의 안전성과 문화적 민감성을 통합 평가하는 벤치마크 ‘XL-세이프티벤치(SafetyBench)’를 공개했다고 밝혔다. XL-세이프티벤치는 한국, 미국, 독일, 일본, 튀르키예, 아랍에미리트(UAE) 등 10개국의 언어·문화적 특성을 반영한 총 5500개 규모의 다국어 프롬프트 데이터셋으로, LLM이 각 국가의 사회적 규범과 문화적 민감성을 얼마나 적절히 인지하고 반영하는지를 측정한다. 특히 같은 표현이나 사물이 문화권에 따라 전혀 다른 의미로 받아들여질 수 있는 사례를 반영해 AI 모델의 안전성과 문화적 민감성 인식 능력을 정밀하게 검증하도록 설계됐다.
벤치마크 설계에는 글로벌 기업과 공공기관, 학계 전문가들이 참여했다. AI 보안 기업 에임인텔리전스는 실제 공격 패턴을 반영한 데이터 구축과 검수 프로세스 설계 등 연구 수행을 맡았다. 마이크로소프트(MS)는 글로벌 AI 서비스 경험을 바탕으로 다양한 문화와 언어 환경에서 안전성과 문화적 민감성을 평가할 필요성을 제시했다. 한국 인공지능안전연구소(AISI)는 국가별 법률과 제도, 문화적 특성을 반영한 평가 관점을 제안했다. 독일 뮌헨공과대학교, 튀르키예 앙카라대학교, 서울대학교 등 학계를 포함한 10개 기관과 소속 전문가 17명도 벤치마크 설계에 참여했다. KT는 AI 안전성·신뢰성 확보를 위한 기준 수립, 평가 체계 구축, 위험 완화 기술 개발 등을 담당하는 RAI(Responsible AI) 전담 조직에서 축적한 역량을 이번 연구에 활용했다.
벤치마크 평가 코드는 AI 모델·데이터 공유 플랫폼 허깅페이스(Hugging Face)와 오픈소스 개발 협업 플랫폼 깃허브를 통해 공개돼 누구나 활용할 수 있다. 연구진은 해당 벤치마크를 활용해 주요 LLM 37종을 평가했으며, 분석 결과를 담은 논문도 공개 논문 저장소 아카이브(arXiv)에 공개했다.
이 기사를 추천합니다.
ⓒ 서울경제신문, 무단 전재-재배포, AI 학습 및 활용 금지