개인정보보호위원회는 민간 연구자나 기업 등이 인공지능 학습 등을 위해 합성데이터를 안전하게 생성·활용할 수 있도록 돕기 위한 ‘합성데이터 생성 참조모델’ 5종을 공개한다고 30일 밝혔다.
합성데이터는 실제 데이터의 특성만 참조해 실제 개인과 직접적인 관련이 없는 완전히 새로운 데이터셋을 생성해내는 기술로, 개인정보의 일부 또는 전부를 변형하는 기법인 ‘비식별 처리(가명·익명처리)’와 다르다.
개인정보위는 최근 합성데이터에 대한 수요가 높아지면서 연구용역을 진행해 합성데이터 생성 참조모델을 마련했다. △구강 이미지와 △안전모 착용 이미지 △혈당 측정 정보 △통신사 맴버십 사용내역 △기업주주·대표자 정보 등 5가지 종류다, 이 데이터는 사전 준비와 합성데이터 생성, 유용성·안전성 검증, 활용 등 4단계 절차를 거쳐 만들어졌다 구강 이미지 합성데이터의 생성에는 인공지능(AI) 기술 기반의 ‘적대적 생성 신경망(GAN)’ 기술이 활용됐다.
생성된 합성데이터는 합성데이터와 원본데이터가 얼마나 유사한지, 동일한 목표를 달성할 수 있는지 등을 검토하는 유용성 검증과 생성된 합성데이터를 통해 원본데이터 내 개인이 식별·추론될 가능성이 있는지 등을 검토하는 ‘안전성 검증’도 거쳤다.
합성데이터는 실제 데이터의 유용성을 최대한 유지하면서도 원본데이터에 포함된 개인이 식별되지 않도록 생성하는 것이 핵심이다. 합성데이터 생성에 참여한 연구진은 유용성·안전성 수준이 충족될 때까지 데이터를 재생성하고 재검증했다.
개인정보위는 생성한 5종의 합성데이터를 다음 달 3일부터 ‘가명정보 지원플랫폼'에 공개한다. 합성데이터 활용을 원하는 기업이나 연구자는 누구나 신청가능하다. 고학수 개인정보위 위원장은 “합성데이터 생성 참조모델은 데이터 경제 시대의 개인정보 침해 우려를 없애고, 데이터를 적극적으로 활용하도록 해 데이터 산업 생태계의 발전에 기여할 것"이라며 “개인정보위는 데이터 경제 시대에 국민 삶의 질을 제고할 수 있도록 개인정보의 안전한 활용을 위해 노력하겠다”고 말했다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >