[우리곁으로 다가온 AI] 인종·성차별 하는 AI...학습 데이터 편향성 줄여야

전체서비스

문화·스포츠

영상·포토

서경스타

스페셜 컨텐츠

이용안내

보내는 사람
받는 사람	※ 여러명에게 보낼 경우 콤마(,)로 구분하세요.

보내는 사람

받는 사람

※ 여러명에게 보낼 경우 콤마(,)로 구분하세요.

[우리곁으로 다가온 AI] 인종·성차별 하는 AI...학습 데이터 편향성 줄여야

입력2019-10-15 17:34:29 수정 2019.10.15 17:34:29 송영규 기자

점점 더 인공지능(AI) 알고리즘이 중요한 결정을 내리거나 결정을 돕는 역할을 하고 있다. 실제로 직장이나 대학의 지원자를 선발하거나 대출 여부·한도를 정하는 것처럼 많은 영역에서 우리의 삶에 영향을 끼치고 있다. 하지만 맹목적으로 적용한다면 학습 데이터에 존재하는 편향성으로 편견을 증폭시킬 우려가 있음을 이미 많은 전문가가 지적하고 있다.

성별 역할이나 업무 영역에 대한 편향성은 우리의 정신에 깊이 내재돼 있으며 생각과 대화에 반영된다. 언어는 성차별이나 편향이 행해지는 강력한 수단 중 하나이며 딥러닝 기술의 발달과 더불어 언어 처리를 하는 능력에 비약적인 발전이 있었음에도 불구하고 AI에도 편향성이 있을 수 있다.

사람들이 일상적으로 사용하는 자연어는 컴퓨터가 바로 이해할 수 없기 때문에 ‘단어 임베딩(word embedding)’이라고 불리는 변환 기법을 사용해 단어를 컴퓨터가 이해할 수 있게 바꿔준다. 이를 통해 맥락을 이해하고 의미의 유사성이나 차이점 및 단어 간의 관계를 이해할 수 있게 된다. 이런 변환은 신경망 학습을 통해 자동으로 수행되며 사용하는 학습 데이터에 따라 결과가 달라진다.

단어 간의 관계를 이해할 수 있게 되면 ‘파리-프랑스’의 관계로부터 ‘도쿄-x’에서 ‘x’는 일본이라는 것까지 판단할 수 있게 된다. 하지만 특별한 의도가 아닐지라도 편향적인 문구들이 많이 포함된 데이터를 이용해 학습되면 ‘남자-컴퓨터 프로그래머’의 관계에서 ‘여자-x’에 ‘x’를 주부라고 추정을 해낼 수도 있다. 부지불식간에 사용하는 단어들의 관계로 성별 편향적인 결과가 나올 수도 있는 것이다.

이런 편향성을 조정하기 위한 방법을 제시한 논문 중 지난 2016년 마이크로소프트 연구팀이 발표한 방식이 인상적인데 개념만 간단히 살펴본다. 이들은 단어를 성별로 확실히 구별해야 할 것과 중립적이어야 할 것들로 구별했다. 예를 들어 남/여, 삼촌/고모, 할아버지/할머니의 관계처럼 성별을 구별하는 것이 당연한 것들과 의사, 승무원, 트럭 기사, 컴퓨터 프로그래머와 같은 중립적이어야 하는 것들로 나눈다. 이후 워드 임베딩을 통해 변환된 공간에서 ‘남/여’처럼 성별을 구별해야 할 것들로부터 중립적이어야 할 단어 간의 거리가 같도록 조정을 해준다. 예를 들어 외과의사가 남자 쪽에 더 편향적이었다면 그 위치를 중립 위치로 옮겨 성별 편향성을 제거한다.

신문이나 쉽게 접촉할 수 있는 보편적인 데이터를 이용해 학습했음에도 불구하고 편향성이 있다는 것은 사회가 가진 본질적인 문제가 투영된 결과이겠지만 학습 시 이런 편향성을 줄여주거나 없애려는 노력을 한다면 AI가 사회의 편향성을 줄이는 데 작은 기여를 할 수 있을 것이다. 또한 성별 편향성뿐만 아니라 지역·학벌·피부색·연령대 등 다양한 종류의 편향성이 있을 수 있으니 이런 점까지 충분히 고려해야 할 것이다.