[우리 곁에 다가온 AI] 데이터 샘플링

전체서비스

문화 · 스포츠

영상 · 포토

서경스타

이용안내

스페셜 컨텐츠

보내는 사람
받는 사람	※ 여러명에게 보낼 경우 콤마(,)로 구분하세요.

보내는 사람

받는 사람

※ 여러명에게 보낼 경우 콤마(,)로 구분하세요.

[우리 곁에 다가온 AI] 데이터 샘플링

입력2018-11-13 17:19:29 수정 2018.11.13 17:19:29

우리는 심한 악필만 아니라면 대부분의 손글씨를 읽어낼 수 있다. 개별 손글씨를 따로 학습하지도 않았는데 어떻게 이것이 가능할까. 해답은 암기와 학습의 차이점에 있다. 비밀번호나 사람의 이름을 떠올릴 때처럼 정확성이 중요한 암기와 달리 학습은 반복을 통해 자신도 모르는 사이에 각 글자의 특징에 대한 ‘일반화’가 일어나 이를 바탕으로 추론을 가능하게 한다. 즉 인쇄된 글씨나 주변 사람들의 손글씨에 대한 학습으로 각 글자의 특징을 파악하게 되면 형태나 모양이 다른 새로운 손글씨도 읽어낼 수 있게 된다.

인공지능(AI)의 학습도 이와 비슷하다. 가령 손글씨를 인식하는 AI를 개발하려면 우선 적절한 망을 선택하고 다양한 손글씨 샘플을 확보한 후 그것들을 학습시키면 된다. 딥러닝을 사용하면 망에서 자동으로 손글씨로부터 각 글자의 특징을 추출하기 때문에 얼핏 보면 쉬워 보이지만 같은 망을 사용하더라도 결과가 사뭇 다르다. 그것은 학습에 사용하는 데이터의 질에 영향을 받기 때문이며 이는 통계와 유사하다.

통계는 전체 모집단으로부터 일부를 샘플링하고 그것들을 분석해 전체 모집단의 특성을 해석한다. 이 샘플링 방법이 효과를 내려면 전체 모집단의 특성을 골고루 반영할 수 있는 샘플을 잘 선택해야 한다. 만약 샘플이 한쪽으로 치우친다면 샘플을 이용한 해석은 엉뚱한 결론에 도달하게 된다.

예외적 데이터·양질의 학습데이터

통계결과 왜곡시켜 해석 어렵게해

한쪽에 쏠리지 않은 데이터 준비를

마찬가지로 AI가 원하는 결과를 내려면 일반화를 잘 시킬 수 있는 다양한 데이터를 준비하는 것이 매우 중요하다. 사과를 잘 식별할 수 있는 AI를 개발하려면 다양한 색깔·모양의 사과 데이터를 준비해야 한다. 또 사과와 혼동하기 쉽지만 사과가 아닌 것(가령 복숭아나 배)까지 잘 준비하면 매우 효과적이다. 마치 시험을 잘 보려면 다양한 유형의 문제를 풀어보고 모의시험에서 잘 틀리는 문제까지 준비해야 하는 것처럼 말이다.

통계에서 ‘특이 데이터(outlier)’라고 부르는 예외적 데이터들이 통계 결과를 왜곡시켜 해석을 어렵게 만들기 때문에 특이 데이터 여부를 잘 판단해야 한다. 마찬가지로 AI를 학습시키는 경우에도 오류 데이터나 심하게 왜곡된 데이터는 무시하고 학습을 시키는 것이 오히려 일반화에 도움이 되는 경우가 있다. 가령 누가 봐도 복숭아가 확실한 영상에 실수로 사과라고 꼬리표를 달아주는 경우를 보자. 이런 특이 데이터를 이용해 학습을 시키면 사과와 복숭아를 가르는 기준이 애매해져 오히려 식별력을 떨어뜨리게 돼 그 데이터는 학습에서 제거하거나 정정해주는 것이 좋다. 그런데 현실에서는 데이터가 아주 많거나 특정 영역에 대한 지식이 부족한 경우 특이 데이터 여부를 판단하기가 어렵다는 점이 문제다.

정리하면 AI는 통계처럼 적은 학습 데이터를 이용해 한 번도 보지 못한 새로운 데이터에 대한 추론 능력을 확보하기 위한 일반화 과정이라고 볼 수 있다. 따라서 같은 양질의 학습 데이터 및 특이 데이터가 없는 학습 데이터를 준비하는 것이 매우 중요하다.