전체메뉴

검색

이메일보내기

경제 · 금융경제·금융일반
[아는분] 고양이를 보고 고양이라 불렀더니 100만원을 벌었다고?

이색 부업으로 떠오른 '데이터 라벨링'

목소리 녹음은 40원, 얼굴 사진 촬영은 1,500원

AI 눈알 붙이기? "앞으로 더욱 정교해지고 어려워질 것"











블로그, 인스타그램 마켓, 배달 대행, 그리고 기업 파트너스 등 퇴근 후 단 1시간의 투자로 돈을 벌 수 있는 부업이 요즘 직장인들에게 대세로 떠올랐습니다. 그런데 최근 조금 이색적인 부업이 주목 받고 있다고 합니다. 사진에서 자동차를 찾고, 포장지 색을 맞췄더니 돈을 벌 수 있는 이 아르바이트. 바로 ‘데이터 라벨링’입니다.



고양이와 강아지가 각각 어떻게 생겼는지 우리는 알지만 갓 만들어진 AI는 구분하지 못합니다. 아직 학습되지 않았기 때문인데요. AI를 위해 ‘이렇게 생긴 게 고양이야’ 라고 이름표를 붙여주는 작업이 바로 데이터 라벨링입니다. 한마디로 ‘인공지능을 가르치는 과외’인 거죠. 그리고 이 데이터 라벨링을 하는 사람은 ‘데이터 라벨러’라고 불립니다.

자율 주행, 비대면 의료 등 많은 곳에서 AI를 필요로 하자, AI를 학습시키기 위해 데이터가 필요한 기업과 데이터 라벨러를 이어주는 플랫폼이 생겨났습니다. 기업이 필요한 데이터를 요청하면 플랫폼은 프로젝트를 열어 데이터 라벨러를 모집하고, 데이터 라벨러는 해당 데이터를 수집, 가공하는 작업을 하죠. 여기서 수집은 특정 대상의 사진, 영상을 찍거나 목소리를 녹음하는 것을, 가공이란 사진에서 특정 대상을 박스로 그려내 추출하고, 음성 데이터를 문장으로 다듬고, 텍스트의 핵심을 분석하는 것을 말합니다. 제시어에 맞는 이미지를 촬영해 등록하고, 주어진 도로 사진에 있는 자동차에 박스를 치는 작업이 모두 데이터 라벨링에 해당하죠.



대표적인 플랫폼으로 크라우드 웍스, 레이블러, 에이모, 데이터 고블린 등이 있습니다. 이들이 여는 프로젝트에 데이터 라벨러들이 참여하면 정해진 금액을 지급 받게 됩니다. 목소리 녹음은 40원, 얼굴 사진 촬영은 1,500원. 건당 10원부터 5,000원까지 다양하죠. 이 금액은 작업의 종류, 난이도 등에 따라 달라집니다. 작업을 많이 할수록 등급이 올라가고, 등급이 올라갈수록 숙련도를 인정해 할 수 있는 작업이 많아지고 단가도 높아집니다. 초보자의 경우 처음부터 많은 돈을 벌기는 힘들지만, 6개월에서 1년 이상 지속해 온 숙련자라면 하루에 2-3시간만 투자해서 100만 원 이상의 수익을 올리는 경우도 있다고 합니다.



이렇게 얻게 된 데이터는 정말 다양한 곳에 활용됩니다. ‘고양이 걷는 영상 수집’. 이 데이터는 고양이 로봇을 만드는 곳에서 들어온 의뢰입니다. 로봇이 고양이의 움직임을 구현하기 위해 학습 자료가 많이 필요하기 때문이죠. 이 외에도 인공지능 스피커를 만드는 곳에서는 다양한 사람들에게 서비스하기 위해 여성이나 어린이, 노인의 목소리부터 사투리를 녹음한 음성 데이터를 의뢰하기도 합니다. 한 기업의 음성 인식 에어컨이 부회장의 사투리를 인식하지 못해 개발팀이 데이터를 다시 모으기 시작했다는 일화도 있죠. 때때로 단기간에 특정 단어에 대한 발음 데이터가 많이 필요한 경우도 있는데요. 작년 여름에 붐을 일으킨 ‘싹쓰리’가 바로 그 예시입니다. 예능 프로그램에 등장하기 전까지 ‘싹쓰리‘는 사람들이 많이 쓰는 단어가 아니었습니다. 하지만 발매 하루 만에 음원 차트 1위에 올랐고, 많은 사람들이 인공지능 스피커에 “싹쓰리 틀어줘”라는 말을 할 것은 충분히 예상되는 상황이었죠. 이런 경우, 기업은 신곡 발표 3-4일 전에 이를 대비한 데이터를 수집하기도 합니다.

데이터 라벨링은 자동화가 어려워 일일이 사람에 의해 행해지는데요. 이 모습이 마치 인형에 눈알을 붙이는 작업과 비슷해 IT업계의 막노동, ‘AI 눈알 붙이기’라고 불리기도 합니다. 하지만 업계에서는 데이터 라벨링이 앞으로 더욱 정교해지고 어려워질 거라고 말합니다. 기업들이 원하는 데이터의 난이도가 점점 올라가면서 전문적인 데이터 라벨링이 필요해지고 있기 때문입니다. 예를 들어, 폐 사진만 보고 폐암이 맞는지 구분하는 데이터 라벨링은 의사가 아니라면 하기 어려운 작업이죠. 또, 법학 전공 지식이 필요한 경우도 있고, 일본어·중국어·러시아어 등 다양한 언어 능력이 필요하기도 합니다. 이렇듯 ‘데이터 라벨링’의 영역은 점점 확장될 것입니다. AI 기술이 발달함에 따라 더 많은, 더 높은 품질의 데이터가 요구되기 때문이죠.



오늘도 한층 더 똑똑한 소비자가 되셨길 바라며, 이상 여러분의 일상 속 경제 이해 도우미, 아는분이었습니다.

/이현지 인턴기자 hyunji1672@sedaily.com
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >
주소 : 서울특별시 종로구 율곡로 6 트윈트리타워 B동 14~16층 대표전화 : 02) 724-8600
상호 : 서울경제신문사업자번호 : 208-81-10310대표자 : 이종환등록번호 : 서울 가 00224등록일자 : 1988.05.13발행 ·편집인 : 이종환
인터넷신문 등록번호 : 서울 아04065 등록일자 : 2016.04.26발행일자 : 2016.04.01
서울경제의 모든 콘텐트는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
Copyright ⓒ Sedaily, All right reserved

서울경제를 팔로우하세요!

서울경제신문

텔레그램 뉴스채널

서울경제 썸