전체메뉴

검색
팝업창 닫기
이메일보내기

[인터넷라이프/정보검색ABC] 검색엔진

웹 페이지가 워낙 방대한데다, 기하급수적으로 늘어나다 보니 세계적인 검색엔진이라도 실제 검색율은 10% 정도에 불과한 실정이다. 그러나 역시 정보를 찾기 위해서는 검색엔진에 기댈 수 밖에 없고 당연히 검색엔진의 이용 회수도 하루 평균 500만건을 웃돈다.검색엔진은 이 엄청난 검색 요구를 어떻게 모두 수용하는 것일까. 답은 불용어(不用語·STOP WORDS)에 있다. 불용어는 문자 그대로 풀이하면 사용하지 않는 단어다. 실제로는 너무 빈번하게 사용되기 때문에 검색에서 별다른 의미를 지니지 못하는 단어를 뜻한다. 검색엔진들이 주로 불용어로 지정하는 단어는 이용자들이 가장 많이 사용하는 섹스(SEX)나 인터넷(INTERNET) 같은 것들이다. 대부분의 검색엔진들은 이런 불용어들을 아예 색인(INDEX)에 포함시키지 않거나, 색인에는 넣더라도 그 단어에 대한 검색은 생략한다. 이렇게 함으로써 검색엔진은 색인을 저장하는 디스크 공간을 절약하면서, 동시에 검색 속도의 향상을 꾀하고 있다. SEX 이외의 불용어는 검색엔진마다 조금씩 다르다. 하지만 스패머(광고성 기사게시자) 때문에 어떤 단어를 불용어에 포함시키는지는 결코 공표하지 않는다. 만약 꼭 불용어가 포함된 용어를 검색할 필요가 생긴다면 어떻게 해야 할까? 검색엔진에서 INTERNET CAFE라는 용어를 입력하면 십중팔구 INTERNET이라는 단어를 무시하고, CAFE만 검색한 결과를 내놓는다. 이를 방지하기 위해서는 『INTERNET CAFE』처럼 따옴표로 두 단어를 묶어서 검색해야 한다. 따옴표에 들어 있는 단어는 모두 하나의 단어로 인식하기 때문이다. 검색엔진은 사용자가 무엇을 찾고자 하는지 꿰뚫어 보는 독심술사가 아니다. 단지 보유하고 있는 색인을 사용자가 입력한 검색어에 맞게 걸러주는 역할을 수행하는 컴퓨터 시스템일 뿐이다. 제공:진솔인터넷 (WWW.JINSOL.COM)

< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >
주소 : 서울특별시 종로구 율곡로 6 트윈트리타워 B동 14~16층 대표전화 : 02) 724-8600
상호 : 서울경제신문사업자번호 : 208-81-10310대표자 : 손동영등록번호 : 서울 가 00224등록일자 : 1988.05.13
인터넷신문 등록번호 : 서울 아04065 등록일자 : 2016.04.26발행일자 : 2016.04.01발행 ·편집인 : 손동영청소년보호책임자 : 신한수
서울경제의 모든 콘텐트는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
Copyright ⓒ Sedaily, All right reserved

서울경제를 팔로우하세요!

서울경제신문

텔레그램 뉴스채널

서울경제 1q60