기술트렌드 | Konan Technology - Part 2
블로그기술트렌드전체보기

기술트렌드

코난테크놀로지의 새로운 지식 정보를 여러분에게 공유합니다.

[검색] 텍스트 분석의 진화, 시맨틱 검색

기술트렌드
2012-01-27

2009년 9월 30일 네이트에 시맨틱 검색이 오픈 했습니다.
코난테크놀로지의 텍스트 분석 기술의 집약이라고 볼 수 있는 시맨틱 검색은 당시 관련 업계에 많은 관심과 조명을 받았습니다.

이번 포스트에서는 시맨틱 검색에 대한 기술 소개를 하고자 합니다.

 

?

 

시맨틱검색 연대기

 

2007. 시맨틱 검색 개발 시작.
2009. 2. 28 네이트 검색실험실 오픈
2009. 9. 30 네이트 시맨틱 검색 오픈??

 

 

 

 

시맨틱 검색 기술 ? 개요

 

시맨틱(semantic)은 “의미의, 어의의”란 뜻을 갖고 있습니다. 그래서 시맨틱 검색이란 “뜻을 이해하는 검색”이라고 정의할 수 있습니다. 문장이나 단락에 기술된 주제를 파악하고 이를 대상으로 검색하는 것을 말합니다.

시맨틱 검색은 사용자의 검색의도를 파악하고, 문서에 기술된 어휘의 의미와 문맥을 분석하여, 사용자가 원하는 검색 결과를 제시하는 것을 목표로 삼고 있습니다. 기반 기술로는 문단 주제 추출, 문장 주제 추출, 시맨틱 프레임 생성, 질의 의미 분석 등이 있죠.

 

시맨틱 검색은 의미에 기초한 검색결과를 제공하기 때문에 검색결과의 정확도가 높습니다. 또한, 즉답 형태의 검색결과를 제공하기 때문에 결과에 대한 접근성이 용이합니다.

 

 

 

시맨틱 검색 기술 ? 키워드검색 vs 시맨틱검색

N-GRAM 검색은 1음절, 2음절, 3음절, … 등 음절 단위의 색인어를 생성해 두고, 검색어에 매칭시키는 방법입니다. 높은 재현율을 보장하나, 의미 단위 색인어 추출방식이 아니기 때문에 정확도가 떨어집니다. “천국”으로 검색하면 “인천국제공항”이 검색되는 문제가 있습니다.

형태소분석 검색은 형태소 단위의 색인어를 생성해 두고, 검색어에 매칭시키는 방법입니다. 의미의 최소 단위인 형태소를 기준으로 색인어를 추출했기 때문에 N-GRAM보다 정확도가 높습니다. 현재 형태소분석은 키워드검색의 대표주자로 사용되고 있습니다. 그러나, 형태소분석 검색도 한계는 있습니다. 어휘의 의미를 파악한 색인어 추출이 아니기 때문에 “이효리 생일”이란 검색어에 대해서는 “이효리, 생일”이란 단어가 포함된 문서만 검색됩니다. “출생”, “태어났다” 등으로 기술된 문서는 의미가 같더라도 검색 결과에서 누락될 수 밖에 없습니다.

 

반면, 시맨틱 검색은 문맥을 분석하여 주제어를 추출하여 색인어로 생성해 두고, 검색어에 매칭시키는 방법입니다. 따라서, 검색어와 일치하는 주제를 기술한 문서만을 검색결과에 노출하기 때문에 정확도가 높습니다.

 

 

 

<표1 검색유형별 비교>

N-GRAM 검색

형태소분석 검색

시맨틱 검색

Primitive

자소

품사

문맥

Key Extraction

Context-Free

Context-Free

Context-Sensitive

Key Form

String

Word

Phrase

User Intention

No

No

Yes

Semantic Search

No

No

Yes

Relevance (Quality)

Poor

Good

Excellent

Ranking

통계기반

통계기반

의미기반

Precision

Low

Middle

High

Recall

High

Middle

Low

적용 분야 예

책, 영화 제목

요약문

본문

 

<표2 검색유형별 색인어 예시>

원문

N-GRAM 검색

형태소분석 검색

시맨틱 검색

이순신은 인종 1년인 1545년 4월 28일, 서울 건천동에서 태어났습니다

이순, 순신, 신은, 인종, 1년, 년인, 15, 45, 5년, 4월, 28, 8일, … (생략)

이순신, 인종, 1년, 1545년, 4월, 28일, 서울, 건천동, 태어났습니다

이순신 출생일 1545년4월28일
이순신 출생지 서울건천동

지방간을 예방하기 위해서는 과음과 과식을 피하고

지방, 방간, 간을, 예방, 방하, 하기, 위해, 해서, … (생략)

지방간, 예방, 위해서, 과음, 과식, 피하고

지방간 예방법
삼계탕
●재료
영계 1마리, 찹쌀 2/3컵, 대추 8개, 밤 5개, 마늘 4쪽, 수삼 또는 건삼 1뿌리
●만드는 법
1. 영계를 준비하여 내장을 깨끗이 씻어 내고 뱃속에 찹쌀, 마늘, 대추, 밤을 넣고 꿰맨다.
2. 영계가 잠길 정도로 물을 넉넉히 붓고 인삼을 넣어 뚜껑을 열어 둔다.

삼계, 계탕, 재료, 영계, 1마, 마리, 참쌀, 2/, /3, 3컵, 대추, 8개, 밤, 5개, 마늘, 4쪽, 수삼, 또는, 건삼, 1뿌, 뿌리, 만드, 드는, 법, 1., 영계, 계를, 준비, 비하, 하여, 내장, 장을, 깨끗, 끗이, 씻어, 내고, 뱃속, 속에, 찹쌀, 마늘, 대추, 밤을, … (생략)

삼계탕, 재료, 영계, 1마리, 참쌀, 2, 3컵, 대추, 8개, 밤, 5개, 마늘, 4쪽, 수삼, 또는, 건삼, 1뿌리, 만드는, 법, 1, 영계, 준비, 깨끗이, 씻어, 내고, 뱃속, 참쌀, 마늘, 대추, 밤, 넣고, 꿰맨다, 2, …. (생략)

삼계탕 요리법

 

시맨틱 검색 기술 ? 색인

시맨틱 주제를 추출하는 방법은 문장을 분리하고 문맥 패턴을 매칭하여 타이틀, 속성, 즉답을 추정하여 색인어를 생성합니다. 타이틀이란 문장에서 기술되는 주어(subject)이며, 속성은 서술어(predicate)이며, 즉답은 목적어(object) 입니다.

<그림1 타이틀, 속성, 즉답>

 

 

코난테크놀로지의 시맨틱 속성은 인물, 엔터테인먼트, 음식, 질병, 스포츠, … 등의 카테고리에 대해 5천여개의 다양한 속성과 이를 기술하는 150만의 문맥 패턴을 보유하고 있습니다.

?

<그림2 시맨틱 속성>

 

 

 

시맨틱 검색 기술 ? 시맨틱 프레임

색인이 끝나면, 방대한 문서로부터 각각 추출된 색인키를 검색결과로 노출될 수 있도록 정제하는 작업이 필요합니다. 이 단계를 시맨틱 프레임이라고 부릅니다. 이 단계에서 타이틀을 기준으로 속성과 즉답에 대한 정규화 및 랭킹을 부여하게 됩니다.

 

<그림3 시맨틱 프레임 예>

타이틀

속성

즉답

파스타

시청률 10%, 10.8%, 11,9%, 12,5%, 13.4%, 15.1%, 18.5%
극중인물 김산, 서유경, 오세영, 이지훈, 한상식,
주인공 공효진, 알렉스, 오윤아, 이선균
만드는법 파스타 재료: 저민 마늘, 페페론치노(갈은 고추), 올리브 오일, 파슬리, 스파게티면, 파마산 치즈…
출연진 공효진, 알렉스, 오윤아, 이선균,노민우,이현욱

 

 

시맨틱 검색 기술 ? 시스템 워크플로우

시맨틱 검색의 색인, 프레임 생성, 검색 단계별 워크플로우는 아래 그림과 같습니다.

 

<그림3 전체 흐름도>

 

<그림4 색인 흐름도>

 

<그림5 시맨틱 프레임 흐름도>

 

 

<그림6 검색 흐름도>

 

 

시맨틱 검색 기술 ? 구축 사례

코난테크놀로지의 시맨틱 검색은 현재 네이트와 11번가에 적용되고 있습니다. 영문 시맨틱 검색도 코난랩(http://labs.konantech.com)을 통해 확인해 보실 수 있습니다.

 

<그림7 구축 사례 ? 네이트>

<그림8 구축사례 – 11번가>

<그림9 구축사례 ? 영문 시맨틱>

 

 

시맨틱 검색 기술 ? 한계 및 대책

현재의 시맨틱 검색은 검색결과에 제시되는 속성과 즉답의 정보성이 부족하여 사용도 만족도를 충족하기에는 미흡한 점이 많습니다. 또한, 포괄적인 정보를 찾고 싶은 때는 유용하지만, 정보의 구체화에는 풀어야 할 과제가 많습니다. 검색결과 정확도와 재현율을 높이기 위해 속성을 좀 더 다양하게 확장해야 하며, 즉답의 과탈락 및 과분석 방지를 위해 구문분석을 강화해야 합니다.

 

21세기는 사는 우리에게 10년이면 강산이 변한다는 옛말은 무색합니다. 특히 변화의 최첨단에 있는 검색분야에서는 1년, 짧게는 6개월 단위로 트렌드가 변화하고 있습니다. 지난 2년을 돌이켜 봤을 때, 2010년에는 시맨틱 검색이, 2011년에는 소셜 검색(감성 검색)이 시장의 화두였습니다.

텍스트 분석 기술을 연구하고 개발하는 입장에서 볼 때, 텍스트 분석에 대한 세상의 요구와 변화에 보조를 맞추기가 쉽지만은 않는 게 사실입니다. 텍스트 분석 개발자로서 앞으로도 할 일이 무궁무진함을 감사(?)해 하며, 이만 글을 마칩니다.

 

n 그램, 시맨틱, 시맨틱 검색, 온톨로지, 코난, 코난테크놀, 형태소,

댓글 총 0

댓글남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.


a_top

SITEMAP