기술트렌드 | Konan Technology - Part 3
블로그기술트렌드전체보기

기술트렌드

코난테크놀로지의 새로운 지식 정보를 여러분에게 공유합니다.

빅데이터 시대의 기술 (디지에코 기술 보고서)

기술트렌드
2011-12-08



지난 포스팅에서 빅데이터로 인한 비즈니스 패러다임의 변화에 대해서 이야기한 자료를 소개해드렸습니다. 그렇다면 빅데이터 시대에는 어떤 기술이 필요하게 될까요빅데이터 시대의 의미를 짚어보고 대용량 데이터 관리와 처리, 분석을 위해 각광받고 있는 기술에 대해 KT 디지에코에서 기술보고서로 발간된 <Big Data 시대의 기술>이라는 자료가 있어 소개하고자 합니다.






앞선 포스트에서도 언급하였듯이, 빅데이터는 시대의 화두로 떠올랐습니다. 보고서는 20년 전의 PC 메모리, 하드디스크 용량과 최신 PC와 노트북 사양을 비교해보면 처리해야 할 데이터 양의 차이를 가늠할 수 있다고 합니다. 스마트 단말과 소셜 미디어 등으로 대표되는 정보 채널의 등장으로 정보 생산, 유통, 보유량의 증가는 계속적으로 진행 될 것이라 예측하고 있습니다. 따라서 대용량 데이터 처리 능력과 소수의 의미 있는 데이터 발굴 기술이 중요한 것입니다.


 


맥킨지 보고서에 따르면 빅데이터란, 기존의 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는 데이터셋 규모로 그 정의는 주관적이며 앞으로도 계속 변화할 것이라고 소개하고 있습니다. 여기서 데이터량의 기준은 산업분야에 따라 상대적이며 몇 십 테라바이트에서 수 페타바이트까지를 그 범위로 보고 있으며 데이터 증가 속도에 대해서는 정형 데이터가 연간 40~60% 증가세를 보이며 비정형 데이터는 예측 불가능 상태라고 말합니다.


 


빅데이터와 기존 데이터 처리의 다른점에 대해서는 가트너 보고서를 인용하여 다음과 같이 말하고 있습니다.
- 빠른 의사 결정이 상대적으로 덜 요구된다.
- 처리 복잡도가 높다.
- 처리 할 데이터양이 방대하다.
- 비정형 데이터의 비중이 높다.
- 처리/분석 유연성이 높다.
- 동시처리량이 낮다.





상기 여섯가지의 빅데이터의 특징을 만족시키기 위해서는 다양한 기술과 분석기법들이 필요합니다. 보고서는 분석기법과 분석 인프라 측면 두가지로 나누어 다음과 같이 기술에 대해 이야기 합니다.

첫번째로 소개하는 분석 기법 텍스트 마이닝 기법은 비/반정형 텍스트 데이터에서 자연어 처리 기술에 기반한 유용한 정보 추출/가공을 목적으로 하는 기술입니다. 컴퓨터가 인간이 사용하는 언어를 분석하고 그 안의 정보를 발굴해내기 위해 언어자원, 통계적/규칙적 알고리즘이 사용되는 기법으로 주로 문서 분류, 문서 군집, 정보 추출, 문서 요약 등이 있다고 합니다.


두번째로 텍스트 마이닝의 관련 분야로 평판 분석이라고도 불리는 기법으로 오피니언 마이닝을 소개합니다. 소셜 미디어 등의 정형/비정형 텍스트의 긍정, 부정, 중립의 선호도를 판별하는 기술로 특정 서비스 및 상품에 대한 시장 규모 예측, 소비자 반응, 입소문 분석에서 사용되며 정확도를 높이기 위해서는 전문가에 의한 자원 축적이 필요하다고 합니다.



세번째로 소개하는 기법은 소셜네트워크 애널리틱스입니다. 이는 수학의 그래프 이론에 뿌리를 두고 소셜 네트워크 연결 구조 및 강도 등을 바탕으로 사용자의 명성 및 영향력을 측정, 소셜 네트워크 상에서 입소문의 중심이나 허브 역할을 하는 사용자를 찾는 데 주로 사용된다고 합니다. 또한 이렇게 소셜 네트워크 상에서 영향력 있는 사용자를 인플루언서라고 부르며 인플루언서의 모니터링 및 관리는 마케팅 관점에서 중요하다고 주장하고 있습니다.

네번째는 클러스터 애널리틱스를 들고 있습니다. 군집분석으로 불리는 이 기술은 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성군을 발굴하는데 사용합니다. 비슷한 주제를 이야기하는 사용자군은 이 군집분석을 통해 분류됩니다.


위의 분석 기술은 테라바이트 혹은 페타바이트 규모에 적용되는 것으로 설명하며 빅데이터 분석 인프라 기술에 대해서는 다음으로 빅데이터 분석 인프라 기술은 다음과 같이 설명하고 있습니다.


하둡은 오픈 소스 분산처리기술 프로젝트로 현재 정형/비정형 빅데이터 분석에 가장 선호되는 솔루션이라고 합니다. 보고서에 따르면 이 기법은 야후와 페이스북에 사용되고 있으며 주요 구성요소로는 하둡 분산 파일시스템인 HDFS, Hbase, MapReduce가 포함됩니다 기본적으로 가상화된 대형 스토리지(HDFS)를 구성하고, HDFS에 저장된 거대한 데이터셋을 간편하게 분산처리 할 수 있는 자바 기반의 MapReduce 프레임워크를 제공하는데 이외의 Hadoop을 기반으로 한 다양한 오픈소스 분산처리 프로젝트가 존재합니다.

다음으로 소개하는 오픈소스 프로젝트 R은 언어 및 개발환경을 제공하며 이를 통해 기본적인 통계기법부터 모델링, 최신 데이터 마이닝 기법까지 구현/개선이 가능하다고 합니다. 통계분석 분야에서 인지도가 높으며 하둡 환경 상에서 분산처리를 지원하는 라이브러리 덕분에 구글, 페이스북 등 빅 데이터 분석이 필요한 기업에서 널리 사용됩니다.

세번째로 소개하는 NoSQL은 비관계형 데이터 베이스로써 분산가능성에 중점을 두고 일관성과 유효성을 보장하지는 않아 대규모의 유연한 데이터 처리를 위해서는 적합한 기법이라 합니다. 다만 안정성이 중요한 시스템에서는 오랫동안 검증된 관계형 데이터베이스를 채택해야 한다는 점을 유념해야 합니다.

이 보고서는 마지막으로 위 설명한 기술들을 실제 빅 데이터 분석에 활용하기 위해서는 데이터 성격과 기술의 장단점을 잘 파악하고 적용해야 하며 빅데이터 자체를 기술과 인프라 관점에서만 볼 것이 아니라 빅데이터에 기반한 서비스에 대해서도 고민이 필요할 것이라 주장하며 결론을 짓고 있습니다.

자세한 보고서 내용은 아래 링크를 통해 확인하실 수 있습니다.
→ <빅데이터 시대의 기술> 보고서 자세히 보러 가기
- 자료출처: KT 경제경영연구소, 디지에코

최근 OBT를 시작한 코난테크놀로지의 소셜 분석 서비스, 펄스-K의 경우 소셜 네트워크 서비스에서 발생하는 빅데이터를 분석합니다. 보고서에 나온 소셜네트워크 애널리틱스와 오피니언 마이닝 기법을 통해 소셜네트워크 상의 영향력 있는 사용자, 인플루언서를 찾고 데이터들의 긍정과 부정, 중립 선호도를 판별해 비즈니스에서 마케팅 관점으로 비즈니스의 인사이트를 도출하는 것입니다. 이 외에 발전하는 기술에 따라 또 어떤 서비스를 만나볼 수 있게 될지 기대해봅니다.



 

NoSQL, r, 데이터, 보고서, 비정형데이터, 빅데이터, 소셜네트워크 애널리틱스, 오피니언마이닝, 자료실, 정형데이터, 코난테크놀로지, 클러스터 애널리틱스, 텍스트마이닝, 펄스-K, 하둡,

댓글 총 0

댓글남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.


a_top

SITEMAP