Document Clustering

사람들은 인터넷을 검색할때 많은 정보를 생략하는 경향이 있다. 예를들어 화요일에 "세네갈"이라는 검색을 수행한 이유는 아마도 대부분 "5월 23일 화요일 대한민국 vs 세네갈 축구 경기"를 찾고자 함이었을 것이다. 그러나 일반적인 검색 엔진은 세네갈 국가 정보, 세네갈의 주요 여행지 등 수많은 정보를 보여 줄 수 밖에 없었을 것이다. 문제는 인터넷 상에 있는 웹 페이지가 너무 많이 때문에 이러한 정보를 모두 포함시켜 보여준다면 원하는 정보를 찾기는 거의 불가능에 가깝다. 이러한 문제를 해결하기 위한 방법 중 하나는 Document Clustering이다. Document Clustering은 각 문서를 비슷한 내용끼리 묶어서 보여주는 방법이다. 대표적으로 첫눈의 검색 방법을 생각하면 된다. 물론 이러한 기술을 연구한 것은 첫눈이 처음은 아닌듯 하다. 주로 데이터 마이닝 연구나 논문의 자동 분류를 위해 연구 되었으며 이를 웹에 적용하기 위한 연구도 제법 이루어져 있다. 첫눈과 비슷한 예로 iboogie 같은 외국의 검색 엔진도 존재한다. Document Clustering을 하는 방법은 매우 여러가지가 있지만 크게 Hierarchical Clustering Methods, Partitioning Clustering Methods, Frequent Itemset-based Methods, Frequent Itemset-based Hierarchical Clustering 로 나눌 수 있다고 한다. 데이터 마이닝 쪽은 문외한이라 자세한 설명을 논문을 참조... Document Clustering에 관련된 기술은 결국 최종 목적은 인간이 찾기 쉬운 형태를 만드는 것이기 때문에 어떻게 하면 인간의 개념의 분류 방법에 가깝도록 문서를 자동으로 분류하느냐에 달렸다.

http://www.1noon.com/
http://www.iboogie.com/
http://www.cs.sfu.ca/~ester/papers/Encyclopedia.pdf
http://beyondweb.egloos.com/1966666

by 달삼 | 2006/05/26 02:14 | 트랙백 | 덧글(0)

트랙백 주소 : http://beyondweb.egloos.com/tb/2014864
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]

:         :

:

비공개 덧글

◀ 이전 페이지          다음 페이지 ▶