오늘 태우님 모임에서 첫눈 남세동 팀장님께서 말하신 50% 이전의 검색과 50% 이후의 검색에 대한 말씀... 궁금한 것은 50% 이후의 검색은 IT 업계 종사자의 몫이고 50% 이전의 검색은 일반인의 검색이라는 2분법적인 분류(물론 직접적으로 그렇게 말씀하시진 않으셨지만...)가 미래에도 맞는 것인지 아니면 지금은 단지 IT 업계 종사자가 검색 엔진을 먼저 사용하기에 50% 이후의 검색을 독점하는 것인지... 결국 변호사는 법에 대해 나머지 사람들은 안쓰는 검색어를 사용하고, 의사는 또 다른 검색어를 사용하고... 모든 사람이 자신에게 중요한 (하지만 그 분야에 종사하거나 관심이 있지 않은 사람은 절대 사용하지 않을) 검색어를 사용하는 것이 곧 도래할 미래가 아닌지...
하지만 태깅은 원래부터 검색엔진의 몫이라는 점은 나도 공감하는 부분... 다만 자연어 처리에서 늘 하는 말대로 텍스트의 키워드와 태깅은 분명 다르다는 점을 극복하는 것이 어려울 뿐... 사람은 말할때 Context를 생략하는 경향이 있기 때문에... 예를 들면 웹 2.0이라는 단어를 하나도 안쓰고 웹 2.0에 대해 얘기하는 것이 가능하고 또 대부분의 웹 2.0 글이 컴퓨터와 관련된 글이지만 컴퓨터라는 단어가 들어가는 경우는 드물지 않은가? ... 가장 극단적인 예는 원희룡 의원님 블로그에 있는 "그래도 지구는 돈다"라는 글... 과연 그 글의 Context를 이해하지 않고 그 글의 태그를 뽑아낼 수 있을까? 하지만 하나의 웹 페이지 내에서는 그 Context를 알아내기 힘들지만 웹 전체를 보면 그 페이지 심지어 이미지 및 동영상의 Context를 파악할 수 있다는 아이디어는 매우 놀랍고 새로웠음....
어쨌든 아직은 정리되지 않는 (술도 좀 마셨기에...) 하지만 머리 속을 떠나지 않는 여러가지 생각들...
PS: 모임 후기는 조금더 정리된 후에 올리겠습니다. 중간에 나가서 사실상 절반밖에 보지 못했지만요. ^^
http://twlog.net/wp/?p=391
http://twlog.net/files/web_in_korea.pdf
http://beyondweb.egloos.com/1201602
http://blog.naver.com/wonheeryong.do?Redirect=Log&logNo=110000683372
덧1: 남세동 팀장님께서 답글을 달아 주셨는데, 아무래도 내 글이 정리가 덜 된 것 같다 ^^ "자동차 끼기긱"과 "AJAX"라는 검색어가 모두 50% 이후의 검색어라고 했을때 두 검색어의 특성은 분명히 다르다. "자동차 끼기긱"은 일반인이면 누구나 관심있을 내용이지만 검색 확률이 낮은 것이고, "AJAX"는 웹 쪽 관련자가 아니면 전혀 관심이 없을 내용이지만 웹 쪽 관련자에게는 검색 확률이 높은 검색어 일 것이다. 과연 AJAX에 대한 답변도 UCC를 통해 커버가 가능할까? (이쪽은 그나마 웹 관련이니 쉽겠지만 세상 모든 전문 분야에 대해서 UCC로 커버가 가능할까? 허긴 관련자가 많은 분야는 가능할 수도...) 결국 UCC의 문제는 Scalability인데...
덧2: 첫눈이 "웹 2.0"이라는 키워드를 보고 "컴퓨터"라는 태그를 달아준다는 것 놀랍다. (그 알고리즘이 궁금하긴 하지만 당연히 안 알려주시겠죠?) 그나저나 "그래도 지구는 돈다"라는 글을 보고 "정치"나 "사학법"이라는 태깅도 가능할까? (설마?!?!) 물론 원희룡 의원님 블로그에서 나오는 글이니 "정치"라고 가정할 수도 있겠지만 정치랑 전혀 관계없는 포스팅을 하실수도 있으니... 하지만 이 글을 퍼다나른 블로그들의 글까지 보는 방법을 사용하면 불가능하지 않을 수도...
덧3: 결국 웹은 원래부터 UCC였고 (웹 페이지는 누구나 만들어서 올릴수 있다... 돈이 조금 들겠지만...) 네이버의 지식IN은 사람들이 구조화된 UCC를 안 만들다보니 (만약 XHTML만 의미 있게 쓴다면? 더나아가 RDF를 이용해 관계까지 정의한다면?) 강제로 구조화해서 입력하도록 만든 도구일뿐이라는 생각도 언뜻...
덧4: 어쨌든 술이 깨도 여전히 정리되지 않는 생각들... ㅋㅋㅋㅋㅋㅋㅋㅋ
하지만 태깅은 원래부터 검색엔진의 몫이라는 점은 나도 공감하는 부분... 다만 자연어 처리에서 늘 하는 말대로 텍스트의 키워드와 태깅은 분명 다르다는 점을 극복하는 것이 어려울 뿐... 사람은 말할때 Context를 생략하는 경향이 있기 때문에... 예를 들면 웹 2.0이라는 단어를 하나도 안쓰고 웹 2.0에 대해 얘기하는 것이 가능하고 또 대부분의 웹 2.0 글이 컴퓨터와 관련된 글이지만 컴퓨터라는 단어가 들어가는 경우는 드물지 않은가? ... 가장 극단적인 예는 원희룡 의원님 블로그에 있는 "그래도 지구는 돈다"라는 글... 과연 그 글의 Context를 이해하지 않고 그 글의 태그를 뽑아낼 수 있을까? 하지만 하나의 웹 페이지 내에서는 그 Context를 알아내기 힘들지만 웹 전체를 보면 그 페이지 심지어 이미지 및 동영상의 Context를 파악할 수 있다는 아이디어는 매우 놀랍고 새로웠음....
어쨌든 아직은 정리되지 않는 (술도 좀 마셨기에...) 하지만 머리 속을 떠나지 않는 여러가지 생각들...
PS: 모임 후기는 조금더 정리된 후에 올리겠습니다. 중간에 나가서 사실상 절반밖에 보지 못했지만요. ^^
http://twlog.net/wp/?p=391
http://twlog.net/files/web_in_korea.pdf
http://beyondweb.egloos.com/1201602
http://blog.naver.com/wonheeryong.do?Redirect=Log&logNo=110000683372
덧1: 남세동 팀장님께서 답글을 달아 주셨는데, 아무래도 내 글이 정리가 덜 된 것 같다 ^^ "자동차 끼기긱"과 "AJAX"라는 검색어가 모두 50% 이후의 검색어라고 했을때 두 검색어의 특성은 분명히 다르다. "자동차 끼기긱"은 일반인이면 누구나 관심있을 내용이지만 검색 확률이 낮은 것이고, "AJAX"는 웹 쪽 관련자가 아니면 전혀 관심이 없을 내용이지만 웹 쪽 관련자에게는 검색 확률이 높은 검색어 일 것이다. 과연 AJAX에 대한 답변도 UCC를 통해 커버가 가능할까? (이쪽은 그나마 웹 관련이니 쉽겠지만 세상 모든 전문 분야에 대해서 UCC로 커버가 가능할까? 허긴 관련자가 많은 분야는 가능할 수도...) 결국 UCC의 문제는 Scalability인데...
덧2: 첫눈이 "웹 2.0"이라는 키워드를 보고 "컴퓨터"라는 태그를 달아준다는 것 놀랍다. (그 알고리즘이 궁금하긴 하지만 당연히 안 알려주시겠죠?) 그나저나 "그래도 지구는 돈다"라는 글을 보고 "정치"나 "사학법"이라는 태깅도 가능할까? (설마?!?!) 물론 원희룡 의원님 블로그에서 나오는 글이니 "정치"라고 가정할 수도 있겠지만 정치랑 전혀 관계없는 포스팅을 하실수도 있으니... 하지만 이 글을 퍼다나른 블로그들의 글까지 보는 방법을 사용하면 불가능하지 않을 수도...
덧3: 결국 웹은 원래부터 UCC였고 (웹 페이지는 누구나 만들어서 올릴수 있다... 돈이 조금 들겠지만...) 네이버의 지식IN은 사람들이 구조화된 UCC를 안 만들다보니 (만약 XHTML만 의미 있게 쓴다면? 더나아가 RDF를 이용해 관계까지 정의한다면?) 강제로 구조화해서 입력하도록 만든 도구일뿐이라는 생각도 언뜻...
덧4: 어쨌든 술이 깨도 여전히 정리되지 않는 생각들... ㅋㅋㅋㅋㅋㅋㅋㅋ
공유하기 버튼
|
|





최근 덧글