검색엔진의 역사가 얼마나 되었을까?
역사라고 하기에는 아직 여드름 가득한 청춘의 나이라고 보아야 한다. 1964년에 처음으로 의학정보도서관인 NLM이 Medline이라는 서비스가 시작이라지만, 그 당시의 컴퓨터라는 것이 지금의 어린이용 게임기보다 더 유치한 수준이었으니 그냥 그랬나보다 하고 넘어가는 것이 좋겠다.
1세대) 동일한 구조/형태 문서에 대한 검색 - 일종의 도서 검색 프로그램
1990년에 처음으로 Ranking의 개념이 있는 상업용 검색서비스 WINS라는 것이 나왔다. 이때에 문서에서 단어가 사용된 횟수(tf: term frequency)와 그 단어가 몇개의 문서에서 나타났는지 (idf : Inverted document frequency)를 이용해서 어떠한 단어에 대해서 그 단어가 여러번 나온 문서를 1등으로 결정하는 것, 여러개의 단어에 대해서는 여러개의 문서에 흔하게 나오는 단어의 중요도는 낮춰주는 것을 중요한 보는 Vector Space Model이 나왔다. 검색의 대상이 되는 문서가 모두 동등한 중요도를 가지고 있기 때문에, 별다른 방법이 없었고, 이것 만으로도 충분하게 검색을 할 수 있었다. 지금도 인터넷 검색엔진에서 백과사전/도서/자료실 등의 컨텐츠 검색이나, 기업용 검색 솔루션의 근간이 되고 있는 철학이다.
tw = tf/idf - 이것은 물리학의 f=ma 만큼이나 정보학의 기본 이론이다.
이 시기에 가장 대표적인 회사는 Verity하는 미국 회사이다.
2세대) 웹이라는 인터넷 정보공간에 카타로그 같은 페이지들을 검색
- 인터넷 검색엔진이라고 현재 불리우는
1993년에 인터넷이 나오고, 인터넷, 특히 WWW에 문서들이 생겨나기 시작했다. WWW에 누가 정보를 올리나 싶었지만, 학교나 교수, 연구소, 박사과정 학생들이 일종의 유행처럼 홈페이지를 만들기 시작했다. 그러더니 혁신적인 회사들, 처음에는 IT 관련 기업들부터 홈페이지를 만들어 댔다. 그러한 홈페이지에는 일종의 형식이 있었다. 이것은 마치 홍보자료와 같은 성격이기 때문에 카탈로그라고 한다. 정부기관의 홈페이지에는 각종 국정 홍보자료들이, 기업의 홈페이지에는 기업의 홍보자료와 제품에 대한 홍보 자료들이, 학교의 홈페이지에는 각 교수들의 연구개발 자료들이, 개인의 홈페이지에는 이력서와 가족 사진 등 인터넷에는 각종 홍보자료들이 넘처나기 시작했다.
1994년에 야후라는 사이트가 인터넷 상의 웹사이트들을 체계적으로 정리해가면서 유용하게 쓰일때 쯤에 1세대)의 엔진을 잘 알고 있던 사람들이 (카네기 멜론대 - 라이코스, 스텐포드대 - 잉크토미, 컴퓨터 잘만들던 디지털이큅먼트사(DEC:Digital Equipment Corporation) 1세대)의 방식으로 웹의 모든 문서를 대상으로 하는 웹검색을 만들었다. 일반인들이 정보검색이라는 것을 맛보는 첫 만남이었고, 감동의 기간이었다. 1세대)의 컨텐츠는 많아야 10만건 혹은 100만건 정도였지만, 2세대)는 쉽게 1000만건을 넘기더니, 최근에는 200억건이 넘는 컨텐츠가 생겨났다.
인터넷에 카타로그를 올려 놓으면, 인쇄할 필요없이 쉽게 소개할 수 있고 쉽게 내용을 바꾸어 놓을 수 있기 때문에, 홍보의 필요성이 있는 사람들은 WWW으로의 출판을 선호하게 된다. 그리고 누가 회사에 대해서 물어보면, "응~~, 홈페이지는 www.moransoft.com 이야, 거기에 다 있어" 이렇게 답변하면 되니까 아주 편리해 졌다. "응~~, 사진은 내 홈페이지에 올려 놨어." 이것은 출판의 혁명이었다.
컨텐츠의 성격이 바뀌었는데, 아직 1세대)의 강자들의 눈에는 문서 건수가 많아진 것에만 관심이 있었다. 1세대)의 tf/idf로 랭킹은 하는데, 문서의 숫자가 너무 많아지게 되자, 대용량, 분산처리 등의 기술이 필요했던 것이다. 그래서 대용량 컴퓨터 기술을 가진 DEC의 알타비스타가 잠시 이 세상을 장악한다. 그런데, 1996년 경에 두 변칙 검색맨이 그당시의 모든 강자들을 제거하였다. 그것이 Page Rank였다. 야후를 뒤집은 것인데, 이 친구들은 프로그램을 할 줄 알았나보다. 정보검색의 이론에는 Citation Count라고 도서관에서 어떤 책이나 논문이 제안할까 할때에, 다른 사람들의 논문이나 책에 많이 인용된 것에 권위를 부여하는 방식이 있었는데, 이것을 웹 문서에 적용하였고 수학을 잘 하던 두 친구가 이 문제를 어찌어찌해서 해결해 나간다. 즉, 2세대)의 문서는 1세대)의 기술로는 만족되지 않았던 것이 있었던 것이다.
그것이 무엇이었을까?
그것은 tf/idf + Page Rank이다.
1세대)의 문서는 내용이 모두 평등했다. 그러니까 tf/idf밖에는 사용할 것이 없었다. 2세대)의 문서는 Site단위로 단어에 대해서 평등하지 않다. 노무현대통령에 대한 글은 청와대가 가장 권위가 있을 것이고, 그다음이 정부의 사이트나 신문사 같은 언론기관 등이 권위를 가질 것이다. 그러므로 구글의 Page Weigth (사실은 Site에 대한 인기도이며 Site 단위를 벗어나지 않는다)가 인터넷 상의 비평등 혹은 권위의 높음과 낮음에 대해서 반영하여 컨텐츠의 속성을 잘 다루었다고 할 수 있다.
3세대) 블로그라고 대표되는 Opinion 컨텐츠, 그리고 Communication 컨텐츠
- 일상 생활에서의 의사결정 정보
영화를 보고 싶은데, 무엇을 볼까?
새우튀김을 하고 싶은데, 어떻게 해야 하지?
해외여행을 하고 싶은데, 유럽에 가면, 어떠한 일정으로 어디서 자야하고, 혹시 나쁜 일은 안생길까?
인터넷이 일상화되면서, (우리나라 사람 1인당 하루에 웹문서를 100번정도 본다, 믿거나 말거나) 예전에는 TV나, 여행사, 신문 등에서 어쩌다가 얻을 수 있었던 정보를 이제는 즉시 찾을 수 있게 되었다. 우선은 2세대)의 카탈로그를 쉽게 찾아서 읽을 수 있고, 잘 정리해서 프린트할 수 있기 때문에, 보와 지식은 컴퓨터라는 기계에 모두 들어가 버린것 같은 착각이 지속적으로 확대되어 가고 있다. 2세대)의 카탈로그같은 홈페이지에 특별한 기능이 있었는데, 그것이 게시판 BBS이다. 전자책이 종이책보다 글을 쓰는 것은 편하지 않지만, 인터넷에 올려지면서 즉시 누구에게나 쉽게 전달되기 때문에 2세대)의 카탈로그보다 훨씬 더 많은 정보들이 생산되게 되었다. 그러나 그 글의 성격은 단순 홍보성의 카탈로그 제작자와 성격이 다르게, 그 제품을 비판한다거나 칭찬한다거나, 얽힌 경험을 이야기하는 등의 부드러우면서도 친근한 글이 생산되게 되었다. 또, 즉시 공개되기 때문에, 일종의 대화 (Communication)의 성격도 포함되게 되었다.
3세대)의 백미는 블로그였고, 여기에는 RSS라는 특별한 기능이 더해졌다. 예전에는 그 페이지에 가서 봐야하는 내용이, 컴퓨터의 도움으로 능동적으로 전달되는 것이다. 즉, 관심있는 페이지에 가지 않아도, 관심 있는 것들이 나에게 밀려 오는 멋진 기능으로 마우스와 키보드 품을 덜 팔아도 정보를 볼 수 있게 되는 것이다. 아직 3세대)에 적합한 검색 모델은 나오지 않았다. 2세대)의 검색 모델이 부적함에도 불구하고 아직 3세대)에 합당한 변칙은 나오지 않았다.
다만,
- 최근의 정보가 더 가치가 있고, (최근 블로그 글의 검색 랭킹에 날짜 요소가 비중이 높다)
- 다른 사람들이 많이 읽은 것, (지식 검색의 경우에는 이것의 비중이 높다)
- 많은 사람이 스크랩한 것 (아마도 첫눈의 스노우랭크라고 불리는 것이 요것을 중요하게 봤다고
하지만 3세대)의 성격을 모두 포함할 수는 없었나 보다),
- 내용이 풍부한 것 (나는 이것을 중요하게 접근하고 있다)
등이
중요할 것 같다는 느낌은 있지만
이것들의 핵심을 찌르는 정보모델 혹은 서비스는 나오지 않았다.
현재의 3새대) 컨텐츠를 다루는 검색모델은
tf/idf + Page Rank' + Human factor 이다.
3세대)의 검색엔진은 어떠해야 할까...
5년후 쯤에는 정답이 무엇이었는지 말할 수 있을 것 같다.
2세대)와 다르다는 점의 힌트는 이런것 같다.
1. 사이트의 권위가 글의 권위와 동일하게 여겨질 수 없다. 많은 글들이 무료로 제공되는 사이트에 올려져있다. 이글루스의 글이 네이버, 다음, 야후 블로그의 글보다 더 권위가 있다고 할 수 없다.
2. 저작자의 정보에 대한 권위를 저작자의 권위와 동일하게 할 수 있지 않다. 자전거 여행에 권위를 가지고 있는 저작자가 재태크에도 권위를 가지고 있지는 않다. 글의 내용이 무엇을 소개한다기 보다는 경험을 위주로 하고 있다. 글의 소재가 단순히 글 속에 나타나는 단어 모두라고 보기에는 문제가 있다.
3. 글을 읽은 사람의 숫자가 글의 권위를 표현한다고 할 수 있지 않다. 정보 중의 많은 부분은 Freshness가 생명이다. 과거에 많이 스크랩되었던 것이 이제는 전혀 쓸모없는 것이 되어버릴 수가 있다. 판교분양이 끝난 지금, 재테크 분야에서 판교 분양은 더이상 중요한 정보가 아닐 수 있다.
그리고, 인터넷에 올라가는 정보는 끊임없이 증가하고 그 속도는 무지 빠르다.
역사라고 하기에는 아직 여드름 가득한 청춘의 나이라고 보아야 한다. 1964년에 처음으로 의학정보도서관인 NLM이 Medline이라는 서비스가 시작이라지만, 그 당시의 컴퓨터라는 것이 지금의 어린이용 게임기보다 더 유치한 수준이었으니 그냥 그랬나보다 하고 넘어가는 것이 좋겠다.
1세대) 동일한 구조/형태 문서에 대한 검색 - 일종의 도서 검색 프로그램
1990년에 처음으로 Ranking의 개념이 있는 상업용 검색서비스 WINS라는 것이 나왔다. 이때에 문서에서 단어가 사용된 횟수(tf: term frequency)와 그 단어가 몇개의 문서에서 나타났는지 (idf : Inverted document frequency)를 이용해서 어떠한 단어에 대해서 그 단어가 여러번 나온 문서를 1등으로 결정하는 것, 여러개의 단어에 대해서는 여러개의 문서에 흔하게 나오는 단어의 중요도는 낮춰주는 것을 중요한 보는 Vector Space Model이 나왔다. 검색의 대상이 되는 문서가 모두 동등한 중요도를 가지고 있기 때문에, 별다른 방법이 없었고, 이것 만으로도 충분하게 검색을 할 수 있었다. 지금도 인터넷 검색엔진에서 백과사전/도서/자료실 등의 컨텐츠 검색이나, 기업용 검색 솔루션의 근간이 되고 있는 철학이다.
tw = tf/idf - 이것은 물리학의 f=ma 만큼이나 정보학의 기본 이론이다.
이 시기에 가장 대표적인 회사는 Verity하는 미국 회사이다.
2세대) 웹이라는 인터넷 정보공간에 카타로그 같은 페이지들을 검색
- 인터넷 검색엔진이라고 현재 불리우는
1993년에 인터넷이 나오고, 인터넷, 특히 WWW에 문서들이 생겨나기 시작했다. WWW에 누가 정보를 올리나 싶었지만, 학교나 교수, 연구소, 박사과정 학생들이 일종의 유행처럼 홈페이지를 만들기 시작했다. 그러더니 혁신적인 회사들, 처음에는 IT 관련 기업들부터 홈페이지를 만들어 댔다. 그러한 홈페이지에는 일종의 형식이 있었다. 이것은 마치 홍보자료와 같은 성격이기 때문에 카탈로그라고 한다. 정부기관의 홈페이지에는 각종 국정 홍보자료들이, 기업의 홈페이지에는 기업의 홍보자료와 제품에 대한 홍보 자료들이, 학교의 홈페이지에는 각 교수들의 연구개발 자료들이, 개인의 홈페이지에는 이력서와 가족 사진 등 인터넷에는 각종 홍보자료들이 넘처나기 시작했다.
1994년에 야후라는 사이트가 인터넷 상의 웹사이트들을 체계적으로 정리해가면서 유용하게 쓰일때 쯤에 1세대)의 엔진을 잘 알고 있던 사람들이 (카네기 멜론대 - 라이코스, 스텐포드대 - 잉크토미, 컴퓨터 잘만들던 디지털이큅먼트사(DEC:Digital Equipment Corporation) 1세대)의 방식으로 웹의 모든 문서를 대상으로 하는 웹검색을 만들었다. 일반인들이 정보검색이라는 것을 맛보는 첫 만남이었고, 감동의 기간이었다. 1세대)의 컨텐츠는 많아야 10만건 혹은 100만건 정도였지만, 2세대)는 쉽게 1000만건을 넘기더니, 최근에는 200억건이 넘는 컨텐츠가 생겨났다.
인터넷에 카타로그를 올려 놓으면, 인쇄할 필요없이 쉽게 소개할 수 있고 쉽게 내용을 바꾸어 놓을 수 있기 때문에, 홍보의 필요성이 있는 사람들은 WWW으로의 출판을 선호하게 된다. 그리고 누가 회사에 대해서 물어보면, "응~~, 홈페이지는 www.moransoft.com 이야, 거기에 다 있어" 이렇게 답변하면 되니까 아주 편리해 졌다. "응~~, 사진은 내 홈페이지에 올려 놨어." 이것은 출판의 혁명이었다.
컨텐츠의 성격이 바뀌었는데, 아직 1세대)의 강자들의 눈에는 문서 건수가 많아진 것에만 관심이 있었다. 1세대)의 tf/idf로 랭킹은 하는데, 문서의 숫자가 너무 많아지게 되자, 대용량, 분산처리 등의 기술이 필요했던 것이다. 그래서 대용량 컴퓨터 기술을 가진 DEC의 알타비스타가 잠시 이 세상을 장악한다. 그런데, 1996년 경에 두 변칙 검색맨이 그당시의 모든 강자들을 제거하였다. 그것이 Page Rank였다. 야후를 뒤집은 것인데, 이 친구들은 프로그램을 할 줄 알았나보다. 정보검색의 이론에는 Citation Count라고 도서관에서 어떤 책이나 논문이 제안할까 할때에, 다른 사람들의 논문이나 책에 많이 인용된 것에 권위를 부여하는 방식이 있었는데, 이것을 웹 문서에 적용하였고 수학을 잘 하던 두 친구가 이 문제를 어찌어찌해서 해결해 나간다. 즉, 2세대)의 문서는 1세대)의 기술로는 만족되지 않았던 것이 있었던 것이다.
그것이 무엇이었을까?
그것은 tf/idf + Page Rank이다.
1세대)의 문서는 내용이 모두 평등했다. 그러니까 tf/idf밖에는 사용할 것이 없었다. 2세대)의 문서는 Site단위로 단어에 대해서 평등하지 않다. 노무현대통령에 대한 글은 청와대가 가장 권위가 있을 것이고, 그다음이 정부의 사이트나 신문사 같은 언론기관 등이 권위를 가질 것이다. 그러므로 구글의 Page Weigth (사실은 Site에 대한 인기도이며 Site 단위를 벗어나지 않는다)가 인터넷 상의 비평등 혹은 권위의 높음과 낮음에 대해서 반영하여 컨텐츠의 속성을 잘 다루었다고 할 수 있다.
3세대) 블로그라고 대표되는 Opinion 컨텐츠, 그리고 Communication 컨텐츠
- 일상 생활에서의 의사결정 정보
영화를 보고 싶은데, 무엇을 볼까?
새우튀김을 하고 싶은데, 어떻게 해야 하지?
해외여행을 하고 싶은데, 유럽에 가면, 어떠한 일정으로 어디서 자야하고, 혹시 나쁜 일은 안생길까?
인터넷이 일상화되면서, (우리나라 사람 1인당 하루에 웹문서를 100번정도 본다, 믿거나 말거나) 예전에는 TV나, 여행사, 신문 등에서 어쩌다가 얻을 수 있었던 정보를 이제는 즉시 찾을 수 있게 되었다. 우선은 2세대)의 카탈로그를 쉽게 찾아서 읽을 수 있고, 잘 정리해서 프린트할 수 있기 때문에, 보와 지식은 컴퓨터라는 기계에 모두 들어가 버린것 같은 착각이 지속적으로 확대되어 가고 있다. 2세대)의 카탈로그같은 홈페이지에 특별한 기능이 있었는데, 그것이 게시판 BBS이다. 전자책이 종이책보다 글을 쓰는 것은 편하지 않지만, 인터넷에 올려지면서 즉시 누구에게나 쉽게 전달되기 때문에 2세대)의 카탈로그보다 훨씬 더 많은 정보들이 생산되게 되었다. 그러나 그 글의 성격은 단순 홍보성의 카탈로그 제작자와 성격이 다르게, 그 제품을 비판한다거나 칭찬한다거나, 얽힌 경험을 이야기하는 등의 부드러우면서도 친근한 글이 생산되게 되었다. 또, 즉시 공개되기 때문에, 일종의 대화 (Communication)의 성격도 포함되게 되었다.
3세대)의 백미는 블로그였고, 여기에는 RSS라는 특별한 기능이 더해졌다. 예전에는 그 페이지에 가서 봐야하는 내용이, 컴퓨터의 도움으로 능동적으로 전달되는 것이다. 즉, 관심있는 페이지에 가지 않아도, 관심 있는 것들이 나에게 밀려 오는 멋진 기능으로 마우스와 키보드 품을 덜 팔아도 정보를 볼 수 있게 되는 것이다. 아직 3세대)에 적합한 검색 모델은 나오지 않았다. 2세대)의 검색 모델이 부적함에도 불구하고 아직 3세대)에 합당한 변칙은 나오지 않았다.
다만,
- 최근의 정보가 더 가치가 있고, (최근 블로그 글의 검색 랭킹에 날짜 요소가 비중이 높다)
- 다른 사람들이 많이 읽은 것, (지식 검색의 경우에는 이것의 비중이 높다)
- 많은 사람이 스크랩한 것 (아마도 첫눈의 스노우랭크라고 불리는 것이 요것을 중요하게 봤다고
하지만 3세대)의 성격을 모두 포함할 수는 없었나 보다),
- 내용이 풍부한 것 (나는 이것을 중요하게 접근하고 있다)
등이
중요할 것 같다는 느낌은 있지만
이것들의 핵심을 찌르는 정보모델 혹은 서비스는 나오지 않았다.
현재의 3새대) 컨텐츠를 다루는 검색모델은
tf/idf + Page Rank' + Human factor 이다.
3세대)의 검색엔진은 어떠해야 할까...
5년후 쯤에는 정답이 무엇이었는지 말할 수 있을 것 같다.
2세대)와 다르다는 점의 힌트는 이런것 같다.
1. 사이트의 권위가 글의 권위와 동일하게 여겨질 수 없다. 많은 글들이 무료로 제공되는 사이트에 올려져있다. 이글루스의 글이 네이버, 다음, 야후 블로그의 글보다 더 권위가 있다고 할 수 없다.
2. 저작자의 정보에 대한 권위를 저작자의 권위와 동일하게 할 수 있지 않다. 자전거 여행에 권위를 가지고 있는 저작자가 재태크에도 권위를 가지고 있지는 않다. 글의 내용이 무엇을 소개한다기 보다는 경험을 위주로 하고 있다. 글의 소재가 단순히 글 속에 나타나는 단어 모두라고 보기에는 문제가 있다.
3. 글을 읽은 사람의 숫자가 글의 권위를 표현한다고 할 수 있지 않다. 정보 중의 많은 부분은 Freshness가 생명이다. 과거에 많이 스크랩되었던 것이 이제는 전혀 쓸모없는 것이 되어버릴 수가 있다. 판교분양이 끝난 지금, 재테크 분야에서 판교 분양은 더이상 중요한 정보가 아닐 수 있다.
그리고, 인터넷에 올라가는 정보는 끊임없이 증가하고 그 속도는 무지 빠르다.
'문화 > Trend' 카테고리의 다른 글
다음의 검색트랜드 서비스 (0) | 2007.01.28 |
---|---|
[리포트] 웹디자이너 평균 연봉 국내 꼴찌, 미국에서는 1위 (0) | 2006.12.29 |
2006년을 빛낸 한국의 스마트 웹서비스 (0) | 2006.12.20 |
구글의 마스터 플랜 (0) | 2006.12.12 |
캐즘(CHASM) 마케팅 (0) | 2006.12.11 |