검색결과에서 ‘웹문서’의 의미는 무엇일까?

인터넷 검색엔진의 대상은 보통 html 형식으로된 웹 문서이다. 그게 야후나 네이버안에 만들어진 블로그이건 포탈 밖의 웹 사이트나 블로그건 간에 기술적인 형식은 동일하다.

그런데 시간이 지나면서 검색엔진의 검색결과는 기술적으로는 웹 문서인데, 의미적으로 지식, 이미지, 동영상, 블로그, 카페, 음악, 쇼핑 등으로 나눠서 보여주었다.

포탈의 경우 검색결과에 자사의 블로그나 카페 들만 보여주었다. 웹문서 결과는 자사 포탈 밖의 내용을 검색한 결과로  보였다.

그러더니  어느날 포탈들은  자사와 타사, 설치형을 구별하지 않고 그냥 ‘블로그’ 를 검색결과에 보여주었다.

yahoo

문득, 검색엔진의 검색결과에서 ‘웹’ 또는 ‘웹 문서’ 라는 이름의 탭과 통합검색결과 모듈을 보고, 그럼 이게 무슨의미인지 궁금해졌다.

  1. ‘웹’ 또는 ‘웹문서’ 는 초창기 검색엔진이 보여주었던 사이트와 웹문서의 의미일까?
  2. 검색엔진에서 ‘웹’ 결과는 자사 포탈 밖의 정보일까? 그럼 블로그탭에 보이는 타사와 설치형 블로그는 왜 나오는 것일까?
  3. ‘웹’ 결과에 나오는 동영상과 ‘동영상’ 결과에 나오는 동영상의 차이는 무엇일까? 이미지 탭도 있는데, 웹문서 결과에 이미지가 나오는 것은 왜 그럴까?

검색엔진은 이미지, 동영상, 음악과 같이 미디어의 형태로 보여주더니, 블로그, 카페, 지역정보, 쇼핑과 같이 의미적인  기준으로도 보여준다. 그럼 이제  ‘웹 이나 ‘웹문서’ 는 어떤 기준일까?

google

혹시,  웹 크롤엔진이 내뱉으면 그게 이미지건, 웹페이지이건, 동영상이건, 블로그건 간에 웹 결과이고, 블로그 크롤 엔진이 내뱉으면 블로그 결과일이고 쇼핑검색엔진이 내뱉으면 쇼핑결과일까? 설마 그렇진 않겠지? 그럼 무슨 기준일까?

검색엔진에 검색어를 넣고 나오는 검색결과를 보때, 통합결과의 ‘웹’ 이나 ‘웹문서’ 모듈이나 또는 같은 이름의 탭을 클릭할때, 어떤 것이 있을 것이라고 생각하고 클릭해야 하는 것일까?

Related Post




  • 아마 그 외 적인 것이 웹페이지;;

  • 아마 그 외 적인 것이 웹페이지;;

  • jinushun

    블로그/게시판/카페 등등은 필터를 이용해서 특정패턴을 뽑아내버립니다. 그래서 html 에서 txt 뽑아내기가 쉽죠.
    뉴스나/쇼핑/음악등은 걍 db 를 직접받아 색인해서 쓰는 경우가 있구요.
    반면웹문서는 필터를 사용치않고 html 에서 모든 txt 뽑아내서 검색에 이용하지요, link 가걸려있는 링크제목도 사용하기도하고,랭킹도 하고,
    위에서 언급한 것은 랭킹을 매기진않고 유사도 순으로 노출이 될겁니다.
    .
    N 사같은경우는 타사의 블로그나 게시판등은 웹문서에서 노출을하더군요. 하지만 이것은 필터를 통한 결과이고, 전통적으로 웹문서 검색에서 사용하던 방식은 아닌것이지요

  • jinushun

    블로그/게시판/카페 등등은 필터를 이용해서 특정패턴을 뽑아내버립니다. 그래서 html 에서 txt 뽑아내기가 쉽죠.
    뉴스나/쇼핑/음악등은 걍 db 를 직접받아 색인해서 쓰는 경우가 있구요.
    반면웹문서는 필터를 사용치않고 html 에서 모든 txt 뽑아내서 검색에 이용하지요, link 가걸려있는 링크제목도 사용하기도하고,랭킹도 하고,
    위에서 언급한 것은 랭킹을 매기진않고 유사도 순으로 노출이 될겁니다.
    .
    N 사같은경우는 타사의 블로그나 게시판등은 웹문서에서 노출을하더군요. 하지만 이것은 필터를 통한 결과이고, 전통적으로 웹문서 검색에서 사용하던 방식은 아닌것이지요

  • 그렇진 않겠지 라고 생각하신 거기에 한표 던집니다. ^^
    그렇게 생각하는 이유는 일단 제 블로그 RSS에 잡히는 네이버 봇이 두개 인데요. 하나는 Yeti 이고 하나는 NaverBot-EBlog 라는 애 인데요. 제가 네이버 블로그검색에 등록한 관계로 제 블로그는 블로그검색결과,웹검색결과 두개가 다 노출 됩니다. (동일한 글도 따로 노출) 그래서 그렇게 생각 합니다.

  • 그렇진 않겠지 라고 생각하신 거기에 한표 던집니다. ^^
    그렇게 생각하는 이유는 일단 제 블로그 RSS에 잡히는 네이버 봇이 두개 인데요. 하나는 Yeti 이고 하나는 NaverBot-EBlog 라는 애 인데요. 제가 네이버 블로그검색에 등록한 관계로 제 블로그는 블로그검색결과,웹검색결과 두개가 다 노출 됩니다. (동일한 글도 따로 노출) 그래서 그렇게 생각 합니다.

  • 지민아빠님/ 지민아빠님의 블로그가 네이버 블로그 검색결과와 웹검색결과 2개다 노출된다면 네이버의 웹은 네이버 밖이라는 뜻일까요? 그런데 네이버 블로그 결과에 네이버 밖의 지민아빠님 사이트가 잡힌 것은 뭘까요? 헷갈리네요.

  • 지민아빠님/ 지민아빠님의 블로그가 네이버 블로그 검색결과와 웹검색결과 2개다 노출된다면 네이버의 웹은 네이버 밖이라는 뜻일까요? 그런데 네이버 블로그 결과에 네이버 밖의 지민아빠님 사이트가 잡힌 것은 뭘까요? 헷갈리네요.




Scroll Up