구글 검색 3단계
구글 검색은 3단계로 작동하지만 각 단계가 모든 페이지에 적용되는것은 아닙니다.
- 크롤링: 구글은 크롤러 라는 자동화된 프로그램을 통해 페이지로부터 텍스트, 이미지, 동영상을 다운로드 합니다.
- 색인 생성: 구글은 페이지의 텍스트, 이미지, 동영상을 분석하고 구글 색인에 이 정보를 저장합니다.
- 검색결과 게재: 사용자가 구글에서 검색하면 구글에서 사용자 검색어와 관련된 정보를 반환합니다.
크롤링
크롤링은 웹에 어떤 페이지가 존재하는지 파악하는 것입니다. 모든 페이지가 등록되는것은 아니지만 구글이 방문한적 있는 페이지는 파악된 페이지 목록에 추가되어 있으며, 다른 페이지는 파악된 페이지에서 새 페이지로 연결되는 링크를 따라갈때 발견됩니다. 이렇게 구글에서 페이지 URL을 발견하면 내용을 확인하기 위해 크롤링 하는데, 이때 웹페이지를 가져오는 프로그램을 Googlebot 이라고 합니다.
Googlebot은 알고리즘 프로세스를 사용하여 크롤링할 사이트와 크롤링 빈도, 각 사이트에서 가져올 페이지수를 결정합니다. Googlebot이 발견한 페이지를 모두 크롤링하는것은 아닙니다. 사이트 소유자가 크롤링을 허용하지 않는 페이지도 있고, 사이트에 로그인해야 엑세스할수 있는 페이지도 있으며, 이전에 크롤링된 페이지와 중복된 페이지도 있습니다.
색인생성
페이지가 크롤링되면 구글은 페이지 내용을 파악하려고 합니다. 이 단계를 색인생성이라고 하며 타이틀 요소와 alt속성, 이미지, 동영상 등 텍스트 콘텐츠 및 핵심 콘텐츠 태그와 속성을 처리하고 분석하는 작업이 포함됩니다. 색인 생성중에는 구글에서는 페이지가 인터넷에 있는 다른페이지와 중복되는지 아니면 표준 페이지인지 판단하며, 표준 페이지만 검색결과에 표시될수 있습니다.
표준페이지와 해당 클러스터에 관해 수집한 정보는 수천대 컴퓨터에서 호스팅되는 대규모 데이터베이스에 저장될수 있는데, 이를 구글 색인이라고 합니다. 색인생성은 보장되지 않으며, 구글에서 처리하는 모든 페이지의 색인이 생성되는 것은 아닙니다. 만약 구글 색인 생성과 관련해서 문제가 생긴다면 1) 페이지 콘텐츠 품질이 낮거나, 2) 로봇 메타 지시어가 색인 생성을 허용하지 않거나, 3) 웹사이트 디자인으로 인해 색인 생성이 어려운것입니다.
검색결과 게재
사용자가 검색어를 입력하면 구글 컴퓨터는 색인에서 일치하는 페이지를 검색한 다음 품질이 가장 높고 사용자와 가장 관련성이 크다고 판단되는 결과를 반환합니다. 관련성은 사용자의 위치와 언어, 기기와 같은 정보를 비롯하여 수많은 요인으로 결정, 예를들어 자전거 수리점을 검색하면 파리에 있는 사용자와 홍콩에 잇는 사용자에게 서로 다른 결과가 표시됩니다.
한편, 서치콘솔에 페이지 색인생성으로 나타났지만 검색결과에 페이지가 표시되지 않는경우 1) 페이지의 콘텐츠가 사용자와 관련이 없거나, 2) 콘텐츠 품질이 낮거나, 3) 로봇 메타 지시어로 게재가 차단된것입니다.
구글이 색인을 생성하고 표준 URL을 선택하는 방법
구글은 사이트 색인을 생성할때 각 페이지의 주된 콘텐츠가 무엇인지 판단하려고 시도합니다. 구글이 같아 보이는 페이지를 동일한 사이트에 여러개 발견하면 가자 온전하고 유용한 정보를 담고 있다고 판단되는 페이지를 선택해 표준 페이지로 지정합니다.
구글은 페이지가 HTTP 또는 HTTPS중 어떤 프로토콜을 통해 게시되는지, 페이지 품질은 어떠한지, 사이트맵에 있는 URL인지, 라벨이 있는지 등 여러요인을 기반으로 표준 페이지를 선택합니다.