[마케터상식] 네이버, 구글에 검색노출 잘되게 하는법 (robots.txt)

sitemap robots cover

이번에 블로그 사이트에 미세한 부분을 손보다가 생각이나서 두서없이 글을 쓰네요. 

네이버 구글에 검색 노출이 잘되게 하는 방법은 검색에 등록하는 것이 아닐까 생각합니다. 특히 페이지가 많은 쇼핑몰이나, 콘텐츠가 많은 사이트라면 더더욱 이것은 필수라는 생각이 드네요.

네이버의 경우 사이트 등록

네이버 사이트 등록 : https://submit.naver.com/

네이버 지도등록 : https://submit.naver.com/regist.nhn

네이버는 검색엔진 보다는 포털쪽에 가깝고, 사람이 어느정도 손으로 정보를 기입해 주어야 하는 부분이 있습니다. 이러한 방식은 유저가 찾는 정보를 보다 정확하게 보여 줄 수 있는 장점도 있습니다.

네이버 신디케이션등을 사용하는 방법도 있다고 합니다. 

구글의 경우 사이트 등록

구글은 대부분이 기계화 되어있어, 사이트를 만들어 놓으면 자동으로 색인해 가게 되어있으므로 딱히 할것이 없습니다.

모든것을 기계가 할 수 있도록 자동화 하는것이 원칙인것 같습니다.

구글의 사이트 등록은 보통 웹마스터를 통해 가능하며 (디테일하게 컨트롤 가능), 웹마스터를 등록하지 않더라도 http://blogsearch.google.co.kr/ping ,    https://www.google.co.kr/intl/ko/add_url.html  이곳에서 등록이 가능합니다.

하지만, 원치 않는 문서및 개인정보가 올라가는 경우 검색에서 나오지 않게 요청할 길이 없어 곤란해 하는 분들도 많은것 같습니다.

구글에는 온라인에서 요청하면 인위적으로 배제 할 수 있는 통로가 있기는 하지만, 상당히 어려운 절차와 근거 자료를 요구한답니다. 시간도 좀 걸리기는 하구요.

 

검색노출이 잘되기 위한 순서 가 있어요 

1 사이트 제어(로봇,사이트맵) > 2 사이트 색인(크롤링) > 3 구글,네이버 검색노출 

사이트의 검색노출이 잘되려면, 크롤링이 잘되어야 하고, 크롤링을 잘 되게 하기위해 사이트맵과 로봇파일이 필요합니다.

검색엔진은 사이트에서 요청한 사항을 검색결과에 반영하는 것 뿐이니까요~

그래서 1 사이트 제어(로봇,사이트맵)에 대해 좀더 알아야 할 필요성이 있을 것 같아요.

로봇파일에 사이트맵을 넣을것!!

네이버나 구글 검색에 자신의 사이트를 잘 노출시키기 위해 해야하는 일 

1) sitemap.xml 파일을 만들어서 올려놓을 것 (파일은 루트에 위치함)

aun-korea.com/sitemap.xml  과 같은 형태로 올려놓으면 검색엔진이 바로 접근 할 수 있습니다.  

사이트맵에 최대 5만개의 URL을 넣을수 있다고 하지만, 그렇게 하면 서버에 부하가 걸리기 때문에 5천개나 1만개 정도씩 나누어서 파일을 올려놓는것이 좋습니다.

구글은 사이트 맵을 보고 효율적으로 사이트맵에 있는 페이지에 접속하여 구글에 색인을 해갑니다. 네이버도 동일하게 작동합니다.

아운코리아사이트는 사이트맵이  http://www.aun-korea.com/index.php?xml_sitemap=params= 에 위치해 있습니다.  루트가 아니기 때문에 구글에 사이트맵의 위치를 알리기위해 어떻게 할까 고민하다가,,,, 

sitemap robots

 

아래와 같이 로봇 파일에 올리기로 하였습니다.

2) /robots.txt 를 기재 할 때 sitemap의 주소까지 기재해 둘것

이유는, 사이트맵을 /sitemap.xml   /sitemap1.xml   /sitemap2.xml  나누어 올리게 되는 경우와, 다른 경로에 사이트맵을 올릴수 밖에 없는 경우가 있는데요 

이때, robots.txt파일에서 사이트맵 경로를 알려줌으로서 구글이 정확히 모든 페이지를 읽어갈 수 있게 됩니다.

robots.txt 는 모든 검색엔진로봇이 사이트에 방문할 때 가장 먼저 접속하는 파일입니다. 그 이유는 사이트에 크롤링 해야할 부분과 하지말아야할 부분을 먼저 확인하고 인덱싱 작업에 들어가기 때문이죠. (로봇파일은 반드시 루트에 둘것).

그리고 두번째로 방문하는 파일이 루트에 있는 sitemap.xml 입니다.(이것은 루트가 아니라도 상관없지만, 기본은 루트에 둘것)

어쨌든 로봇파일에 사이트맵의 경로를 적어두는 것으로 인해 구글은 보다효과적으로 사이트 크롤링을 할 수 있습니다.

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: http://www.aun-korea.com/index.php?xml_sitemap=params= <<사이트맵 위치

sitemap robots 01

최근 아운코리아 블로그 업데이트를 하면서 WP Robots Txt라는 robots.txt 플러그인을 설치했지만, aun-korea.com/robots.txt 파일에 데이터가 접속이 안되어 불가피하게 robots.txt 파일을 루트에 올리는 형태로하여 작업하였습니다.

사족

검색엔진 최적화는 사이트에 사용하는 다양한 테그를 통해 검색을 제어 하는 것이라고도 할 수 있습니다.(검색엔진은 사이트의 내용을 보고 사이트 소유자의 의견을 존중하여 검색 결과에 사이트의 내용을 반영하는 것 뿐입니다.)

그러한 사이트 제어 중 로봇파일은 사이트를 전체적으로 제어하는 역할을 합니다. 사이트 전체를 색인하지마, 또는 어떤 폴더는 접근하지마 등등… 그래서 로봇파일에서 흔히 하는 실수가 user-agent: *  disallow: / 로 사이트를 차단해 버리는 경우입니다.

페이지별로도 제어 할 수도 있는데 이 때에는 <meta robots=”명령어” 를 사용합니다.  명령어에는 noindex, nofollow, noarchive 등 다양한 명령어가 있습니다.

이것은 각 페이지별로 색인할것인가 말것인가, 색인된 페이지의 링크에 대하여는 따라가지 말것(링크의 무료처리), 검색결과에는 나오되 Cache는 만들지 말것, 등 다양한 요구사항을 검색엔진에게 요청할 수 있는 것입니다. 

 

명령어 의미
all 색인 생성이나 게재에 대한 제한이 없습니다. 참고: 이 명령어는 기본값이므로 명시적으로 표시해도 아무 효과가 없습니다.
noindex 검색결과에 페이지를 표시하지 않으며 검색결과에 ‘저장된 페이지 Cache’ 링크를 표시하지 않습니다.
nofollow 이 페이지의 링크를 따라가지 않습니다.
none noindex, nofollow와 같음
noarchive 검색결과에 ‘저장된 페이지’ 링크를 표시하지 않습니다.
nosnippet 이 페이지에 대한 검색결과에 스니펫을 표시하지 않습니다.
noodp 이 페이지에 대해 표시된 제목이나 스니펫에 오픈 디렉토리 프로젝트(Open Directory project)의 메타데이터를 사용하지 않습니다.
notranslate 검색결과에 페이지의 번역을 제공하지 않습니다.
noimageindex 이 페이지의 이미지에 대한 색인을 생성하지 않습니다.
unavailable_after: [RFC-850 date/time] 지정된 날짜/시간 이후에 검색결과에 이 페이지를 표시하지 않습니다. 날짜/시간은 RFC 850 형식으로 지정해야 합니다.

이외에도 Canonical 테그등도 사이트 제어에 일부분 역할을 합니다. 캐노니칼은 특히 중복문서 제어 및 사이트 내에서 다양한 역할을 하기 때문에 좀더 깊이 공부해야 하는 테그중 하나입니다.

로봇 테그는 사이트 내에서 가장 강력한 제어도구인것만은 확실하며, 세부페이지의 제어는 메타테그를 사용합니다.

이상 로봇파일 업데이트중 생각나는 것이 있어 정리해 보았습니다.

구글 네이버에 웹문서를 잘 검색되게 하기위한 첫 단계, robots.txt 파일에 사이트맵을 기재하자!

 참고 : 구글에 좋은 문서들이 계속 업데이트되어 공유합니다. 구글 디벨로퍼용 문서를 번역하여 공개중인것 같습니다. 

<< 구글디벨로퍼 자료 참고>>

 robots.txt 사양

초록

본 문서에서는 Google의 웹사이트 크롤러가 공개적으로 액세스할 수 있는 웹사이트를 크롤링하고 색인을 생성하는 방식을 제어하는 robots.txt 파일을 Google에서 어떻게 처리하는지 설명합니다.

 

요구사양 언어

본 문서에서 ‘MUST’, ‘MUST NOT’, ‘REQUIRED’, ‘SHALL’, ‘SHALL NOT’, ‘SHOULD’, ‘SHOULD NOT’, ‘RECOMMENDED’, ‘MAY’, ‘OPTIONAL’은 RFC 2119에 명시된 대로 해석되어야 합니다.

 

기본 정의

  • 크롤러: 크롤러는 웹사이트를 크롤링하는 서비스 또는 에이전트입니다. 일반적으로 크롤러는 표준 웹 브라우저를 통해 액세스할 수 있는 콘텐츠를 액세스합니다. 어떤 호스트에 접근할 때 해당 호스트에 대하여 알려진 URL을 기준으로 접근합니다. 또한 기존에 크롤링된 페이지의 링크, Sitemap 파일 등 다양한 방법을 통해 새로운 URL이 발견되면 같은 방식으로 크롤링됩니다.
  • user-agent: 특정 크롤러나 크롤러 집합을 식별하는 수단입니다.
  • 명령어(directives): robots.txt 파일에 명시된 크롤러 또는 크롤러 그룹에 적용할 수 있는 가이드라인의 목록입니다.
  • URL: RFC 1738에 정의된 대로 Uniform Resource Locator입니다.
  • Google 특정: 이 요소는 Google의 robots.txt 구현에 관련된 것으로 타사와 관련이 없을 수 있습니다.

적용 가능성

본 문서에 명시된 가이드라인은 Google의 자동화된 모든 크롤러가 따릅니다. 에이전트가 사용자 대신 URL에 액세스할 때는(예: Google 번역, 수동으로 구독한 피드, 악성 코드 분석 등) 이러한 가이드라인을 적용할 필요가 없습니다.

파일 위치 및 유효성 범위

robots.txt 파일은 호스트의 최상위 디렉토리에 위치하여 해당 프로토콜과 포트 번호를 통해 액세스할 수 있어야 합니다. robots.txt(및 웹사이트 크롤링)에서 일반적으로 허용되는 프로토콜은 ‘http’와 ‘https’입니다. http와 https에서 robots.txt 파일은 비조건부 HTTP GET 요청(Non-conditional HTTP GET request)을 사용하여 가져옵니다.

Google 특정: Google은 FTP 사이트에서도 robots.txt 파일을 허용하며 이를 따릅니다. FTP 기반 robots.txt 파일은 익명 로그인을 사용하여 FTP 프로토콜을 사용하여 액세스됩니다.

robots.txt 파일에 나열된 명령어는 파일이 호스팅된 호스트, 프로토콜, 포트 번호에만 적용됩니다.

참고: robots.txt 파일의 URL은 다른 URL에서와 같이 대소문자를 구분합니다.

유효한 robots.txt URL의 예:

robots.txt URL 유효함 유효하지 않음 설명
http://example.com/robots.txt http://example.com/
http://example.com/folder/file
http://other.example.com/
https://example.com/
http://example.com:8181/
일반적인 경우입니다. 다른 하위 도메인, 프로토콜 또는 포트 번호에는 유효하지 않습니다. 같은 호스트, 프로토콜 및 포트 번호의 모든 하위 디렉토리에 있는 모든 파일에 대해 유효합니다.
http://www.example.com/robots.txt http://www.example.com/ http://example.com/
http://shop.www.example.com/
http://www.shop.example.com/
하위 도메인의 robots.txt는 해당 하위 도메인에 대해서만 유효합니다.
http://example.com/folder/robots.txt 유효한 robots.txt 파일이 아닙니다.   크롤러는 하위 디렉토리의 robots.txt 파일은 확인하지 않습니다.
http://www.müller.eu/robots.txt http://www.müller.eu/
http://www.xn--mller-kva.eu/
http://www.muller.eu/ IDN은 punycode 버전과 같습니다. RFC 3492도 참조하세요.
ftp://example.com/robots.txt ftp://example.com/ http://example.com/ Google 특정: Google은 FTP 리소스에 robots.txt를 사용합니다.
http://212.96.82.21/robots.txt http://212.96.82.21/ http://example.com/(212.96.82.21에 호스팅된 경우에도) 호스트 이름으로 IP 주소를 사용한 robots.txt는 이 IP 주소를 호스트 이름으로 크롤링하는 경우에만 유효합니다. 해당 IP 주소에 호스팅된 모든 웹사이트에 대해 자동으로 유효하지 않습니다. 하지만 robots.txt 파일을 공유할 수 있으므로 이 경우 공유된 호스트 이름으로 사용할 수 있습니다.
http://example.com:80/robots.txt http://example.com:80/
http://example.com/
http://example.com:81/ 표준 포트 번호(http: 80, https: 443, ftp: 21)는 기본 호스트 이름과 같습니다.
http://example.com:8181/robots.txt http://example.com:8181/ http://example.com/ 비표준 포트 번호의 robots.txt 파일은 해당 포트 번호를 통해 사용할 수 있는 콘텐츠에 대해서만 유효합니다.

 

robots.txt에 대한 HTTP 결과 코드(Response Code)의 처리 방식

robots.txt 파일을 가져오면 일반적으로 다음과 같이 세 개의 다른 결과가 나타납니다.

  • 전체 허용: 모든 콘텐츠를 크롤링할 수 있습니다.
  • 전체 금지: 어떠한 콘텐츠도 크롤링할 수 없습니다.
  • 조건부 허용: robots.txt의 명령어가 특정 콘텐츠의 크롤링 기능을 결정합니다.
2xx(성공)
robots.txt 파일에 대한 크롤링이 성공하였고, 파일의 내용에 따라 해당 사이트의 웹 콘텐츠에 대한 크롤링 여부를 결정합니다.
3xx(리디렉션)
일반적으로 유효한 결과를 찾을 수 있거나 루프를 인식할 때까지 리디렉션이 이어집니다. Google은 제한된 수의 리디렉션 홉( HTTP/1.0의 경우 RFC 1945에서 허용하는 최대 홉 수: 5)을 따른 다음 중단하고 이를 404로 처리합니다. robots.txt파일이 크롤할 수 없는 URL로 리디렉션 처리되는 경우는 정의되어 있지 않으며 사용하지 않는 것이 좋습니다. 2xx를 반환하는 HTML 콘텐츠 기반의 robots.txt 파일에 대한 논리적 리디렉션(프레임, 자바스크립트, 메타 새로고침 유형 리디렉션)은 정의되어 있지 않으며 사용하지 않는 것이 좋습니다.
4xx(클라이언트 오류)
Google은 모든 4xx 오류를 같은 방식으로 처리하며 유효한 robots.txt 파일이 없다고 가정합니다. 또한 제한이 없다고 가정합니다. 크롤링의 ‘전체 허용’입니다. 참고: 여기에는 401 ‘Unauthorized’ 및 403 ‘Forbidden’ HTTP 결과 코드가 포함됩니다.
5xx(서버 오류)
서버 오류는 크롤링 ‘전체 금지’의 원인이 되는 일시적인 오류로 인해 나타납니다. 서버 오류가 아닌 HTTP 결과 코드를 얻을 때까지 요청이 다시 시도됩니다. 503(Service Unavailable) 오류는 잦은 재시도로 인해 발생합니다. 크롤링을 일시 중지하려면 503 HTTP 결과 코드를 사용하는 것이 좋습니다. 영구적인 서버 오류 처리는 정의되어 있지 않습니다.

Google 특정: Google이 누락된 페이지에 대해 404 대신 5xx를 반환하도록 사이트를 잘못 구성한 것으로 판단할 수 있는 경우 해당 사이트의 5xx 오류를 404로 처리합니다.

실패한 요청 또는 불완전한 데이터
시간 초과, 잘못된 응답, 연결 재설정/중단, HTTP 청킹 오류 등 DNS 또는 네트워킹 문제로 인해 가져올 수 없는 robots.txt 파일 처리는 정의되어 있지 않습니다.
캐시
robots.txt 요청은 일반적으로 최대 하루 분량이 캐시되지만 시간 초과 또는 5xx 오류 등으로 인해 캐시된 버전을 새로 고칠 수 없는 경우 캐시 기간이 더 길어질 수 있습니다. 캐시된 응답은 다른 크롤러에 의해 공유될 수 있습니다. Google은 max-age Cache-Control HTTP 헤더를 기반으로 하여 캐시 기간을 늘리거나 줄일 수 있습니다.

파일 형식

예상 파일 형식은 UTF-8로 인코딩된 일반 텍스트입니다. 파일은 CR, CR/LF 또는 LF로 구분된 레코드(행)로 구성됩니다.

유효한 레코드만 고려되며 그 외 다른 콘텐츠는 모두 무시됩니다. 예를 들어 결과 문서가 HTML 페이지인 경우 유효한 텍스트 줄만 고려되며 나머지는 경고나 오류를 내보내지 않고 삭제됩니다.

문자 인코딩이 사용되었는데 사용된 문자가 UTF-8 하위 집합이 아닌 경우 파일 콘텐츠가 잘못 파싱될 수 있습니다.

robots.txt 파일의 선택적 유니코드 BOM(바이트 순서 표시)은 무시됩니다.

각 레코드는 필드, 콜론 및 값으로 구성됩니다. 공백은 선택사항이지만 쉽게 읽을 수 있도록 사용하는 것이 좋습니다. 주석은 ‘#’ 문자를 사용하여 파일의 어느 위치에나 삽입될 수 있습니다. 주석의 시작부터 레코드 끝까지 모든 내용은 주석으로 처리되며 무시됩니다. 일반 형식은 ‘<field>:<value><#optional-comment>’입니다. 레코드의 시작과 끝에 있는 공백은 무시됩니다.

<field> 요소는 대소문자를 구분합니다. <value> 요소는 <field> 요소에 따라 대소문자를 구분할 수 있습니다.

간단한 오류나 오타가 있는 <field> 요소(예: ‘user-agent’ 대신 ‘useragent’ 사용) 처리는 정의되어 있지 않으며 일부 user-agent에서는 올바른 명령어로 해석될 수 있습니다.

크롤러당 최대 파일 크기가 제한될 수 있습니다. 최대 파일 크기를 넘는 콘텐츠는 무시될 수 있습니다. 현재 Google은 크기를 500KB로 제한합니다.

공식 구문/정의

다음은 robots.txt 파일을 기술하기 위한 문법입니다. 배커스 나우어 형식(BNF)이며, 여러 개 중 하나를 선택하는 ‘|’를 제외하고 RFC 822와 동일합니다. 상수는 “”로 인용되며 괄호 ‘(‘ 및 ‘)’는 요소의 그룹을 지정하는 데 사용됩니다. 선택적 요소는 [꺽쇠 괄호]를 사용하여 묶고 <n>*으로 시작되는 요소는 다음 요소의 n번 이상의 반복을 나타낼 수 있습니다. n의 기본값은 0입니다.

robotstxt = *entries
entries = *( ( <1>*startgroupline 
  *(groupmemberline | nongroupline | comment)
  | nongroupline
  | comment) )
startgroupline = [LWS] "user-agent" [LWS] ":" [LWS] agentvalue [comment] EOL
groupmemberline = [LWS] (
  pathmemberfield [LWS] ":" [LWS] pathvalue
  | othermemberfield [LWS] ":" [LWS] textvalue) [comment] EOL
nongroupline = [LWS] (
  urlnongroupfield [LWS] ":" [LWS] urlvalue
  | othernongroupfield [LWS] ":" [LWS] textvalue) [comment] EOL
comment = [LWS] "#" *anychar
agentvalue = textvalue

pathmemberfield = "disallow" | "allow"
othermemberfield = ()
urlnongroupfield = "sitemap"
othernongroupfield = ()

pathvalue = "/" path
urlvalue = absoluteURI
textvalue = *(valuechar | SP)
valuechar = <any UTF-8 character except ("#" CTL)>
anychar = <any UTF-8 character except CTL>
EOL = CR | LF | (CR LF)

‘absoluteURI’, ‘CTL’, ‘CR’, ‘LF’, ‘LWS’에 대한 구문은 RFC 1945에 정의되어 있습니다. ‘path’에 대한 구문은 RFC 1808에 정의되어 있습니다.

레코드 그룹 지정

레코드는 <field> 요소의 유형을 기반으로 하여 다음과 같이 서로 다른 유형으로 분류됩니다.

  • start-of-group
  • 그룹 멤버
  • non-group

start-of-group 레코드부터 다음 start-of-group 레코드까지 모든 그룹 멤버 레코드는 하나의 레코드 그룹으로 처리됩니다. 유일한 start-of-group 필드 요소는 user-agent입니다. 여러 start-of-group 줄은 마지막 start-of-group 줄을 따라 서로 그룹 멤버 레코드를 따라갑니다. 선행 start-of-group 레코드가 없는 그룹 멤버 레코드는 모두 무시됩니다. 모든 non-group 레코드는 모든 그룹과 관계없이 유효합니다.

유효한 <field> 요소는 다음과 같으며 본 문서에 별도로 자세히 설명됩니다.

  • user-agent(start of group)
  • disallow(그룹 멤버 레코드로만 유효함)
  • allow(그룹 멤버 레코드로만 유효함)
  • sitemap(non-group 레코드)

그 외 모든 <field> 요소는 무시될 수 있습니다.

start-of-group 요소 user-agent는 그룹이 유효한 크롤러를 지정하는 데 사용됩니다. 특정 크롤러에 대해 하나의 레코드 그룹만 유효합니다. 우선 순위는 본 문서에서 나중에 다룹니다.

예제 그룹:

user-agent: a
disallow: /c

user-agent: b
disallow: /d

user-agent: e
user-agent: f
disallow: /g

지정된 고유 그룹은 세 개가 있으며, ‘a’ 그룹, ‘b’ 그룹을 비롯하여 ‘e’와 ‘f’ 모두에 대한 그룹이 있습니다. 각 그룹에는 고유 그룹 멤버 레코드가 있습니다. 쉽게 읽을 수 있도록 공백(빈 줄)을 사용할 수도 있습니다.

user-agent 우선 순위

특정 크롤러에 대해 하나의 그룹 멤버 레코드 그룹만 유효합니다. 크롤러는 일치하는 가장 관련된 user-agent가 있는 그룹을 찾아서 올바른 레코드 그룹을 결정해야 합니다. 다른 모든 레코드 그룹은 크롤러에 의해 무시됩니다. user-agent는 대소문자를 구분하지 않습니다. 일치하지 않는 모든 텍스트는 무시됩니다. 예를 들어googlebot/1.2googlebot*는 모두 googlebot과 같습니다. robots.txt 파일 내 그룹의 순서는 서로 관련없습니다.

예제:

다음 robots.txt 파일 가정:

user-agent: googlebot-news
(group 1)

user-agent: *
(group 2)

user-agent: googlebot
(group 3)

다음은 크롤러가 관련 그룹을 선택하는 방법입니다.

크롤러 이름 이어지는 레코드 그룹 설명
뉴스 Googlebot (그룹 1) 가장 관련된 그룹만 따라가며 나머지는 모두 무시됩니다.
Googlebot(web) (그룹 3)  
이미지 Googlebot (그룹 3) googlebot-images 그룹은 없으므로 좀 더 일반적인 그룹의 규칙을 따릅니다. 따라서 보다 일반적인 그룹을 검색합니다.
뉴스 Googlebot(이미지를 크롤링할 때) (그룹 1) 뉴스 Googlebot이 이미지를 크롤링하는 경우 뉴스 Googlebot 그룹의 규칙을 따릅니다.
다른 검색 로봇(web) (그룹 2)  
다른 검색 로봇(News) (그룹 2) 연관된 검색 로봇을 위한 항목이 있다 하더라도, 이름이 일치하는 경우에만 유효합니다.

부록: Google의 크롤러와 user-agent 문자열도 참고하세요.

그룹 멤버 레코드

본 섹션에서는 일반적인 또는 Google에 특화된 그룹 멤버 레코드에 대해서 다룹니다. 레코드 타입은 크롤러에서는 명령어(directives)라고 불립니다. 명령어는 ‘명령어: [경로]’의 형태로 사용됩니다. 여기에서 [경로] 부분은 선택사항입니다. 해당 그룹의 기본 값은 지정된 크롤러에 대해서 크롤링에 제한이 없는 것입니다. [경로]가 없는 명령어는 무시됩니다.

[경로] 를 명기할 경우 해당 웹사이트의 루트로부터 상대적인 경로를 사용합니다. 이 때 같은 프로토콜, 포트 번호, 호스트 및 도메인명의 웹사이트에 존재하는 파일에 대한 상대 경로를 지정합니다. 경로의 값은 루트를 의미하는 ‘/’ 문자로부터 시작해야 합니다. 만일 ‘/’ 문자로 시작하지 않으면 크롤러는 ‘/’ 문자가 맨 앞에 있는 것으로 가정합니다. 경로는 대소문자를 구분합니다. 더 자세한 내용은 아래의 ‘경로 값에 의한 URL 매칭’ 섹션을 참고하세요.

disallow

disallow 명령어는 지정된 크롤러가 액세스하면 안되는 경로를 지정합니다. 경로를 지정하지 않으면 명령어가 무시됩니다.

사용:

disallow: [path]

allow

allow 명령어는 지정된 크롤러가 액세스할 수 있는 경로를 지정합니다. 경로를 지정하지 않으면 명령어가 무시됩니다.

사용:

allow: [path]

경로 값에 의한 URL 매칭

경로 값은 사이트의 특정 URL에 규칙을 적용할지 여부를 결정하기 위한 기준으로 사용됩니다. 와일드카드를 제외하고 경로는 URL 및 같은 경로로 시작하는 유효한 모든 URL의 시작을 비교하는 데 사용됩니다. RFC 3986 당 UTF-8 문자 또는 퍼센트 이스케이프 처리된 UTF-8 인코딩된 문자로 7비트가 아닌 ASCII 문자가 경로에 포함될 수 있습니다.

참고: ‘AJAX-크롤링’ URL은 크롤링된 버전에 지정해야 합니다. Google의 AJAX 응용프로그램을 크롤링 가능하게 하기 문서도 참조하시기 바랍니다.

Google, Bing, Yahoo 및 Ask는 경로 값에 대해 제한된 형태의 ‘와일드카드’를 지원합니다. 해당 유형은 다음과 같습니다.

    1. *는 0개 이상의 유효한 문자 인스턴스를 나타냅니다.
    2. $는 URL의 끝을 나타냅니다.

경로 일치의 예

[경로] 일치 일치하지 않음 설명
/ 모든 유효한 URL   루트 및 그 이하 수준의 모든 URL과 일치합니다.
/* /와 같음 /와 같음 ‘/’와 같습니다. 뒤쪽 와일드카드는 무시됩니다.
/fish /fish
/fish.html
/fish/salmon.html
/fishheads
/fishheads/yummy.html
/fish.php?id=anything
/Fish.asp
/catfish
/?id=fish
일치에 대소문자를 구분합니다.
/fish* /fish
/fish.html
/fish/salmon.html
/fishheads
/fishheads/yummy.html
/fish.php?id=anything
/Fish.asp
/catfish
/?id=fish
‘/fish’와 같습니다. 뒤쪽 와일드카드는 무시됩니다.
/fish/ /fish/
/fish/?id=anything
/fish/salmon.htm
/fish
/fish.html
/Fish/Salmon.asp
뒤쪽 슬래시는 이 폴더 내에 있는 모든 항목과 일치함을 의미합니다.
fish/ /fish/와 같음 /fish/와 같음 /fish/와 같음
/*.php /filename.php
/folder/filename.php
/folder/filename.php?parameters
/folder/any.php.file.html
/filename.php/
/(/index.php에 매핑하는 경우에도 해당)
/windows.PHP
 
/*.php$ /filename.php
/folder/filename.php
/filename.php?parameters
/filename.php/
/filename.php5
/windows.PHP
 
/fish*.php /fish.php
/fishheads/catfish.php?parameters
/Fish.PHP  

 

Google에서 지원하는 non-group-member 레코드

sitemap

Google, Ask, Bing, Yahoo에서 지원합니다. sitemaps.org에 정의되어 있습니다.

사용:

sitemap: [absoluteURL]

[absoluteURL]은 Sitemap, Sitemap Index 파일 또는 그에 상응하는 URL을 가리킵니다. URL이 robots.txt 파일과 같은 호스트에 있을 필요는 없습니다. 여러 sitemap 항목이 존재할 수 있습니다. non-group-member 레코드로서 어떠한 특정 user-agent에도 연결되어있지 않으며 disallow로 지정하지 않은 모든 크롤러가 검색할 수 있습니다.

그룹 멤버 레코드의 우선 순위

한 그룹 멤버 수준에서 특별히 allowdisallow 명령어의 경우 [경로] 항목의 길이를 기준으로 한 가장 구체적인 규칙이 덜 구체적인(짧은) 규칙보다 우선합니다. 와일드카드가 있는 규칙에 대한 우선 순위는 정의되어 있지 않습니다.

샘플 상황:

URL 허용: 금지: 결과 설명
http://example.com/page /p / allow  
http://example.com/folder/page /folder/ /folder allow  
http://example.com/page.htm /page /*.htm undefined  
http://example.com/ /$ / allow  
http://example.com/page.htm /$ / disallow  

 

 

Summary
Reviewer
RYU
Review Date
Reviewed Item
로봇파일에 사이트맵 경로를 올려놓을 수 있다는 것과 이것을 응용하여 다양한 분리된 사이트맵을 로봇에 기재해 보았으면 합니다.
Author Rating
5
Please follow and like us:

Social media & sharing icons powered by UltimatelySocial
RSS
Facebook
Facebook
Google+
Google+
http://www.aun-korea.com/%EB%A7%88%EC%BC%80%ED%84%B0%EC%83%81%EC%8B%9D-%EB%84%A4%EC%9D%B4%EB%B2%84-%EA%B5%AC%EA%B8%80%EC%97%90-%EA%B2%80%EC%83%89%EB%85%B8%EC%B6%9C%EC%9D%B4-%EC%9E%98%EB%90%98%EA%B2%8C-%ED%95%98%EB%8A%94/">
SHARE
YouTube
YouTube
NaverPost
NaverBlog