Skip to main content

로봇.txt

TL;DR

Robots.txt는 웹 크롤러가 웹사이트의 특정 페이지, 폴더 또는 파일을 무시하기 위한 제외 프로토콜이며 검색 엔진 최적화를 개선하는 데 사용됩니다.

Robots.txt 정보

로봇 제외 프로토콜(Robots.txt)이라고도 하는 로봇 제외 표준은 검색 엔진 스파이더가 크롤링하지 말아야 할 웹 페이지 또는 웹 사이트 섹션을 알 수 있도록 하는 파일입니다. 한 번의 실수로 검색 엔진에서 전체 웹사이트의 색인이 제거될 수 있으므로 robots.txt를 올바르게 설정하는 것이 중요합니다.

Robots.txt가 중요한 이유는 무엇입니까?

Robots.txt는 모든 주요 검색 엔진이 이 제외 표준을 인식하고 준수하기 때문에 SEO의 중요한 부분입니다. Google은 나머지(예: 중복 페이지)를 제외하고 웹사이트의 중요한 페이지만 색인을 생성하므로 대부분의 사이트에는 이 프로토콜이 필요하지 않지만 robots.txt를 사용하는 것이 권장되는 경우가 있습니다. 로봇 제외 표준은 멀티미디어 리소스(예: 이미지) 인덱싱을 방지하고 공개되지 않은 페이지(예: 회원 로그인 페이지)를 차단하고 크롤링 예산을 최대화하는 데 사용할 수 있습니다.

Robot.txt 파일의 예

robots.txt 파일의 기본 형식은 다음과 같습니다. User-agent: ______ Disallow: ______ 여기서 user-agent는 주소를 지정하는 로봇의 이름이고 "disallow" 뒤에 오는 부분에는 웹 페이지의 이름이 포함됩니다. , 로봇이 웹사이트를 방문하는 동안 무시해야 하는 폴더 또는 파일. 웹사이트를 방문할 수 있는 모든 로봇의 주소를 지정하려는 경우 특정 봇의 이름 대신 별표(*)를 사용할 수 있습니다. 이 예에서 크롤러는 언급된 디렉토리에 들어가지 않도록 알려줍니다. User-agent: * Disallow: /tmp/Disallow: /junk/이 예에서 크롤러는 특정 파일을 피하라는 알림을 받습니다. /디렉토리/파일.html