Robots.txt란 무엇인가요?
Robots.txt는 웹사이트의 루트 디렉터리에 있는 간단한 텍스트 파일입니다(예: https://example.com/robots.txt). 이 파일은 Googlebot과 같은 검색 엔진에 웹사이트 콘텐츠를 크롤링하고 색인을 생성하는 방법을 지시하는 데 사용됩니다.
간단히 이해하면 robots.txt는 봇이 가야 할 곳과 가지 말아야 할 곳을 알려주는 안내판과 같습니다. 덕분에 데이터 수집 활동을 제어하고 리소스 낭비를 방지하며 SEO 효과를 최적화할 수 있습니다.
예:
Google이 장바구니 페이지, 내부 검색 결과 또는 무거운 PDF 파일을 크롤링하지 않기를 원할 경우 → robots.txt를 사용하여 차단할 수 있습니다.
오히려 봇이 크롤링에 집중하기를 원합니다. 서비스, 제품, 기본 기사 페이지 → 액세스를 엽니다.
SEO에서 Robots.txt의 역할
웹사이트에는 수천 개의 URL이 있을 수 있지만 모든 URL이 SEO에 중요한 것은 아닙니다. 현재 robots.txt는 데이터 필터링 도구 역할을 하여 Google이 가장 가치 있는 콘텐츠를 크롤링하는 데 집중할 수 있도록 도와줍니다.
1. 크롤링 예산 절약
Googlebot은 각 웹사이트에서 봇이 크롤링할 수 있는 페이지 수와 빈도에 일정한 제한이 있습니다. 봇이 덜 가치 있는 URL(예: /search/, /cart/, /tag/)을 낭비적으로 크롤링하도록 허용하면 더 중요한 페이지의 색인 생성이 느려질 수 있습니다.
2. 중복 콘텐츠 방지
매개변수, 필터, 세션 ID가 포함된 URL... 쉽게 중복 콘텐츠를 만들 수 있습니다. Robots.txt는 봇이 이러한 URL에 액세스하는 것을 차단하여 웹사이트를 더욱 깔끔하고 집중적으로 만들 수 있습니다.
3. 기술적 SEO 지원
기술적 SEO(웹사이트를 위한 기술적 최적화)에서 robots.txt는 sitemap.xml, .htaccess, 표준 태그와 함께 핵심 파일 중 하나입니다. robots.txt가 누락되거나 잘못 구성된 경우 웹사이트가 원치 않는 페이지에 대한 색인이 생성되거나 중요한 페이지를 놓칠 수 있습니다. 중요.
👉 기술 최적화에 대해 자세히 알아보려면 기술 SEO란 무엇입니까? 체크리스트 기술 SEO 웹사이트.
4. 보안 도구가 아님
참고: robots.txt는 웹사이트를 보호하지 않습니다. 차단된 페이지는 누군가가 직접 URL을 알고 있으면 계속 액세스할 수 있으며 때로는 다른 웹사이트의 링크가 있는 경우 Google에 계속 표시됩니다. 색인 생성을 완전히 방지하려면 HTTP 헤더에 noindex 메타 태그 또는 X-Robots-Tag를 사용해야 합니다.
Robots.txt 파일의 기본 구조
robots.txt 파일은 일반적으로 4가지 주요 구성 요소로 구성됩니다.
사용자 에이전트: [봇 이름]
허용하지 않음: [경로가 차단됨]
허용: [허용된 경로]
사이트맵: [XML 사이트맵 URL]
표준 파일 예:
사용자 에이전트: Googlebot
허용하지 않음: /private/
사용자 에이전트: *
허용: /
사이트맵: https://www.example.com/sitemap.xml
설명:
User-agent: 적용 가능한 검색 봇(예: Googlebot, Bingbot).허용하지 않음: 봇이 특정 경로에 액세스하지 못하도록 차단합니다.허용: 봇이 액세스하도록 허용합니다. 차단된 폴더 블록에도 있습니다.사이트맵: 색인 생성을 지원하도록 사이트맵 URL을 선언합니다.
SEO 표준 Robots.txt 생성 원칙
올바른 위치에 배치: robots.txt 파일은 루트 디렉터리에 있어야 합니다. (
https://domain.com/robots.txt).올바른 이름 사용:
robots.txt(s 포함)여야 합니다. 많은 사람들이robot.txt가 잘못되었다고 잘못 말합니다.구문을 올바르게 작성하세요: 철자가 틀리거나 추가 공백이 있으면 봇이 파일을 건너뛸 수 있습니다.
남용하지 마세요 허용하지 마세요: 잘못된 중요한 폴더(예:
/blog/,/services/)를 차단하면 → 웹사이트가 길을 잃다. index.Sitemap 선언: 봇이 구조를 이해하고 중요한 콘텐츠 크롤링의 우선순위를 정하는 데 도움이 됩니다.
정기 테스트: Google Search Console의 Robots.txt 테스터 도구를 사용하여 테스트합니다.
Robots.txt 사용 시 중요 참고사항
Noindex를 바꾸지 마세요: Robots.txt는 크롤링만 제어하고 색인 차단을 보장하지 않습니다. 페이지가 다른 소스에서 크롤링된 경우 Google에 계속 표시될 수 있습니다.
SEO 플러그인 주의: Yoast SEO, RankMath 또는 All in One SEO를 사용하는 경우 가짜 robots.txt를 생성할 수 있습니다. 현재로서는 서버에 파일을 업로드할 필요가 없습니다.
색인 생성 문제 확인: 웹사이트가 새 게시물의 색인을 생성하지 않음 상태인 경우 robots.txt가 실수로 이를 차단하고 있는지 확인하세요. 다음 기사를 참조할 수 있습니다: Google이 기사의 색인을 생성하지 않는 이유는 무엇입니까? 가장 빠른 수정 방법.
웹사이트용 Robots.txt의 실제 예
1. 뉴스 웹사이트/블로그
사용자 에이전트: *
허용하지 않음: /wp-admin/
허용하지 않음: /search/
허용: /wp-admin/admin-ajax.php
사이트맵: https://www.example.com/sitemap.xml
2. 전자상거래 웹사이트
사용자 에이전트: *
허용하지 않음: /cart/
허용하지 않음: /checkout/
허용하지 않음: /search/
허용: /
사이트맵: https://www.example.com/sitemap.xml
3. 서비스 사업 웹사이트
User-agent: *
허용하지 않음:
허용: /
사이트맵: https://www.example.com/sitemap.xml
베트남의 Robots.txt 및 SEO 전략
베트남의 SEO 시장에는 몇 가지 특징이 있습니다.
전자상거래 웹사이트에는 동적 URL(가격, 색상, 크기 필터링)이 많은 경우가 많습니다. 제대로 차단되지 않으면 → 콘텐츠가 중복됩니다.
서비스 웹사이트는 일반적으로 페이지 수가 적지만 잘못 차단하면 쉽게 색인이 손실될 수 있습니다.
뉴스/블로그 웹사이트는 쉽게 많은 검색 URL, 태그, 카테고리를 생성합니다 → 크롤링 예산을 절약하려면 robots.txt를 최적화해야 합니다.
중요한 점: robots.txt는 '봇'에만 사용되는 것이 아닙니다. 예방'을 콘텐츠, 웹사이트 구조, 사이트맵, 내부 링크와 결합해야 합니다. SEO를 구현하는 경우 기본 웹사이트 SEO - 6개월 실제 체크리스트 문서를 참조하여 동시에 계획하세요.
Tan Phat Digital - 기술 SEO 표준화를 위한 동반자
기사 이 기사 Tan Phat Digital(https://tanphatdigital.com/)에서 개발했습니다. 여기서 우리는 중소기업이 효과적이고 지속 가능하게 배포할 수 있도록 기술 SEO, 콘텐츠 전략, 표준 웹사이트 디자인을 포함한 포괄적인 SEO 솔루션에 중점을 두고 있습니다. 웹사이트의 표준 robots.txt에 대한 조언이 필요한 경우 주저하지 말고 당사에 문의하여 자세한 지원을 받으세요.
Robots.txt는 기술 SEO에서 기본이지만 매우 중요한 파일입니다. 크롤링 예산을 제어하고, 콘텐츠 중복을 방지하고, 사이트맵 및 기술 SEO를 지원하는 데 도움이 됩니다. 그러나 이는 보안 도구가 아니며 noindex 또는 표준 태그를 대체하지도 않습니다. 효과적인 SEO를 위해서는 robots.txt를 sitemap.xml, 표준 태그, 고품질 콘텐츠 및 깔끔한 웹사이트 구조와 같은 다른 요소와 결합해야 합니다.
공유








