robots txt 파일 생성, 수정, 적용까지 10분 총정리
✨이 글에서, 얻어가실 수 있는 정보😊
🎈'robots.txt 파일'은 무엇인가요?
robots.txt 파일이 무엇인지 알기 위해서 '웹 크롤러'가 무엇인지부터 알아야해요.
내가 쓴 글을 검색엔진에게 배달해주는 크롤러
우리가 글을 써서 블로그에 올리면, 자동으로 검색이 가능합니다. 사실은 이 자동 시스템 안에서 열심히 일하는 친구가 있습니다. '웹 크롤러'입니다.
웹 크롤러는 우리가 작성한 글을 검색 로봇(google search console)에게 가져다가 줍니다. 업로드 하면 자동으로 일이 이루어지는 것 같지만, '콘텐츠 크롤링'이 없으면 우리의 글은 검색 결과에 노출되지 않습니다.
구글은 구글의 검색 엔진 크롤러 가 있고, 네이버는 네이버만의 검색엔진 크롤러 가 있어요. 각자 내 '홈 페이지'에 찾아와서 새로운 블로그 글이 있는지 살펴봅니다. 그리고 새로운 글이 있다면 그 글을 복사해서 검색엔진에게 가져다 줍니다.
그러면 검색 엔진은 그 글에다가 이름을 붙여주고(색인), 사람들이 검색을 하면 검색결과에 맞는 정보를 가져다가 주는거에요.
robots.txt 란?
robots.txt 파일은 일종의 행동 지침서입니다.
내 '홈 페이지'에 찾아온 웹 크롤러에게 여기에서 행동할 규칙들을 알려주는 것이지요. '특정 크롤러'를 들어오지 못하게 할 수도 있고, 페이지를 가져가지 못하게 할 수 있습니다. 그리고 사이트맵의 위치를 알려줘서 더 쉽게 홈페이지를 크롤링 할 수 있게 합니다.
우리 홈 페이지를 방문한 robot들에게 명령하는 행동 지침서 - robots.txt 인 것이지요.
🎈'robots.txt 파일'을 업로드 해야하는 이유
기본적으로 robots.txt 파일을 '웹 페이지'에 올려야 하는 이유는 검색 엔진최적화(SEO)때문입니다. 검색 엔진 최적화가 되면, 검색에서 상위 노출이 될 수 있습니다.
robots.txt 파일을 올렸다고 검색엔진 최적화가 되는 이유는 검색엔진의 에너지를 줄여주기 때문입니다.
기본적으로 검색 엔진의 존재 이유는 구글에 이윤을 가져다가 주기 위해서 입니다. 구글은 이 검색엔진을 운영하면서 사람들에게 정확한 정보를 제공하고, 그 정보 사이에 광고를 붙여서 수익을 얻습니다. 광고 수익을 잘 얻기 위해서는 정확한 정보를 걸러낼 필요가 있는거죠.
반대로 정확한 정보들이 많은 상황에서는 비용이 적게 드는 방향으로 가야합니다. 많이 벌고 적게 써야 남는 것이 많아지기 때문이죠. 검색엔진은 유지하는 것 만으로도 많은 비용이 듭니다. 검색엔진 입장에서는 같은 퀄리티에 글이라면 에너지가 적게 드는 편을 선호하게 되는 것이지요.
'이미지'의 경우에도 마찬가지입니다. 용량이 적은 이미지 를 사용해야 SEO에 더 좋습니다.
결론적으로 에너지를 줄이는 것이 검색엔진에서 상위 노출을 할 수 있다는 이야기가 됩니다.
구체적으로 어떤 부분들이 상위 노출에 도움이 되는지 알아볼까요?
'검색엔진 크롤러'의 '과도한 크롤링'을 방지합니다.
기본적으로 크롤러가 웹페이지 url 을 크롤링 할 때, 모든 페이지를 다 크롤링 해갑니다. 그러다가 보면 중복되는 페이지를 크롤링 할 수 있습니다. 들어올 때 마다 같은 페이지를 가져가고 또 가져가면, 너무 많은 에너지를 낭비하게 되겠지요? robots.txt 파일에 특정 페이지를 가져가지 못하게 차단 하는 경우, 이런 중복 크롤링 을 방지할 수 있습니다.
'웹 페이지 url'이 빠르게 색인되도록 합니다.
구글 엔진은 하루에 사용할 수 있는 크롤링 예산(crawl budget)이 정해져있습니다. 내 웹페이지를 색인하는 속도가 한계가 있다는 이야기입니다.
이런 예산을 가져가지 않아도 될 리소스 파일 때문에 낭비하면, 정작 가져가야할 페이지는 예산이 없어서 못가져갈 수 있습니다.
그렇기 때문에 사이트가 커질수록 robots.txt 관리가 중요해집니다.
'웹 크롤러'에게 사이트 맵의 위치를 알려줄 수 있습니다.
크롤러가 홈페이지에 들어와서 길을 잘 찾아다니도록 지도(사이트맵)을 줄 수 있습니다.
사이트 맵은 홈페이지가 어떤 구조로 이루어졌는지 설명해주는 지도입니다. 크롤러는 기본적으로 링크를 타고 돌아다니면서 새로운 페이지를 발견합니다. 그러다보면 길을 잃기도 하고, 새로운 페이지를 발견하지 못하는 일도 생깁니다.
이럴때 크롤러에게 사이트 맵을 쥐어주면 해결이 됩니다. 어디에 어떤 글이 있는지 보여주니까 어디에 새로운 글이 있는지 알고 바로 가지고 갈 수 있도록 하는거지요.
혹은 그냥 사람들에게 보여주고 싶지 않은 개인 정보 들을 숨김처리하는데에도 사용할 수 있습니다.
중요! robots.txt 파일을 만들기 전에
티스토리 블로그를 운영하시는 분께서는 robots.txt 파일을 만드실 필요가 없어요! 이미 티스토리 자체 기능으로 robots.txt 파일을 만들어 주기 때문입니다.
혹시 티스토리의 사이트 맵은 제출하셨나요?
사이트맵 제출은 상위 노출을 하기 위한 기본적이지만 필수적인 최적화 요소입니다.
아직 제출 안하셨다면 요기를 참고해주세요 :)
🎈robots.txt 규칙 만드는 방법
robots.txt 파일을 업로드 해야하는 이유를 잘 알았으니 이제는 만드는 방법을 한번 알아봅시다.
일반 텍스트 파일(.txt)로 작성하세요
robots.txt 파일을 만들 때는 다른 어려운 툴을 사용할 필요없어요! 그냥 컴퓨터에 기본적으로 깔려있는 메모장을 사용해주시고 텍스트 파일(.txt)로 저장해주시면 됩니다.
robots.txt 의 기초적인 틀
robots.txt 은 기본적으로 컴퓨터에게 명령을 내리는 명령어입니다. 그래서 정확히 '특정 문자열'을 따르지 않으면 컴퓨터가 알아먹을 수가 없어요. 그래서 스펠링이 틀리지 않도록 유의하면서 따라와주세요.
robots.txt 파일의 기본적인 틀은 다음과 같습니다.
User-agent:*
Disallow:
User agent 는 명령을 받을 '사용자 에이전트'를 입력하는 칸입니다.
'사용자 에이전트'는 검색엔진 크롤러의 이름을 의미합니다. 위에 기본틀에 적힌 것처럼 *를 넣으면 모든 크롤러에게 접근을 허용한다는 의미입니다.
하지만 특정 사이트에만 노출하고 싶거나, 특성 사이트에는 노출하기 싫을 때 User agent 에 명령을 내려줄 수 있습니다.
Disallow 는 크롤링 을 원하지 않는 경로를 넣는 칸입니다.
여기에는 구체적인 경로를 넣을 수도 있고, 특정 폴더(하위 도메인)를 통채로 넣을 수 있습니다.
https://threeing.blogspot.com/2023/10/sitemap-xml.html
이 링크로 예를 들어 보면,
threeing.blogspot.com 은 홈페이지의 주소이고,
홈페이지 안에 2023 이라는 폴더가 있고,
2023 폴더 안에 10 이라는 폴더가 있고,
그 안에 sitemap-xml.html 이라는 글이 있는 상태입니다.
차단하고자하는 정확한 파일을 적어넣을 수도 있고, 폴더를 통채로 적을 수 있습니다.
User agent 사용 방법 부터 알아봅시다.
우선 사이트별 크롤러의 이름을 알아야겠지요?
사이트별 User agent(사용자 에이전트) 이름
구글(Google) : Googlebot
네이버(Naver) : Yeti
다음(Daum) : Daum
빙(Bing) : Bingbot
만약에 네이버 검색엔진 크롤러 를 차단하고 싶다면 아래 같이 작성하면 됩니다.
User-agent: Yeti
Disallow: /
Disallow 사용 방법도 알아봅시다.
https://threeing.blogspot.com/2023/10/google-seo-guide.html
이 블로그 글을 차단하기 위해서는 아래 같이 작성하시면 됩니다.
User-agent: *
Disallow: /2023/10/google-seo-guide.html
이렇게 홈페이지 주소를 제외한 나머지 부분을 작성해주시면 됩니다.
혹은 10 폴더(루트 디렉토리) 안에 있는 글을 전부 제외하고 싶다면 아래 같이 적어주시면 됩니다.
User-agent: *
Disallow: /2023/10/
여러가지 응용 방법에 대해 알아봅시다.
만약에 다음 크롤러와 네이버 크롤러 접근을 막고자 하시면 다음과 같이 적으시면 됩니다.
User-agent: Daum
User-agent: Yeti
Disallow: /
이렇게 하나씩 User agent 에 담아서 작성해주시면 됩니다.
차단을 여러 폴더를 적용하는 방법도 똑같습니다.
만약에 2023/10 폴더와 2023/11 폴더를 차단하고 싶다면 이렇게 적어주세요.
User-agent: *
Disallow: /2023/10/
Disallow: /2023/11/
조금 더 복잡하게 해볼까요?
네이버와 구글에게 /2023/ 폴더 접근을 막고, 다음에게 /2023/10/ 폴더와 /2023/11/ 폴더를 막는 코드를 robots.txt 파일에 적어봅시다.
User-agent: Googlebot
User-agent: Yeti
Disallow: /2023/
User-agent: Daum
Disallow: /2023/10/
Disallow: /2023/11/
이제 이해가 되시죠?
sitemap.xml 경로 작성
위 내용을 robots.txt 파일에 다 작성하셨다면, 이번에는 사이트 맵이 어디있는지 경로를 적어볼까요?
보통 대부분의 블로그나 사이트의 경우에 홈페이지 주소 뒤에 /sitemap.xml 을 적어주시기만 하면 됩니다.
워드프레스는 /wp-sitemap.xml 을 붙여주세요.
이 주소를 이제 robots.txt 파일에 적어봅시다.
User-agent: Yeti
User-agent: Googlebot
Disallow: /2023/
Sitemap: https://threeing.blogspot.com/sitemap.xml
이런식으로 적어주시면 robots.txt 파일제작 완성입니다!
🎈웹페이지 robots.txt 파일 업로드 하는 방법
이제 만들어진 robots.txt 를 크롤러가 볼 수 있도록 웹페이지에 올려봅시다.
FTP 프로그램(파일질라)사용
업로드는 FTP(File Transfer Protocol)를 사용합니다. FTP 프로그램 중에서 가장 많이 사용되는 파일질라(File Zilla)를 기준으로 알려드리겠습니다.
파일질라 홈페이지에 들어가서 왼쪽의 Download FileZilla Client를 눌러 다운로드 받아주세요.
파일 업로드는 무료버전으로도 가능합니다. 가장 왼쪽의 다운로드를 눌러주세요.
파일질라에서 홈페이지를 연결해봅시다. 왼쪽 위 그림을 클릭한 후에 새 사이트를 눌러주세요.
이제 우리 사이트의 호스트를 연결해주어야 합니다.
호스트에는 호스팅 계정에 연결된 도메인을 입력해주세요. (https://,http:// 는 제외하고 입력하세요.)
포트에는 프로토콜을 FTP로 설정하셨다면 21을 SFTP를 설정하셨다면 22를 넣어주세요.
사용자 & 비밀번호는 사이트 호스팅을 신청했을 때 입력했던 아이디와 비밀번호를 입력해주시면 됩니다.
다 입력하셨다면 연결을 눌러주세요.
이제 우리가 만들어놓은 파일을 찾아서 오른쪽 클릭을 한 후에 업로드 해주세요.
robots.txt 파일이 홈페이지 주소의 메인 폴더에 들어가도록 업로드 해주세요.
robots.txt 파일 업로드 확인 방법
업로드를 하셨다면 잘 올라갔는지 확인을 해봐야겠지요?
robots.txt 파일의 업로드 확인 방법은 간단합니다.
주소창에 우리 홈페이지의 URL 을 입력하고 그 뒤에 /robots.txt 를 입력해주시면 됩니다.
https://threeing.blogspot.com/robots.txt
이런식으로 주소창에 작성하셔서 엔터를 쳐보시면,
사진
이렇게 작성한 robots.txt 를 보실 수 있습니다.
만약에 이 방식으로 확인하실 수 없으시다면, 파일질라에서 메인 주소 폴더에 잘 파일을 집어넣었는지 확인해주세요!
이렇게 '페이지'에 robots.txt 를 올려놓았으면 모든 조치가 끝났습니다.
이제 방문하는 크롤러들이 이 지침서를 먼저 읽고, 규율대로 행동하게 될거에요.
여러분의 글이 상위 노출에 더 가까워졌습니다.
혹시 더 많은 검색엔진 최적화(SEO)가 필요하신가요?
제가 전자책 수준으로 작성해놓은 가이드가 있습니다.
필요하시면 확인해주세요 : )
댓글
댓글 쓰기