很多人员都会遇到一个问题,在网站建好之后明明定期更新文章内容,然而就是不被搜索引擎收录网站。遇到这样的问题会让很多优化人员无从下手,找不到正解。今天我们就带着大家一起来找找网站不收录的原因,这个答案你可能会在Robots协议里找到。
一、robots协议到底是什么?
先来说说什么是Robots协议,它也叫机器人协议或爬虫协议,它并不是一个指令,而是一个文本,一般来说常见的文本编辑器都可以创建和编辑它,它具有非常强大的作用和功能。网站可以通过Robots协议告诉搜索引擎哪些网站页面可以抓取,哪些网站页面不能被抓取。
有的人员可能使用的建站系统自带Robots.txt文件,有的压根就没有Robots.txt文件。这使得爬虫无法对网站进行爬取索引。自然而然的不会收录你的网站,所以大家在建站之后一定要记得查看是否存在在Robots.txt以及它的内容是否规范。
二、robots.txt文件设置要求
1、robots.txt文件必须放置在网站根目录;
2、robots.txt文件名必须小写。
根据上面两点提示我们查看到绝大部分网站的robots.txt文件,如果出现无法访问的现象,最大可能就是网站根目录中没有此文件。
三、常见语法的定义
User-agent:定义搜索引擎。如果想定义所有搜索引擎请用*;Disallow:禁止搜索引擎抓取,“/”表示根目录,代表网站的所有目录。Allow: 是允许的意思,这里只简单的做一下描述,具体的操作写法请参考百度文库。
希望以上关于的robots协议的内容对大家有帮助,一般主流的搜索引擎都会遵守robots文件指令,Robots可以用来防止搜索引擎抓取那些我们不想被搜索引擎索引的内容。我们可以用它来保护一些隐私的内容,屏蔽死链接和无内容页面和重复页面。