今天是《Google Seo,每天五分钟轻松学会》第十二课,主讲robots.txt日志文件设置。在上节课我们就了解到,robots文件规定了Googlebot要抓取一个网站页面,首先就要先访问robots文件,而且必须按robots.txt文件里的规矩办事,那么今天我们就来详细了解下如何设置robots日志文件。
一、robots.txt文件基础理论
1、robots.txt工作原理
robots.txt是一个文件,主要是给各个搜索引擎抓取工具看的,里面用来设置一些规则,目的是告诉它们,哪些搜索引擎抓取工具能来抓取,哪些搜索引擎抓取工具不能抓取,哪些页面可以访问,哪些页面不能访问。
2、robots.txt的好处
①、控制抓取工具预算
如果不了解抓取工具预算的朋友,可以详细查看上一篇文章:
第十一课:精讲Google抓取工具-《Google Seo,每天五分钟轻松学会》
这里大概解释下,抓取工具预算就是抓取你网站所花费的时间和资源,也就是在有限的时间内,Googlebot抓取网站的页面数量,并且这个预算值是可以变动的,所以有些seo,为了让Googlebot抓取更多的重要页面,他们会从而利用robots.txt来控制。
②、控制部分页面和文件不被抓取
每个网站都有一些页面不想被Googlebot抓取并索引。例如网站的管理后台登录及管理页面、一些暂时性的内容页面、PDF文件、视频、图片等等。
二、制作robots.txt文件
1、制作方法
①、如果你用的是一些CMS客户管理系统,类似WordPress,shopify等建站工具,那么你就不需要制作这个文件,因为系统会默认生成这个文件,并且把相应的规则填写好,如果你需要添加规则,直接点击修改即可。
②、如果你网站的根目录下面没有这个文件,那请新建一个文件,文件名为:robots.txt的文本文档,然后根据你网站的实际情况,添加相应的规则命令后,用ftp上传到服务器网站根目录就完成了。
备注:如果你想研究学习参考别人网站的robots.txt文件,也可以直接输入他们的域名,并加上robots.txt文件名,
例如:www.example.com/robots.txt
需要注意的是,robots.txt文件和网站地图不一样,robots.txt只能以这个名字命名,同时一个站点有且只有一个robots.txt文件。
2、使用方法
个人觉得常用的就三大板块和两个通用符,下面我们通过一个例子来了解吧。
User-agent: Googlebot
allow: /
User-agent: Baiduspider
Disallow: /example1/
Disallow: /example2.html
Disallow: /*.jpg$
Sitemap: https://www.example.com/sitemap.xml
I、“user-agent” :指的用户代理,也就是各大搜索引擎抓取工具。
例如上面的案例中Googlebot和Baiduspider,分别为Google和百度的抓取工具。
不同的搜索引擎,不同的名称,如果有特定要求可以查询相关名称。另外,如果需要区分开不同类型的抓取工具,可以参考上节课的内容。
II、“allow” ,“disallow” :指令是“允许抓取”和“不允许抓取”某些页面路径的意思。
通配符“*”表示匹配0或多个任意字符。
通配符“$”表示字符串的结束,用于结尾。
如上面案例中的,
·允许Googlebot抓取所有页面
·不允许百度蜘蛛抓取example1栏目
·不允许百度蜘蛛抓取example2.html页面
·不允许百度蜘蛛抓取网站所有jpg类型的图片,包括图片为example.jpg?p=12345的类型
III、Sitemap:这个是站点地图的指令,类似提交网站地图的效果,之前的第十课网站地图全面解析课程里面有讲,这里我们只需把所有的站点地图加上就好。
今天就分享到这里,期待能帮助你!
留言(如有建议/友链/合作等需求可在此处留言,会尽快回复,谢谢!)