讯美网络

网站引擎蜘蛛爬取约定文件robtos的一些知识

2018-10-29 01:52


robots文件是什么?

robots文件是网站上相对于搜索引擎蜘蛛来说就是一个说明指南和钥匙。当引擎蜘蛛爬行网站的时候,它会第一时间了解网站有没有robots文件,如果有,它就按照文件告诉它的指南去访问,如果没有,那么网站上所有没有被设定其它保护的文件引擎蜘蛛都能访问。robots文件会告诉引擎蜘蛛网站中的哪些文件你可以访问,哪些你不能访问。

为什么要放这个文件?放哪里?

robots是一种存放于网站根目录下的ASCII编码的文本文件,一般来说网站的脚本、样式或者其它的非展示页面都会在robots中写入不让引擎收录。有些人有误区,我不放的话,引擎也会爬去整个网站,那不是肯好,收录更多,但是如果网站robots文件不存大,引擎爬取时就会产生一条404记录。这是非常不友好的。

如何屏蔽搜索引擎?

robots.txt就是一个记事本,所以只要在里面写上如下内容就可以屏蔽。
User-agent: *
Disallow:/

WP网站如何写robots.txt?

最简单的这样写就行了。
User-agent: *
Disallow: /wp-*
#Allow: /wp-content/uploads/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?s=

robots.txt的写法规则

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC整个目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有的动态页面
Disallow: /jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html文件。
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片robots.txt文件用法举例
 

服务支持

我们珍惜您每一次在线询盘,有问必答,用专业的态度,贴心的服务。

让您真正感受到我们的与众不同!