网站建设WeChat app
当前位置:山东无疆信息科技有限公司 >> 资讯 >> 网站建设 >> 浏览资讯
潍坊网站建设讲述网站的robots.txt文件写法
标签:潍坊,网站,建设,讲述,网站,robots.txt,文件,写法发布日期:2018年12月06日分类:网站建设阅读次数:9字体大小:来源:潍坊网络公司

对于网站来说,搜索引擎是很重要的。其实每个网站都应该要有robots.txt文件的,网站通过robots协议来告诉大家搜索引擎哪些页面可以抓取,哪些不要抓取,robot.txt可以向搜索引擎发送“命令”。所以说网站的robots文件写好是非常重要的。


首先要明确robots.txt是什么

搜索引擎访问网站时第一个要查看的文件就是robots.txt文件。对每一个站点而言,最好都建立一个robots.txt文件,向蜘蛛程序(spider)发出指令:某些文件可查看,某些文件不可查看,即指定内容才可被搜索引擎收录。如果搜索引擎发现没有robots.txt文件,服务器的日志中将会报出一条404错误。所以robots.txt文件的建立是非常有必要的,及时是希望所有的内容都被收录,也应该建立一个空的robots.txt文件,注意robots、txt是一个纯文本的文件。


二、robots.txt文件存放在什么位置

robots.txt文件应当是存放在一个网站的根目录下。


三、robots.txt文件的格式是什么

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址

Disallow: /.jpg格式的图片

Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录

Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片

Sitemap: 网站地图 告诉爬虫这个页面是网站地图

潍坊网站建设讲述网站的robots.txt文件写法

robots.txt文件的一些注意事项


1、明确robots.txt文件并不是毫无风险绝对安全的,对于一个网络攻击者而言,正是robots、txt文件向其指出了网站上的保密数据在哪里,同时也指明了网站的目录结构。要注意在设置权限时,对隐私内容进行保护,可以设置密码,使得攻击者无法获得数据进而进行攻击。


2、要了解,robots.txt文件的文件名必须小写,robots.txt文件里的内容的大小写是没有办法更改的。同时要知道,robots.txt文件中的所有内容是可以被spider程序抓取的,所以尽可能不要将重要的信息放在robots.txt文件里面。


3、有人认为如果某个网站中的全部内容都需要被spider抓取,那么robots.txt文件可以不用存在。这种想法都是存在问题的。在文章开头我们已经提到了,如果是要去找robots.txt文件而没有找到时,在服务器中会报出404错误。


4、也有人认为直接设置robots.txt文里的所有内容被spider抓取,这样就可以提高网站的收录百分率。要知道,当spider收录网站脚本程序这样的文件时,不仅不会提高收录率,还会占用一部分的服务器存储空间。所以,在进行robots.txt文件的编写时,要注意排除脚本程序这样的文件。


网站的搜索引擎和你的网站并没有关系,但是你的主页还是被索引了,主要的最大原因就是你的robots.txt文件没有写好,大家可以通过以上小编介绍的写法技巧给网站加上这个文件放在根目录下,就可以正确的告诉抓取程序spider,分辨抓取。