网站开发设置robots.txt的作用是什么?
文 / MT邹 / 2017-02-24
对于网站开发人员来说,对robots.txt文件并不陌生,那么网站开发设置robots.txt的作用是什么?
对于网站开发人员来说,对robots.txt文件并不陌生,那么网站开发设置robots.txt的作用是什么?
网站开发
1. 几乎全部搜索引擎 Spider都遵循robots.txt给出的爬行规则,协议规定搜索引擎 Spider进入某个网站的入口就是该网站的 robots.txt,前提是该网站存在此文件。对于没有配置robots.txt的网站,Spider将会被重定向至404错误页面,如果网站采用了自定义的 404 错误页面,那么Spider将会把其视作robots.txt,虽然其并非一个纯粹的文本文件,但这将给 Spider 索引网站带来很大的困扰,影响搜索引擎对网站页面的收录。
2. robots.txt能够阻止不必要的搜索引擎占用服务器的宝贵带宽,如 email retrievers,这类搜索引擎对大多数网站是没有意义的;像image strippers之类的,对于大多数非图形类网站来说其也没有什么意义,却会耗用大量带宽。
3. robots.txt能阻止搜索引擎对非公开页面的爬行与索引,如网站的后台程序、管理程序,并且对于某些在运行中产生临时页面的网站来说,如果未配置 robots.txt,搜索引擎甚至会索引那些临时文件。
4. 对于内容丰富、存在很多页面的网站来说,配置 robots.txt 的意义十分重大,因为网站经常会遭遇到搜索引擎 Spider 给予网站的巨大压力:大量的 Spider 访问,如果不加以控制,甚至会影响网站的正常访问。
5. 除此之外,如果网站内存在重复内容,使用robots.txt限制部分页面不被搜索引擎索引和收录,能够避免网站受到搜索引擎有关 duplicate content 的惩罚,防止网站的排名受到影响。
以此可以看出,网站开发中设置robots.txt的意义重大,这也是新手需要重点了解的一部分内容,希望能对大家提供帮助。
文章由上海网站建设公司昭歌信息整理发布https://www.zhaoge.net/,转载请注明出处