深圳SEO_深圳网站优化_网络推广公司-深圳百姓云霸屏

太保网:使用robots也未必能阻止Google将网址编入索引

未知

robots.txt是一种存放于网站根目录下的文本文件,用于告诉搜索引擎的爬虫(spider),此网站中的哪些内容是不应被搜索引擎的索引,哪些是可以被索引。通常认为,robots.txt文件用来搜索引擎对目标网页的抓取。 robots.txt协议并不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个文件,但也有一些特殊情况。 对于Google来说,使用robots也未必能阻止Google将网址编入索引,如果有其他网站链接到该网页的话,

  robots.txt是一种储放于网址网站根目录下的文本文档,用以告知百度搜索引擎的网络爬虫(spider),此网址中的什么內容是不可被百度搜索引擎的数据库索引,什么是能够被数据库索引。一般 觉得,robots.txt文档用于百度搜索引擎对总体目标网页页面的爬取。

  robots.txt协议书并非一个标准,而仅仅约定成俗的,一般 百度搜索引擎会分辨这一文档,但也是一些独特状况。

  针对Google而言,应用robots也不一定能阻拦Google将网站地址编入索引,假如有别的网页链接到该网页页面得话,Google仍然有将会会对它进行数据库索引。依照Google的叫法,要想完全阻拦网页页面的內容在Google网页页面数据库索引中(即便有别的网页链接到该网页页面)出現,必须应用noindex元标识或x-robots-tag。比如将下边的一行添加到网页页面的header一部分。

  假如Google见到某一页上带noindex的元标识,就会将此页从Google的百度搜索中彻底丢掉,而无论是不是也有别的页连接到此页。

  针对百度搜索而言,状况和Google相近,假如有别的网页链接总体目标网页页面,也是将会会被网站收录,从百度搜索的表明网页页面上看,百度搜索并不是适用像Google那般根据noindex彻底将网页页面从数据库索引上删掉,只适用应用noarchive元标识来严禁百度搜索显示信息网页快照。实际的句子以下。

  上边这一标识仅仅严禁百度搜索显示信息该网页页面的快照更新,百度搜索会再次为网页页面建数据库索引,并在百度搜索中显示信息网页页面引言。

  比如,淘宝现阶段就根据robots.txt来屏蔽掉百度蜘蛛,但百度搜索依然检索了淘宝的內容,网页搜索“淘宝”,第一个結果都是淘宝网首页详细地址,仅仅该网页页面沒有网页快照,因而来看,网址只有严禁百度搜索的快照更新,而没法严禁百度搜索为网页页面建数据库索引。