利用Robots协议防止黑页对网站的排名影响

随着谷歌对仿牌的打击力度越来越大,仿牌如今的做法也是层出不穷。而现如今最流行的莫过于黑页了。

所谓黑页,就是将事先做好的html文件导入到通过黑客手段黑到的shell,然后被黑的网站就会生成成千上万的页面,这个对排名有着致命的影响。

当然,我们也不至于束手无策。我们知道,wordpress都是动态php生成的文件,而黑页则是html格式的。

我们可以通过在robots.txt,对所有html后缀的文件进行屏蔽。写成

Disallow: /.html$  (此处的意思便是屏蔽掉任何带html后缀的文件)

这样,即使黑页大量生成,爬虫也不会将它们纳入索引库。可以有效的防止网站排名下降。

但,这并不是一劳永逸的做法。google持续察觉你的网站有垃圾文件生成,它会认为你的网站存在十分大的安全隐患,从而给你的网站降权。

此方法的效果是不会让你的网站一时受到黑页的影响,保持定时检查网站的好习惯并不可少。

 

2016年1月28日更新:

使用robots禁止抓取和收录任何html后缀的文件,要先检查自己是否有html的文件需要被收录的,比如我们的sitemap如果有html的后缀,会导致google站长警告sitemap的抓取问题,这里我们需要带具体的URL进行Allow处理。

例如:

Allow:/2015-11.html

注明:这样的robots禁止html后缀文件的做法只针对wordpress,其他的CMS类似织梦这些,大部分是由静态页面生成的不适用。