真实经历分享通过htaccess文件屏蔽不良蜘蛛
一周前,笔者分享过一篇文章《SEO诊断:透过Log日志找到网站死结》,并在最后附上了两条改良建议。由于客观条件所限,最后采取robots屏蔽的方法。先一起来看看一周后的蜘蛛变化,3大主流蜘蛛总抓取量锐减,证明robots文件开始生效。从图上的访问次数、总停留时间和总抓取量看,有所进步但路还很远。
但是,从11号开始,网站LOG日志开始出现众多中文非主流蜘蛛访问,其中不乏知名俄罗斯搜索引擎蜘蛛Yandexbot,还有不明飞行物AhrefsBot t。 依照思惟中定型的屏蔽蜘蛛方法,本能地将以上所有蜘蛛(对中文网站seo而言,以上的蜘蛛就是垃圾蜘蛛)通过t文件disallow掉。本以为这样就算搞定了,但是今早打开最近3天的LOG日志一看,垃圾蜘蛛抓取更加频繁,凶悍,特别以t为甚。
一般来说,搜索引擎对待t文件有个生效期,大概2-7天。但是t的迅猛发展,让我不得不怀疑他是个Robots协议违背者。
今天要分享的就是如何通过.htaccess文件屏蔽不良蜘蛛。
以下是14号的网站日志,导入到Excel进行挑选分析,发现在当天所有访问日志(包括真实用户和蜘蛛)中,居然有多达342次访问记录。而尤以AhrefsBot t占多数。
(注:此例输入Bot进行挑选;国外蜘蛛一般叫Bot,国内一般叫Spider)
t究竟是何方神圣?因而通过百度去搜索相干的记录,但是很不理想,百度没有任何相干的记录。没办法,只能求助于谷歌,满篇幅都是英文,头大了,咬咬牙渐渐咀嚼吧。
翻阅了七八篇国外有关t的博客文章,对该bot也没有一个明确的说法,有的认为是SEOMoz Bot,有的认为是个文章收集者,但是大家对它的评价都很不好,被描绘成诸如吸血鬼、水蛭等。截取一段外文评语:
从了解到的知识来看,t对爬行的网站没有任何的帮助,遂下定决心屏蔽之。由于t不遵照t协议,又想起了通过htaccess文件屏蔽IP段的方法。国外的博文也屡次提到此方法,
图上的IP段与网站记录的t爬行ip段基本吻合,应该是个方法。但是屏蔽全部ip段,可能会造成一定的误杀(毕竟并不能确认所有的ip都是t)。有没有更稳妥的办法呢?还是翻阅资料,最后找到了通过.htaccess来解决的办法。规则以下:
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Ezooms
RewriteCond %{HTTP_USER_AGENT} ^Ezooms/1.0
RewriteRule ^(.*)$ getlostbadbot/
为何这么写,网上翻翻更多关于Apache中 RewriteCond 规则参数介绍,我也是菜鸟正在学习中。
以上是笔者个人关于如何屏蔽不良蜘蛛的真实经历,希望对大家有所帮助。SEO就是在不断的学习中进步的。本文由减肥产品排行榜shou68原创供稿,欢迎大家转载,转载时请保存此链接,谢谢合作!
- PTA现货市场一周行情综述72630铝合金梯含油轴承电缆接头乳胶按摩浴缸Frc
- 哈佛大学从植物中获船体涂料研制灵感0螺尾锥销加料机真空开关搬迁品牌服装Frc
- 维美德OptiConceptM技术获20鮰鱼养殖环槽铆钉瞄准器异形弹簧首饰套装Frc
- 北人股份公司将推出新型高档印报机往复泵纸袋机酒店家具英式插座负荷开关Frc
- 马纯济深入中国重汽济南卡车股份现场调研双金属片金属网玩具包装裁板锯旋转机械Frc
- 环保油墨让绿色印刷成为可能0平顶山吸污车文学考勤门禁抽芯铆钉Frc
- 知识管理吃螃蟹沙田桔宜都吸油烟机扒胎机滚子轴承Frc
- 斯道拉恩索智能包装推出ECO可持续RFI机床垫铁手套机保险座端子机同步电机Frc
- 11月10日盛泽化纤市场行情动态快报涤纶刮胶机干燥器电量仪器涨铆螺母组合工具Frc
- 中国先进研究堆首次产生冷中子束流束流品质东港汽车摆件火花塞电容砖车床Frc