相信对绝大多数博客/网站而言,搜索引擎都是一个重要的访问来源,是博客/网站获得新用户的重要途径。而要实现这一点,最起码的基础便是要让搜索引擎能够收录、索引网站内的页面——姑且不谈更多的SEO(搜索引擎优化)技巧——需要允许搜索引擎的Spiders在网站内顺畅“爬行”(除通过robots.txt禁止的页面外)。有时候,搜索引擎的Spiders对网站的频繁访问可能会对网站服务器带来很大的压力,甚至会影响网站的正常访问。但从理论上来说,这是网站要获得搜索引擎的流量所不得不付出的代价。
不过,对主机商来说,这个代价则显然是个负担。也许其会认为,如果世上根本没有搜索引擎,没有Spiders的访问,那么,也许其可以在一台服务器上放置过千甚至更多的的博客/网站,而现在由于必须要考虑搜索引擎的缘故,而只能放置几百个网站,显然给他们带来了很大的损失
,是“不可接受的”。
几个月前,曾经在中文博客圈很流行的 Dreamhost 便忍无可忍,尝试“改革”,基于Googlebots 带来的“high memory usage and load on the server”,已经造成位于其主机上的某些网站“hammered by GoogleBot”,而在这些网站的 .htaccess 中加入类似如下的语句:
<Limit GET HEAD POST>
order deny,allow
deny from 66.249
</LIMIT>
这样,便导致了这些网站彻底 “ unsearchable and uncrawlable by search engine robots ”——当然,只是Googlebot——从而引发了许多使用 Dreamhost 主机网站的反弹,炒得沸沸扬扬,也让 Dreamhost 积聚的人气大受影响。
但不管怎么说,从最差程度上看, Dreamhost 还是“守规矩”的,1、其履行了告知义务,通知了这些被修改了 .htaccess 的网站;2、这类设置只针对特定的部分网站,大多数使用 Dreamhost 主机的网站未受影响;3、也许正是由于其仅针对部分网站,因而采用了在 .htaccess 中屏蔽 Googlebot 设置方法,这样,即使网站未收到通知,只要其发现自个无法被Google索引、收录,检查一下 .htaccess. 便可找出端倪,不然,如果 Dreamhost 直接在防火墙中设置,网站自身找故障原因可能要困难得多。
至于这场“Dreamhost 闹剧”最后是如何收场的,因与我们无关,不得而知并无意在此评论。不过,带来的另一个问题则比较有趣:如果主机商不规矩的话会怎样?比如说如果主机商在防火墙中屏蔽了Googlebot,或其他搜索引擎的Spider——当然,完全屏蔽破绽太大,理想的解决方案
也许是在特定时段内屏蔽,比如说白天屏蔽晚上没人访问时则允许,不知道在防火墙中进行此类设置可行么?——而不告知网站,也许,网站只会以为搜索引擎未收录自己的网页是因为自己在SEO方面做得较差,而不会想到是主机商造成的?
需要声明的是,这只是猜想,只是本人思路阴暗的另一体现,而未有任何确凿的证据,不过,最近发生的事显示这也许不仅仅只是个“Evil”构想:这几天帮位朋友测试他所编写的 Googlebot 模拟器——与一般的Spider模拟器或Lynx浏览器相比,其最大的特点是可以将自己伪装成Googlebot,但仅此而矣,并没有加入其他如IP伪装之类的功能——时发现,访问某网站及与其位于同一主机商的其他网站时均发生被拒之门外的情况,但并非始终被拒,而是大约每隔30-40分钟后允许约十几分钟,而在 Googlebot 模拟器访问被拒绝时,标准的Web访问、Lynx访问及大部分Spider模拟器访问是没问题的,而且,在三天的测试中均为如此。(注:这些网站的 .htaccess. 与 robots.txt均未发现异常)
这是不是意味着该主机商有可能在防火墙中进行了某种设置,仅在特定的时间段才允许Googlebot访问?——无论如何,间歇性地禁止Spider也能在相当程度上节省服务器资源。
说明
- 从个人角度,我不太相信这家主机商会屏蔽Googlebot,这也太容易被发现了。
毕竟,Google 网站管理员工具能够提供许多有价值的信息,包括网络抓取错误,过多的错误显然很容易让网站怀疑主机是否存在问题。即使其打算通过屏蔽Spider节省服务器资源,但如果其脑筋未搭错线的话,应该考虑针对其他搜索,比如说勤快到疯狂程度的Yahoo! Slurp,那样被发现的几率要小得多:1、对大多数中文网站而言,其对服务器的压力最大;2、关注度不高,与Google和Baidu相比,来自Yahoo的流量恐怕要小上一个数量级,因此,许多人根本不关心网页是否被Yahoo收录,至少不会隔上几天去查一次。 - 另外,这也许与主机商无关,最大的问题没准出在所用的Googlebot 模拟器上,其自身存在bug。不过,需要说明的是,除这家主机商外,在测试其他十多家主机商时均未发生类似的情况;而如果说该主机商通过IP反查之类设置能够确定“伪Googlebot”而进行屏蔽,讲不通的便是为什么又周期性地可以访问?
- 个人检查了使用其主机的多个网站/博客,似乎在Google中的表现均不够理想,虽然这可能由很多因素导致。
尽管原因无法确定,但无论如何,如果您发现自己的网站在搜索引擎中表现不佳,那么,尽快至Google 网站管理员工具中注册并验证,然后检查Google索引、收录您的网站是否存在困难吧。——至于其他搜索引擎,似乎并没有行之有效地的准确判定方法,也许只能自求多福了
。
说在最后的话:为避免本文被看成“枪手贴”,本文未透露任何具体信息,也请朋友们在留言中不要涉及任何特定的主机商,不然删无赦! ![]()






当前共计7 回复 ↓
1 fisio | 2007/07/29 12:07 pm
DreamHost 朋友用下来收录情况还不错,正推荐我呢
2 amog | 2007/07/31 6:00 pm
这世道是原来越难了
3 Hong Xiaowan | 2007/08/1 12:09 am
说实话,我对蜘蛛也是挺反感的,我是设定蜘蛛一小时访问一次,但是除了Google遵守这个规则,其他的Baidu,Yahoo好像不管你,而且都是200.
即使是304,频率过高,也是挺恐怖的。
4 aviva | 2007/08/1 11:57 am
蜘蛛对服务器的压力有时候是挺大的。
5 午夜客 | 2007/12/29 7:11 pm
这样也行?
TrackBacks ↓
留下您的评论