2007年7月5日
虽然我们可以在服务器日志中看到Googlebot的活动记录,了解Google的robot对整个网站的喜好程度,但对于网站内的某个特定网页而言,想要查出Googlebot最新一次造访的时间则没有什么好办法,尤其对访问量较大的网站而言,几乎是不可能的。不过,今后有了个简单的办法,那便是通过查看Google“网页快照”的日期。
2007年7月3日
眼下最热、最重要的一个话题就是Google幽灵现象。一般情况下,把一个网站递交到互联网上,在每月固定更新之前,你会发现这个网站出现在索引里。有时,这个网站能够获得很高的排名,但可怕的 是,几天或一周以后,这个网站会突然消失。这种幽灵现象困扰着网络新手们,同时也给经验丰富的网络行家出了一道难题。其实,这种现象很容易理解。 Google有两种网络爬虫,主爬虫和新爬虫。主爬虫主要负责发现新的网页。一个网页在新索引建立之后,马上会被主爬虫发现。如果一个网页建立索引需要经过一个月的时间,这个网页就会失...
2007年6月26日
很明显,因为crawl caching proxy将各种bot的抓取都缓存起来,因此当Googlebot已经抓取过某些网页,而Mediabot或其它bot再次抓取重复的网页时,crawl caching proxy就会发挥作用,直接将缓存里的网页返回给Mediabot等,这样就使得实际爬行次数减少,节省了带宽。
2007年6月26日
补充结果与常规的网络结果类似,不同之处在于其来自我们的补充索引。在为此补充索引进行抓取的网站上,与为主要索引而进行抓取的网站不同,我们可以设置较少的限制。例如,一个网址的参数数量可能使该网站无法抓取到主要索引中,但是,仍可能抓取和添加到我们的补充索引中。
2007年6月24日
Google在05年获得了一项与blog排名相关的名为Ranking blog documents的专利。通过这项专利,我们可以知道一些影响Google blog搜索结果排名的因素,包括积极因素和消极因素。如果你拥有一个blog,并且希望里面的文章能在Google blog搜索里获得比较理想的排名,那么你平时可以多注意一下这些要点。