手机搜索大战将始 百度血拼Google凶多吉少
手机搜索大战将始 百度血拼Google凶多吉少
搜索引擎设计的三大要素:
1、资讯的获取,也就是通过搜索引擎派出去的网络蜘蛛(即WEB Spider)在网海之中有计划地对散存在各处的网页完成对网页内容的抓取,由他决定了那些资讯可进入搜索引擎的数据库中,其主要指标为:抓取的速度、抓取的深度和抓取的广度。
2、资讯的处理:抓来的海量资讯如何排序?按什么原则?用什么方法?如何分类?
3、向搜索引擎用户提供反馈结果,按关键词和排序算法把结果按一定规则形成的优先级在网页上显示用户查询结果,这里也涉及效率问题,即用快速检索算法,用最短的时间让用户看到结果。衡量一个搜索引擎的好坏主要是搜索精度指标和数据处理的效率,让用户用最短的时间,最便捷的方式获得他所需要的最新的资讯。
在传统的第二代WEB搜索引擎领域里,Google是最先在中国出现第二代搜索引擎,百度,这个第二代搜索引擎的后起之秀,面对着强大的Google,采用了差异化的战略,百度研究发现,当时的中文搜索引擎包括Google在内都普遍地存在着一个重大的技术缺陷,中文的机器自动分词技术严重不足,那怕是已经成为世界搜索引擎霸主的Google在中文搜索领域里也是如此,这一发现不禁让作为后来者的百度喜出望外。

以上为笔者今天在Google上搜索关键词“争食3G手机浏览器奶酪”时,只有第五条结果是正确的,其余四条结果显然与要找的内容毫无关系,这是现在中文分词概念已经引入搜索引擎几年后今天Google的分词技术实例,可想而知当年Google的分词状态有多糟了,像诸如此类的现象,在搜索引擎的搜索结果中比比皆是;是什么原因造成这样的偏差呢?答案是,中文分词技术的不成熟,造成了电脑对目标“理解”上的错误,在错误的“理解”的指导之下,得出错误的结果,自然也就不足为奇了,大量的错误结果,是造成搜索精度不足的重要原因之一,往往在搜索引擎给出的结果中,这类错误的结果占到总结果的50%以上。
搜索引擎的搜索精度,是搜索引擎的命脉,没有那一位用户喜欢从一大堆垃圾资讯中寻找自己想要的结果,这个关键的情况,终于被百度发现并加以利用了,百度于是决定以中文分词技术作为突破口,以高超的中文分词技术为基础,不足部分再以人工修正为辅助,这一方案大大提高了百度搜索在分词上的准确性,使得用户在使用百度进行关键词搜索时,百度搜索引擎所返回的其垃圾资讯大为减少,百度以此为主攻突击方向,向Google发起了全面进攻,果然不出百度之所料,迎合用户的需求,就是成功的基础,百度很快的就突破了Google的防线,在百度的中文分词突击集群的攻势面前,Google则是束手无策、溃不成军,结果,在中文搜索领域里,百度凭着其优良的中文分词效果一举击败了不可一世的Google,百度并趁势扩大战果,以MP3搜索等辅助垂直搜索为领域,建立起了自己的一个防御体系并乘胜追击以扩大战果,中国互联网络信息中心(CNNIC)公布的北京地区《2005年中国搜索引擎市场调查报告》,报告显示在北京的搜索引擎用户中,百度在学生市场中称雄、总体占有率为51.5%;Google在高端商务人群中占优、总体份额为32.9%,百度对Google的优势达到了2 :1,打得不可一世的Google中国是满地找牙。