切词技术——中文搜索的核心
有个真实的笑话,某人为寻一大师墨宝而软磨硬泡,大师终拗不过,赠字一幅,曰“不可随处小便”,尴尬之时,亏一才子将字切拆,重新组合成“小处不可随便”,某人大喜。通过这个故事,我们可以感到中文的博大精深,估计全世界也没有这么有复杂多变的文字了。所以,中文“搜索引擎”要面对网上庞大的中文信息,除了具有英文“搜索引擎”的特征之外,还需要一些特别的功能,这就是切词技术。
中文搜索引擎重要的是具有中文信息的“切词”功能。西文单词之间用空格分隔,很方便计算机的检索,而中文的字词则不能简单地进行分隔,因此检索起来很麻烦。这个问题的解决需要很高的技术实力。否则会给用户造成很大的麻烦。一般有两种处理方法,一个是完全单汉字全文检索,即将网页中的每一个汉字都录入索引库,而将用户的检索提问根据单汉字匹配的原则去进行检索。此法虽然能够保持有很高的查全率,但由于中文中存在歧义的地方很多,基于字的检索很容易返回一些跟用户输入无关的结果。
另一种是根据一定的原则和方法来对文章进行自动“切词”,然后按词建库,将用户的检索结果按词汇匹配来进行查询,这种处理方法拥有较高的查询命中率,但对“切词”技术的要求极高,中国搜索在这方面具有很强的技术实力。要做好切词,技术是一方面,更重要的是对中文甚至中国文化的深刻理解,没有深厚的中文文化基础是不可能做好中文搜索引擎的,这一点中国搜索比国外的公司(比如GOOGLE)具备先天优势。
现代常用搜索有:中国搜索(www.zhongsou.com)
搜狐(www.sohu.com)
狗狗(www.google.com)
百度(www.baidu.com.cn)
别看搜索引擎使用起来非常简单,但其后台技术却极为复杂。目前主流搜索引擎都是基于全文检索技术——即根据用户的关键字给出相匹配的网页,所以各搜索引擎的系统结构基本相同,现在就以中搜的搜索引擎为例,简单地把搜索引擎的基本原理做一说明。
搜索引擎大致可分两大循环系统——检索系统和网页抓取系统(非标准名称),网页抓取系统主要作用是收集互联网中的网页数据并存储在数据库中,而检索系统主要是根据网民的要求把储存在数据库中的相关网页提供给用户。
图片详细示例:
screen.width-500)this.style.width=screen.width-500;" border=0>