剖析搜索引擎工作原理中文分词技术

搜索引擎工作原理中文分词技术是怎样的?搜索引擎在我们的日常生活中已经成为了不可分割的一部分了,在国内的搜索引擎市场上,百度所占的份额是最大的,360其次,但不可否认的是他们都将中文分词技术应用到了他们的搜索引擎的工作中去了。

剖析搜索引擎工作原理中文分词技术

中文分词

分词是中文搜索引擎特有的步骤。搜索引擎储存和处理页面内容及用户查询都是以分词为基础的。英文等语言单词与单词之间有空格作为天然分隔,搜索引擎索引程序可以直接把句子划分成单词的集合。而中文词语词之间没有任何分隔符,一个句子所有的字和词语都是连在一起的。搜索引擎必须首先分辨那几个字组成一个词语,那鞋子本身就是一个词语。比如,“减肥加盟”将被分成“减肥”和“加盟”两个词,

中文分词方法

词典匹配分词方法

基于词典匹配的方法是指,将待分析的一段汉字与一个亊先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者切分出一个单词。

按照扫描方向,基于词典的匹配法可以分为正向匹配和逆向匹配,按照匹长度优先级的不同,又可以分为最大匹配和最小四配。将扫描方向和长度优先混合,又可以产生正向最大匹配、逆向最大匹配等不同方法。

词典匹配方法计算简单,其准确度往很大程度上取决于词典的完整性和更新情况。

基于统汁的分词方法

基于统计的分词方法指的是分析大量文字样本,计算出字与字相邻出现的统计溉率。几个字相邻出现越多,就越可能形成一个单词。基于统计的方法的优势是对新出现的词反应更快速,也有利于消除歧义。

基于词典匹配和机遇统计的分词方法各有优劣,实际使用中的分词系统都是混合使用两种方法的。快速高效,又能识别生词、新词、消除歧义、

中文分词的准确性往往影响搜索引擎排名的相关性。比如,在百度搜索“搜索引擎优化”,从快照中我们可以看到,百度把“搜索引擎优化”这六个字当成了一个词,而谷歌再搜相同词的时候,快照显示Google将其切分为“搜索”“引擎”“优化”三个词。显然,百度切分的更合理,搜索引擎优化是一个完整的概念。Google分词时更倾向于细碎。

搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏,而不是取决于页面的本身,所以SEO人员对分词能做的很少。唯一能做的是在页面用某种形式提示搜索引擎,某几个字应当被当做一个词处理,尤其是可能产生歧义的时候,比如,页面标题、H1标签及黑体中出现的关键词。如果页面是关于“青岛SEO”的内容,那么可以把“青岛SEO”这个词特意标注为黑体。如果页面是关于“化妆和服装”,可以把“服装”两个字标注为黑体,这样搜索引擎在对页面分析时就是知道标为黑体的应该是一个词。

小结:了解搜索引擎的分词技术,在日后的网站推广中,充分的将中文分词技术利用起来,那么你就掌握了搜索引擎的命脉所在,知己知彼百战百胜!

您可能还会对下面的文章感兴趣: