北京标志设计北京标志设计

北京logo设计
15801389520

关于大标

核心服务

通过了解百度分词挖潜关键词

时间:2012-06-23 16:13 来源:互联网 作者:dabiaosheji  点击:

百度算法很复杂,但百度分词算法还是有些规律可循,为什么Google作为全球最大的搜索引擎,宣布退出中国呢?为什么百度占了中国大部分的搜索份额呢,很大原因就是因为百度分词算法符合中国网民的搜索习惯,那么了解百度分词算法有什么用呢?当然有用,这可以让我们更好地挖潜关键词,从而提高网站的流量,提升业绩。

一. 搜索信息响应

当用户向百度提出搜索请求后百度会迅速根据用户的请求提供比较精准的结果值。

1. 比如用户搜索“深圳网站制作”这个查询关键词.百度会将文字串分割成若干子文字串,用空格,标点符等做细分处理。那么这个文字串就可以分成“深圳 网站 制作”。

2. 如果用户提交的请求有重复的文字符,例如”网站 网站制作”,百度会将重复的文字符看成一个。而字符的出现顺序就忽略。

3. 当用户提交请求中出现英文字符,百度一般会将英文字符当作一个整体来看,并和中文词分割开来,如果中文出现数字也是这样处理的。

百度通过切割、重组、归并、减负等手段对用户请求进行精准响应,使搜索结果符合用户的想法,以节省用户的查询时间,提高查询效率。

二. 中文核心分词

中文分词是百度算法的核心要素。按中文语法习惯,三个字(含三个字)以下的文字符是独立精准的词汇,没有重组的必要,所以百度对三个字(含三个字)以下的文字符不考虑细分。这也是百度核心算法的第一层,也是响应数量最多的部分。一般这些文字符更新的时间比较慢一些,一周或两周的时间。属于大更新的范畴。

四个字符的百度就会毫不客气的大卸十八块比如,网络工具这个文字串,当用户发出搜索请求后,会发现在搜索结果里面出现了红色的标记,已经把这个文字符分成了“网络,工具”。当然如果是四个字以上的文字串就更不用说了。会分成更多的分词。

三、字词匹配

大概了解了百度的分词原理后,我们要了解的一个重要方面就是字词的匹配问题。如果不知道字词的匹配,做优化就是空谈了。

最大匹配法

最大匹配法亦称MM法。假设自动分词词典(或词库)中的最长词条是y个字,则取被处理材料当前字符串序列中的前y个字作为匹配字段,查找词典,若词典中存在这样的一个y字词,则匹配成功,匹配字段被作为一个词切分出来;如果在词典中找不到这样一个y字词,则匹配失败,匹配字段去掉最后一个字,剩下的字段重新进行匹配,如此进行下去,直到匹配成功,也就是完成一轮匹配,切分出一个词为止。

正向最大匹配算法

正向最大匹配法(由左到右的方向)。首先粗分,按照句子把文本切成一个一个句子。然后把每个句子切成单字。字典按照树形结构存储。

反向最大匹配算法

逆向最大匹配法(由右到左的方向);就是朝相反的方向发掘可以匹配的文字,比如网上商城这个文字串,那么会向左延伸在王上的前面会出现的结果是区域性的文字,不如上海或者北京等,在商城的前面会出现更精准的定义文字符,不如爱家,女人等专属性强的文字符。

双向最大匹配算法

正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。就是向左右纵深挖掘比较匹配的结果值。

通过了解百度分词算法,挖掘关键词,让搜索引擎来的流量源源不断吧。


 

-----------------------------------------------------------------------------------------------------------------------

返回顶部