在前面的二节中,十堰网站优化分别为大家介绍了百度分词的含义和百度分词对我们优化有哪些好处。本文中,将继续和大家分享,我们如何使用百度分词技术。
如何使用百度分词技术
我们分两个部分来讲述:查询处理/中文分词。接着该干什么呢?应该考虑分词的问题了。一起来看一下,百度是如何实行中文分词
首先,讲讲百度的分词的问题,是否是由中文字符串来说明百度分词的原理性呢?下面我们就拿百度切刨一下,一起来探讨一下百度是如何对某一个词进行分词。
怎么证明呢?我们先向百度提交“电影下载”,看看返回结果中标为红字的地方,称之为关键词,不难看出来,查询已经被切割成《电影,下载》两个单词了,说明分词程序已经开工了,我们来看看三个字符的情况,提交查询“当然择”,看起来这个查询不伦不类,那是因为我希望看到这个字符串被切分为《当然,择》,返回结果365篇相关页面,翻到最后一页,发现标红的关键字都是” 当然择”连续出现的情况,好像没有切分,但是还不确定,那么再提交人工分好的查询“当然 择”看看,返回结果1,090,000篇,基本上可以确定没有进行分词了,当然另外一种解释是:对于三个字符先切分,然后将切分后的结果当作一个短语查询,这样看到的效果和没有切分是相似的。但是我倾向于判断百度对于少于3个字符的串没有切分,奥卡姆不是说了么“如无必要,勿增实体”,干吗做无用功呢复制www.semboke.com 那么如果没有切分,会有一个随之而来的问题,怎么从索引库里面提取未切分的字符串呢?这牵扯到索引的问题,我觉得百度应该采取了两套索引机制,一种是按照单词索引,一种是按照N-GRAM索引。
查询某一个词的时候,百度是如何对该词进行查询结果处理
用户向搜索引擎提交查询词的时候,搜索引擎接受到用户查询词后,需要做一些处理,然后在索引数据库里面提取相关的信息。那么百度在接受到用户查询词后,搜索引擎做了些什么工作呢?
1、假设用户提交了一个查询词,比如“信息检索理论工具”这个词。那么搜索引擎首先做的是根据分隔符比如空格,标点符号,将查询串分割成若干子查询串,比如上面的查询就会被解析为:《信息检索,理论,工具》三个子字符串;这个道理很简单,我们接着往下看。
2、假设提交的查询有重复性的内容,搜索引擎会怎么处理呢?比如查询“理论工具理论”这个词,百度是将重复的字符串当作只出现过一次,也就是处理成等价的“理论 工具”,而是将重复查询子串的权重增大进行处理。那么是如何得出这个结论的呢?我们可以将“理论工具”这个词提交给百度,返回在看看搜索引擎反馈信息结果页面,仍然是那么多返回文档,看看第一页返回结果的排序,你会发现,有一些信息排名比较靠前,而有一些信息排名则比较推后,这就说明百度是将重复的查询归类并进行一个处理,而且字符串之间的先后出现顺序是关于词与词之间的匹配度进行排序。
总结:通过十堰SEO对百度分词的含义,百度分词的好处,百度分词应该如何使用的介绍,相信大家对这一块都有了一个全面的认识了。 同样,我们也需要对百度分词技术的算法进行研究与学习,只要自己摸通了百度分词技术原理性,我们才会懂得误别哪个词是比较具有搜索量,哪个词比较具有相关性了。
文章来源:十堰SEO,原文地址:http://www.seolover.net/SEO/81.html,欢迎转载,请注明出处,谢谢!