郭现保:SEO优化之Google中文分词排名权重实例研究_SEO_互联网_程序员俱乐部

中国优秀的程序员网站程序员频道CXYCLUB技术地图
热搜:
更多>>
 
您所在的位置: 程序员俱乐部 > 互联网 > SEO > 郭现保:SEO优化之Google中文分词排名权重实例研究

郭现保:SEO优化之Google中文分词排名权重实例研究

 2010/9/15 22:30:32    程序员俱乐部  我要评论(0)
  • 摘要:百度作为第一大中文搜索引擎,它的分词技术一直都有很多人在研究,中科院软件所张俊林写的那篇《百度分析算法分析》的文章堪称经典,把它比喻为百度搜索引擎中文分词研究的《圣经》也不为过,每一个SEOer都应该仔细的阅读一下。我今天要说的不是关于百度的问题,而是百度的最大竞争对手——Google(谷歌),在测试Google中文分词算法的时候,发现了一个有趣现象,今天与广大的SEO朋友们分享。Google分词算法值得我们好好研究一下。郭现保个人认为,Google的搜索结果页
  • 标签:郭现保 SEO优化 Google 文分词排名权重实例研究

  百度作为第一大中文搜索引擎,它的分词技术一直都有很多人在研究,中科院软件所张俊林写的那篇《百度分析算法分析》的文章堪称经典,把它比喻为百度搜索引擎中文分词研究的《圣经》也不为过,每一个SEOer都应该仔细的阅读一下。我今天要说的不是关于百度的问题,而是百度的最大竞争对手——Google(谷歌),在测试Google中文分词算法的时候,发现了一个有趣现象,今天与广大的SEO朋友们分享。

  Google分词算法值得我们好好研究一下。郭现保个人认为,Google的搜索结果页(SERP)与搜索关键字的相关性,明显大于百度,这是因为Google把搜索关键字都拆分成最基本的词组和单字后,在根据相关性去匹配数据库的中内容,而且Google拆分后的最基本词组,完全是根据词典里的词组匹配的,也是说它符合国家语言文字工作委员会的规范和标准的,这只限于普通词组(公众人名、著名品牌名)。

  实例1:测试Google是否有专业名词库

  在Google搜索“搜索引擎关键字”,Google会把这个关键字短语拆分为“搜索—引擎—关键—字”,这是因为“搜索引擎”和“关键字”都是网络专业词组,可能Google没有专业词组库,所以就被拆分成了“搜索—引擎—关键—字”。

  实例2:测试Google拆分长关键字

  在Google搜索“他舅WAP流量统计分析”,Google把这个关键字短语拆分为“他—舅—wap—流量—统计—分析”六部分,“WAP”是一个英文词组,包括Google和其他搜索引擎一般是不拆分英文词组的(就算它不是英文单词),“流量”、“统计”、“分析”都是符合国家语言规范的标准词组,“他舅”只是中国老百姓一个口头称谓用语,不符合国家语言规范,在词典中根本就查不到这,所以Google就把“他舅”拆分成了两个单字。

  实例3:测试品牌名是否被Google收录为词组

  在Google搜索“海尔冰箱”、“惠普电脑”、“华为通讯”、“美的电器”,“五粮液酒”,“夏利汽车”、“北京同仁堂”这七个都是著名的品牌,结果是“海尔”、“惠普”、“华为”、“五粮液”、“同仁堂”都是单独的词组,没有被拆分为单字,“夏利”、“美的”这两个品牌却被拆分成了单字。不是所有品牌都能被Google作为一个词组收录进品牌词库,Google有自己的收录标准的。

  实例4:测试Google是否会拆分成语

  下面我们搜索一下韩乔生的经典名句“迅雷不及掩耳之势”和“山清水秀丽”,结果“迅雷不及掩耳之势”这个短句被拆分成了“迅雷—不及—掩耳盗铃—之—势”,“迅雷”是一个符合汉语言规范的标准词组,不是指下载工具那个“迅雷”,“不及”也是一个词组,“掩耳盗铃”也是符合国家语言规范的成语,“之势”不是标准词组,所以就被拆分为两个单字。“山清水秀丽”被拆分为了“山清水秀—丽”,“山清水秀”是一个成语没有拆分。Google把成语作为几个基本词组,不会进一步拆分。

  实例5:测试普通之间是否有权重高低之分

  搜索“山河水灾”这个关键字短语,结果Google拆分为“山河”和“水灾”两个词组;然后搜素“山河水灾情”这个关键字短语,结果Google拆分为“山河”、“水”、“灾情”三部分,“水”字没有和“灾”组成词组,反而“灾”和“情”组成了词组,这说“灾情”这个词的权重高于“水灾”的权重。这说明词组之间也是有权重之分的。

  根据实例测试推断:Google会把搜索的关键字(短语)拆分为最基本的词组,这些普通词组都是符合汉语言规范的标准词组,不像百度那样收录“人造名词”。Google的词组大致可分为普通名词、地名、人名等几类,关键字(短语)都是从左向右,按权重高低拆分。这些词组权重从低到高依次如下:人名<普通词组<地名<成语<领导人名字。进一步测试品牌名和人名的权重是一样,都是最低的,这只是一个大致顺序,因为同一类词组还会根据日常使用的频率进一步的分级,每一级的分配不同的权重,所以同一类词组之间也有权重高低之分。

  根据Google分词原理我们可以看出,Google的搜索结果页相关性要高百度,因为Google使用关键字完全匹配和关键字分词匹配两个条件,去数据库中搜索相关数据。

  这只是我一点肤浅的研究,有什么不足之处请高手们多多指点,欢迎来信进行讨论,我的邮箱地址是:chinaxxm@yahoo.cn

发表评论
用户名: 匿名