余弦相似性原理:首先我们先把两段文本分词,列出来所有单词,其次我们计算每个词语的词频,最后把词语转换为向量,这样我们就只需要计算两个向量的相似程度.我们简单表述如下文本1:我/爱/北京/天安门/经过分词求词频得出向量(伪向量)[1,1,1,1]文本2:我们/都爱/北京/天安门/经过分词求词频得出向量(伪向量)[1,0,1,2]我们可以把它们想象成空间中的两条线段,都是从原点([0,0,...])出发,指向不同的方向。两条线段之间形成一个夹角,如果夹角为0度,意味着方向相同、线段重合...
查看全文