个性化搜索_Tag标签_程序员俱乐部

· 使用Java8实现自己的个性化搜索引擎发布时间：2015-04-05

需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下：1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号1|行号2|行号3|行号N......，如下的例子表示所有文本中，包含ysc的有12行，分别是......... 查看全文

· 百度的个性化搜索发布时间：2011-08-17

百度的个性化搜索... 查看全文

个性化搜索_Tag标签_程序员俱乐部

非技术区

移动开发

DB2

开发

数据库

互联网

系统

资讯

创业

最新文章

今日热点

推荐文章