使用Java8实现自己的个性化搜索引擎_JAVA_编程开发_程序员俱乐部

中国优秀的程序员网站

程序员频道

地图

最新资讯 | 百度新闻 | GOOGLE地图 | RSS订阅 | 更多

非技术区

生活休闲恋爱交友

职业发展求职面试程序人生

移动开发

开发工具

DB2

MySql Sybase

开发

JAVA .NET PHPC/C++

数据库

SQL Server Oracle

互联网

运营推广营销 SEO

系统

Linux UnixWindows

资讯

动态产品人物

创业

职场学习管理

您所在的位置：程序员俱乐部 > 编程开发 > JAVA > 使用Java8实现自己的个性化搜索引擎

使用Java8实现自己的个性化搜索引擎

2015/4/5 9:46:46 yangshangchuan 程序员俱乐部我要评论(0)

摘要：需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下：1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号1|行号2|行号3|行号N......，如下的例子表示所有文本中，包含ysc的有12行，分别是......
标签：实现使用索引 Java 自己搜索引擎个性化搜索

需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下：

1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。

2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。

3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号1|行号2|行号3|行号N......，如下的例子表示所有文本中，包含ysc的有12行，分别是......：

ysc=12=41883|134145|199585|320658|320661|332585|333873|379773|379775|453341|476179|488165

4、优化倒排表，减少索引文件的磁盘和内存占用，将行号排序，存储递增值。比如如下倒排表：

?

ysc=12=41883|134145|199585|320658|320661|332585|333873|379773|379775|453341|476179|488165

可优化为：

ysc=12=41883|92262|65440|121073|3|11924|1288|45900|2|73566|22838|11986

5、处理单一检索词，直接读取倒排表，然后处理递增存储的行号。

6、处理多个检索词，合并多个单一检索词的结果，取交集。

7、根据检索到的行号，从第2步建立的单一的文本文件中获取句子。

?

实现代码如下：

1、提取文本

2、文本索引

3、文本搜索

?

249本软件著作

?

?

?

?

?

?

?

?

?

?

上一篇： java日期工具类DateUtils 下一篇：没有下一篇了!

使用Java8实现自己的个性化搜索引擎

java日期工具类DateUtils

使用Micrisoft.net设计方案第二章组织模式

SDWebImage的使用

java中的一些数学运算

查看所有评论(0)

发表评论

用户名: 匿名

最新文章

有序归并文本文件

有序归并文本文..

Bootstrap开发漂亮的前端界面之实现原理

Bootstr..

最新标签

NullPointerException

今日热点

推荐文章

unable to find valid certification path to requested target 的简单解决办法

unable ..

老三携剑出山，Swing法力无边

老..

English | 关于我们 | 诚聘英才 | 联系我们 | 网站大事 | 友情链接 | 意见反馈 | 网站地图

Powered by 程序员俱乐部程序提供： HugoCMS 2.0
网站备案：苏ICP备11048748号-1