lucene_Tag标签_程序员俱乐部

中国优秀的程序员网站程序员频道CXYCLUB技术地图
热搜:
更多>>
 
当前位置:程序员俱乐部 >>Tag标签 >> lucene >>列表
有一次更新完代码启动系统,系统报如下异常:java.lang.RuntimeException:org.apache.lucene.store.LockObtainFailedException:Lockobtaintimedout:NativeFSLock@D:\opt\xxxx_index\place\write.lockatcom.xxxx.vst.search.lucene.search.Searcher.init(Searcher.java:74)atcom.xxxx.vst... 查看全文
· Lucene.net常用功能说明发布时间:2013-12-20
Lucene.net是一个.net下的全文检索类库。配置简单,功能丰富,比较成熟。我在项目中用Lucene.net有一段时间了,这里我把常用一些功能写出来,与大家一起分享。Lucene.net用的是3.0版本,分词采用盘古分词。示例程序用VS2010进行编译。1索引在做索引时,有些参数是需要配置的,下面介绍下常用的参数配置。1)数据类型,如整形、时间、字符。每种类型生成的索引方式都是不同的。比如:字符串需要分词,整形数据则不需要。生成索引的方式会影响到检索,如果整形按照字符串的方式生成索引... 查看全文
转载请注明出处:http://xiaojimanman.iteye.com/admin/blogs/1972715在创建索引文件的时候,不知道会不会有下面的疑惑:1)document字段设置成什么类型?2)采用什么分词器?3)字段的权重设置成多少等?这些也许都是我们在创建索引文件中经常会遇到的问题,这篇就主要说一下自己关于第一个问题的理解此篇是以lucene4.3.1为事例,其他版本类似:个人认为,我们在创建Document对象的时候,对于以后可能用于用户搜索的字段... 查看全文
· Lucene4.3开发之插曲之落寞繁华发布时间:2013-11-07
转载请注明,原创地址,谢谢配合!http://qindongliang1922.iteye.com/blog/1972785不知不觉,已经又过去一个多月了,lucene已经更新到4.5.1的版本了,散仙这段时间在研究hadoop方面的知识,lucene系列的文章已经一个月没更新了,不过,散仙的核心还在lucene上,后面会尽量抽出时间,持续更新lucene系列博文。散仙今天要分享的是关于lucene中另外一种丰富的查询方式----正则查询,lucene内置了许多的查询API... 查看全文
1.随着网站数据量达到500万条的时候,发现SQL数据库如果使用LIKE语句来查询,总是占用CPU很忙,不管怎么优化,速度还是上不来;2.经过网上收集资料,HUBBLE.net目前虽然做得不错,但需要配置内存给他,由于服务器4G内存,而且运行了好几个网站,所以考虑采用Lucene.net来做为搜索引擎;3.虽然本地测试没有问题,但是部署到64位的服务器上还是经过了好几天的折腾,在此都记录一下.在此记录搜片神器的整个开发过程中遇到的问题和相关的解决方案,希望大家一起交流... 查看全文
· java中lucene解析word工具类发布时间:2013-09-09
java中lucene解析word工具类(读取word文档并查询数据)的方法packageextract;importjava.io.*;importorg.textmining.text.extraction.WordExtractor;publicclassExtractorWord{/***@paramargs*/publicstaticStringgetText(Stringfile){Strings="";Stringwordfile=file... 查看全文
· 深入 Lucene 索引机制发布时间:2013-09-05
架构概览图一显示了Lucene的索引机制的架构。Lucene使用各种解析器对各种不同类型的文档进行解析。比如对于HTML文档,HTML解析器会做一些预处理的工作,比如过滤文档中的HTML标签等等。HTML解析器的输出的是文本内容,接着Lucene的分词器(Analyzer)从文本内容中提取出索引项以及相关信息,比如索引项的出现频率。接着Lucene的分词器把这些信息写到索引文件中。图一... 查看全文
前言首先自问自答几个问题,以让各位看官了解写此文的目的什么是站内搜索?与一般搜索的区别?很多网站都有搜索功能,很多都是用SQL语句的Like实现的,但是Like无法做到模糊匹配(例如我搜索“.net学习”,如果有“.net的学习”,Like就无法搜索到,这明显不符合需求,但是站内搜索就能做到),另外Like会造成全盘扫描,会对数据库造成很大压力,为什么不用数据库全文检索,跟普通SQL一样,很傻瓜,灵活性不行为什么不用百度、google的站内搜索... 查看全文
· Lucene.net入门学习系列(2)发布时间:2013-08-12
Lucene.net入门学习系列(1)-分词Lucene.net入门学习系列(2)-创建索引Lucene.net入门学习系列(3)-全文检索在使用Lucene.net进行全文检索之前,需要写入索引,然后对索引进行检索。下面我们来看看如何建立索引。具体步骤如下:1.使用FSDirectory类打开一个索引文件2.使用IndexWriter类写来写索引3.关闭IndexWriter1///<summary>2///创建索引3///</summary>... 查看全文
为防止,一些小网站私自盗用原文,请支持原创原文永久链接:http://qindongliang1922.iteye.com/blog/1922742前面几章笔者把Lucene基本入门的任督二脉给打通了,从此篇开始,就开始进行Lucene的进阶开发了,那么首先摆在我们面前的第一个必须要解决的问题,就是关于中文分词的问题,因为Lucene毕竟是国外的大牛们开发的,显然会比较侧重英文文章,不过还好,在Lucene的下载包里同步了SmartCN的分词器针对中文发行的,每一次Lucene有新的版本发行... 查看全文
· Lucene.net入门学习系列(1)发布时间:2013-08-09
Lucene.net入门学习系列(1)-分词Lucene.net入门学习系列(2)-创建索引Lucene.net入门学习系列(3)-全文检索这几天在公司实习的时候闲的蛋疼,翻了一下以往的教程和博客,看到了Lucene.net。原本想学着写一个系列的博文,由于本人水平有限,一直找不到适合的内容来写,干脆就写一个简单的Lucene.net系列文章吧。希望和大家一起学习,一起进步,有什么写错了或者有什么建议欢迎提出来。一.引言先说一说什么是Lucene.net。Lucene.net是Lucene的... 查看全文
前面几篇笔者已经把Lucene的最基本的入门,介绍完了,本篇就对Lucene基本的知识做一个总结,以便于加深对Lucene基本API组件的理解。为了方便对比学习,下面给出表格数据索引期间使用的API组件检索期间使用的API组件IndexWriterIndexReaderIndexWriterConfigIndexSearcherDirectoryDirectoryAnalyzerQueryParser或者Query子类DocumentTopDocsFieldScoreDoc-... 查看全文
· Lucene.net项目研究说明发布时间:2013-07-30
最近项目需要全文检索,所以找了几个开源的.NET检索项目,如:Lucene.net,Sphinx,Hubble.net。最后选择使用Lucene.ne来实现全文检索。至于原因嘛,可以参考下面几点:1)Sphinx性能非常好,而且和Mysql结合的也非常好,但是,我们目前使用的是SqlServer,这个优势我们也就用不着了,关键问题在于,Sphinx需要把整个索引吃到内存中,当索引比较大时,内存会不够,关键是这个问题没有找到合适的解决方案,最后只能舍弃。2)Hubble.net的性能也很好... 查看全文
· Apache Lucene 4.4 和 Solr 4.4 发布发布时间:2013-07-25
Apache软件基金会今天发布了ApacheLucene4.4版本和Solr4.4版本。ApacheLucene是一个基于Java、高性能的全文检索引擎,4.4版本包含了一些bug修复、优化和改进,主要如下:新的复制模块,用于复制服务器和客户端之间的索引修订新的基于infix的搜索建议器AnalyzingInfixSuggester新的过滤器PatternCaptureGroupTokenFilter,可发出多个令牌... 查看全文
· lucene入门代码一发布时间:2012-06-01
本代码涉及到的关键类有:IndexWriterDirectoryAnalyzerDocumentFieldIndexSearcherTermQueryTermQueryTopDocs代码示例:packagecom.yale.lucene;importjava.io.BufferedReader;importjava.io.File;importjava.io.FileFilter;importjava.io.FileInputStream;importjava.io... 查看全文
· spring框架下配置lucene发布时间:2012-02-22
最近这的是投入不少精力在lucene身上,学到一点心得,留此文章以作纪念。一个目的是分享给大家,另一个目的是将来再用的时候再看看自己的文章能少走些路,好啦,开始正文。lucene特点及作用文章里就不说了,网上有的是。我就简单说下个人理解,正常sql查询时:namelike'%继中%'想必大家一定明白这样不会走索引的,然后就在多行数据级别查询相应时间会很慢,对吧,因为数据库在一行行扫呢。所以我们自然会想到怎样能让它走索引?解决方案之一:lucene出来了。其实它就是帮你把文章拆分成若干个关键词... 查看全文
· 深入Lucene的索引文件发布时间:2012-02-02
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙。当我们真正进入到Lucene源代码之中的时候,我们会发现:Lucene的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程。Lucene的搜索过程,就是按照此文件格式将索引进去的信息读出来,然后计算每篇文档打分(score)的过程。本文详细解读了ApacheLucene-IndexFileFormats(http://lucene.apache... 查看全文
· lucene入门实战(转)发布时间:2012-01-17
说明一下,这一篇文章的用到的lucene,是用2.0版本的,主要在查询的时候2.0版本的lucene与以前的版本有了一些区别.其实这一些代码都是早几个月写的,自己很懒,所以到今天才写到自己的博客上,高深的文章自己写不了,只能记录下一些简单的记录与点滴,其中的代码算是自娱自乐的,希望高手不要把重构之类的砸下来...1、在windows系统下的的C盘,建一个名叫s的文件夹,在该文件夹里面随便建三个txt文件,随便起名啦,就叫"1.txt","2.txt"和"3.txt"啦其中1.txt的内容如下... 查看全文