heritrix-1.14.4 整合到eclips, 简单实例_JAVA_编程开发_程序员俱乐部

中国优秀的程序员网站程序员频道CXYCLUB技术地图
热搜:
更多>>
 
您所在的位置: 程序员俱乐部 > 编程开发 > JAVA > heritrix-1.14.4 整合到eclips, 简单实例

heritrix-1.14.4 整合到eclips, 简单实例

 2010/12/29 8:11:01  lydvqq  http://lydvqq.javaeye.com  我要评论(0)
  • 摘要:刚下载了个heritrix-1.14.4并且整全到eclips1.新建javaproject.2.copy文件.如下图:a)在项目中创建个目录:lib,复制heritrix-1.14.4\lib到所有jar过来,复制heritrix-1.14.4.jar到此lib.并且加到项目中的"javabuidpath"中。在加jar的时间,要先加heritrix-1.14.4.jar然后再加其它jar包。因为在heritrix-1.14.4.jar和commons-httpclient-3.1
  • 标签:实例
刚下载了个heritrix-1.14.4 并且整全到eclips

1.新建java project.

2.copy文件. 如下图:
  a) 在项目中创建个目录:lib, 复制heritrix-1.14.4\lib到所有jar过来, 复制heritrix-1.14.4.jar到此lib.并且加到项目中的"java buid path"中。在加jar的时间, 要先加heritrix-1.14.4.jar然后再加其它jar包。 因为在heritrix-1.14.4.jar和commons-httpclient-3.1.jar有个同名的class:org.apache.commons.httpclient.HttpState. 或是下载heritrix-1.14.4的source code(src/java 中的 com、org、st三个文件夹) 放到src目录下(如果用这种方式,就要把src\conf\profiles\下的default也要复制到项目的conf/profiles/default, 将src/resources/org/archive/util中tlds-alpha-by-domain.txt文件复制到工程中org.archive.util包下。), 这样就会优先调用heritrix中的这个类了。
  b) 把conf文件夹也复制到项目根目录下。修改conf/heritrix.properties的key: heritrix.cmdline.admin = 为heritrix.cmdline.admin = admin:admin. 如果要换服务port可修改如下key: heritrix.cmdline.port = 8080
  c) 把webapps文件夹也复制到项目根目录下。




3. 配置run confirgurations,
  a) 新增一个java application. main class为:org.archive.crawler.Heritrix.
  b) 选择Classpath -> 选择User Entries -- Advanced -> 选择Add Folders 将conf文件夹添加进去。


4. 点击run后运行。

5. 在浏览器中输入http://localhost:8080/. 然后输入用户名,密码:admin/admin.登陆成功.

6. 点击"Jobs", -> "Based on a profile" -> "default"
  a)Name of new job: test
  b)Description: test
  c)Seeds:http://www.ceconline.com/
  d)点击setting.设置http-headers:
     user-agent: Mozilla/5.0 (compatible; heritrix/1.14.4 +http://192.168.123.139)
  from: tt@tt.com
  e). 点击"Submit job  "
7. 在"Console"的页面中点击"start"就可以了。
发表评论
用户名: 匿名