刚下载了个heritrix-1.14.4 并且整全到eclips
1.新建java
project.
2.copy文件. 如下图:
a) 在项目中创建个目录:lib, 复制heritrix-1.14.4\lib到所有jar过来, 复制heritrix-1.14.4.jar到此lib.并且加到项目中的"java buid path"中。在加jar的时间, 要先加heritrix-1.14.4.jar然后再加其它jar包。 因为在heritrix-1.14.4.jar和commons-httpclient-3.1.jar有个同名的class:org.apache.commons.httpclient.HttpState. 或是下载heritrix-1.14.4的source code(src/java 中的 com、org、st三个文件夹) 放到src目录下(如果用这种方式,就要把src\conf\pro
files\下的default也要复制到项目的conf/profiles/default, 将src/resources/org/archive/util中tlds-alpha-by-domain.txt文件复制到工程中org.archive.util包下。), 这样就会优先调用heritrix中的这个类了。
b) 把conf文件夹也复制到项目根目录下。修改conf/heritrix.properties的key: heritrix.cmdline.admin = 为heritrix.cmdline.admin = admin:admin. 如果要换服务port可修改如下key: heritrix.cmdline.port = 8080
c) 把webapps文件夹也复制到项目根目录下。
3. 配置run confirgurations,
a) 新增一个java application. main class为:org.archive.crawler.Heritrix.
b) 选择Classpath -> 选择User Entries -- Advanced -> 选择Add Folders 将conf文件夹添加进去。
4. 点击run后运行。
5. 在浏览器中输入http://localhost:8080/. 然后输入用户名,密码:admin/admin.登陆成功.
6. 点击"Jobs", -> "Based on a profile" -> "default"
a)Name of new job: test
b)Description: test
c)Seeds:http://www.ceconline.com/
d)点击setting.设置http-
headers:
user-agent:
Mozilla/5.0 (compatible; heritrix/1.14.4 +http://192.168.123.139)
from: tt@tt.com
e). 点击"Submit job "
7. 在"Console"的页面中点击"start"就可以了。