使用Java实现网络爬虫_JAVA

您所在的位置：程序员俱乐部 > 编程开发 > JAVA > 使用Java实现网络爬虫

2013/9/30 10:17:54 flycars001 程序员俱乐部我要评论(0)

摘要：记得在刚找工作时，隔壁的一位同学在面试时豪言壮语曾实现过网络爬虫，当时的景仰之情犹如滔滔江水连绵不绝。后来，在做图片搜索时，需要大量的测试图片，因此萌生了从Amazon中爬取图书封面图片的想法，从网上也吸取了一些前人的经验，实现了一个简单但足够用的爬虫系统。网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成，其基本架构如下图所示：传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列
标签：实现使用 Java 网络网络爬虫

记得在刚找工作时，隔壁的一位同学在面试时豪言壮语曾实现过网络爬虫，当时的景仰之情犹如滔滔江水连绵不绝。后来，在做图片搜索时，需要大量的测试图片，因此萌生了从Amazon中爬取图书封面图片的想法，从网上也吸取了一些前人的经验，实现了一个简单但足够用的爬虫系统。

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成，其基本架构如下图所示：

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。对于垂直搜索来说，聚焦爬虫，即有针对性地爬取特定主题网页的爬虫，更为适合。

本文爬虫程序的核心代码如下：

Java代码

整个函数由getNextUrl、getContent、isContentRelevant、extractUrls、addUrlsToUrlQueue等几个核心方法组成，下面将一一介绍。先看getNextUrl：

Java代码

files/uploadimg/20110309/1015301.gif">

private?CrawlerUrl?getNextUrl()?throws?Throwable?{??? ?
????CrawlerUrl?nextUrl?=?null;??? ?
????while?((nextUrl?==?null)?&&?(!urlQueue.isEmpty()))?{??? ?
????????CrawlerUrl?crawlerUrl?=?this.urlQueue.remove();??? ?
?????????????????? ?
????????//doWeHavePermissionToVisit：是否有权限访问该URL，友好的爬虫会根据网站提供的"Robot.txt"中配置的规则进行爬取??? ?
????????//isUrlAlreadyVisited：URL是否访问过，大型的搜索引擎往往采用BloomFilter进行排重，这里简单使用HashMap??? ?
????????//isDepthAcceptable：是否达到指定的深度上限。爬虫一般采取广度优先的方式。一些网站会构建爬虫陷阱（自动生成一些无效链接使爬虫陷入死循环），采用深度限制加以避免??? ?
????????if?(doWeHavePermissionToVisit(crawlerUrl)??? ?
????????????&&?(!isUrlAlreadyVisited(crawlerUrl))???? ?
????????????&&?isDepthAcceptable(crawlerUrl))?{??? ?
????????????nextUrl?=?crawlerUrl;??? ?
????????????//?System.out.println("Next?url?to?be?visited?is?"?+?nextUrl);??? ?
????????}??? ?
????}??? ?
????return?nextUrl;??? ?
}???

更多的关于robot.txt的具体写法，可参考以下这篇文章：

http://www.bloghuman.com/post/67/

getContent内部使用apache的httpclient 4.1获取网页内容，具体代码如下：

Java代码

private?String?getContent(CrawlerUrl?url)?throws?Throwable?{??? ?
????//HttpClient4.1的调用与之前的方式不同??? ?
????HttpClient?client?=?new?DefaultHttpClient();??? ?
????HttpGet?httpGet?=?new?HttpGet(url.getUrlString());??? ?
????StringBuffer?strBuf?=?new?StringBuffer();??? ?
????HttpResponse?response?=?client.execute(httpGet);??? ?
????if?(HttpStatus.SC_OK?==?response.getStatusLine().getStatusCode())?{??? ?
????????HttpEntity?entity?=?response.getEntity();??? ?
????????if?(entity?!=?null)?{??? ?
????????????BufferedReader?reader?=?new?BufferedReader(??? ?
????????????????new?InputStreamReader(entity.getContent(),?"UTF-8"));??? ?
????????????String?line?=?null;??? ?
????????????if?(entity.getContentLength()?>?0)?{??? ?
????????????????strBuf?=?new?StringBuffer((int)?entity.getContentLength());??? ?
????????????????while?((line?=?reader.readLine())?!=?null)?{??? ?
????????????????????strBuf.append(line);??? ?
????????????????}??? ?
????????????}??? ?
????????}??? ?
????????if?(entity?!=?null)?{??? ?
????????????entity.consumeContent();??? ?
????????}??? ?
????}??? ?
????//将url标记为已访问??? ?
????markUrlAsVisited(url);??? ?
????return?strBuf.toString();??? ?
}?? ?