为了提高爬虫的抓取速度,就想到了减少无用功这方面,因此就想先获取网页返回值,已减少一些无用的网页(比如404,500什么的),故网上搜了下如何获取返回值,
发现都比较繁琐,后来自己瞎摸索了一下,发现了一个自认为不错的方法,特此记录下来
URL urlPage = null;
HttpURLConnection conn = null;
try {
urlPage = new URL(link);
conn = (HttpURLConnection) urlPage.openConnection();
conn.setConnectTimeout(30000);
conn.setReadTimeout(30000);
System.out.println(conn.getHeaderField(null)); return false;
} catch (Exception e) {
return false;
}