一般情况下在采集时,单个线程的工作速度是相当的慢的。对于大量数据的采集中采集多任务+多线程的方式显得尤其重要。
这里晒下我的一个多任务+多线程的代码类图。
? 因最近比较忙,代码也刚写一部分,还需完善,就先不发源码出来。
?对于有些加了IP限制的网站,我们只有使用代理来对付,所以要先准备N多个快速的HTTP代理了
? 代理中国上每天都有更新,不过要想找到很快的代理还真不容易。
?
此结构仅供参考,大家有好的建议欢迎拍砖?? Email: hipeace86 [ at ] gmail.com (请将 [ at ] 替换成@)