Abot 爬虫分析-整体结构_.NET_编程开发_程序员俱乐部

中国优秀的程序员网站

程序员频道

地图

最新资讯 | 百度新闻 | GOOGLE地图 | RSS订阅 | 更多

非技术区

生活休闲恋爱交友

职业发展求职面试程序人生

移动开发

开发工具

DB2

MySql Sybase

开发

JAVA .NET PHPC/C++

数据库

SQL Server Oracle

互联网

运营推广营销 SEO

系统

Linux UnixWindows

资讯

动态产品人物

创业

职场学习管理

您所在的位置：程序员俱乐部 > 编程开发 > .NET > Abot 爬虫分析-整体结构

Abot 爬虫分析-整体结构

2016/5/12 5:31:46 禅宗花园...迷失的佛程序员俱乐部我要评论(0)

摘要：1.引言在Github上搜索下WebCrawler有上千个开源的项目，但是C#的仅仅只有168个，相比于Java或者Python确实少的可怜。如果按照Stars排名。可以看到排在第一位的是一个叫Abot的爬虫。通过这两天的测试，发现Abot是一个非常轻巧的爬虫。非常适合.Net程序员入门爬虫技术。在上一篇博文中，已经简单的介绍了如何使用Abot爬取博客园的新闻数据。今天给大家介绍下Abot的整体结构。2.整体结构Abot的项目非常简单，核心的只有一个Project，但是里面已经包含了线程调度
标签：分析

1. 引言

在Github 上搜索下Web Crawler 有上千个开源的项目，但是C#的仅仅只有168 个，相比于Java 或者Python 确实少的可怜。如果按照Stars 排名。可以看到

排在第一位的是一个叫Abot的爬虫。通过这两天的测试，发现Abot是一个非常轻巧的爬虫。非常适合.Net程序员入门爬虫技术。

在上一篇博文中，已经简单的介绍了如何使用Abot爬取博客园的新闻数据。今天给大家介绍下Abot的整体结构。

2. 整体结构

Abot的项目非常简单，核心的只有一个Project，但是里面已经包含了线程调度、Html 解析等核心模块。Abot的入口是PoliteWebCrawler，只需要它的一个Instance就可以启动爬虫。

整体的爬取流程大概是这样子的，以爬取博客园新闻数据为例：

上图中绿色的箭头表示线程从Url Repository获取需要爬取的Url，黑色的箭头表示线程将未爬取Url放入Url Repository。

主要的模块有：

1) Url Repository 存储所有需要爬取的Url，底层的实现采用了ConcurrentQueue，因此是线程安全的，也满足了先进先出的规则。

2) Thread Manager 管理所有的爬取线程，线程个数默认是当前处理器的个数，也可以通过Config 指定。

3) Robots 处理robots.txt 的模块，Abot 直接封装了NRobotsPatched 来解析robots.txt

4) LinkParser解析当前爬取到的page 中的链接，Abot 很大程度上利用了HtmlAgilityPack

5) Crawled Url Repository 存储已经爬取的Url，Abot 内部有多个实现

6) Http download 采用了HttpWebRequest 和 HttpWebResponse

7) Memory Monitor 主要是监控内存使用等等，可以通过Config设置爬虫的内存使用上限等

8) Event 相关，主要是在适当的时候触发像Start Crawl 等事件

这是Abot的代码目录

3. 总结

本文主要介绍下Abot 的整体结构，从代码量来看还是非常的轻巧，但是里面具体的实现还是有不少细节性的东西。

对于.Net 程序员是个非常好的学习项目。以后再给大家分析下具体模块的实现。

欢迎访问我的个人网站 51zhang.net 网站还在不断开发中…

上一篇： 3.0.框架调用关系下一篇： ModelState.IsValid总为false原因

Yahoo 开源 MySQL 性能分析工具

SQL Server数据库分页存储过程优化效率分析

3D打印切片软件Cura及CuraEngine原理分析

如何使用数据爬取和分析工具写出《黄焖鸡米饭是怎么火起来的》这样的文章

Abot 爬虫分析-整体结构

查看所有评论(0)

发表评论

用户名: 匿名

最新文章

可视化Web报表设计器-FastReport Online Designer简介

可视化Web报..

第二篇：速卖通产品采集系列之产品采集实战

第二篇：速卖通..

最新标签

今日热点

推荐文章

【共享】流程图控件

【共享】流程图..

C# String.Format用法

C# Stri..

English | 关于我们 | 诚聘英才 | 联系我们 | 网站大事 | 友情链接 | 意见反馈 | 网站地图

Powered by 程序员俱乐部程序提供： HugoCMS 2.0
网站备案：苏ICP备11048748号-1