简单爬虫算法伪代码_C/C++_编程开发_程序员俱乐部

中国优秀的程序员网站程序员频道CXYCLUB技术地图
热搜:
更多>>
 
您所在的位置: 程序员俱乐部 > 编程开发 > C/C++ > 简单爬虫算法伪代码

简单爬虫算法伪代码

 2011/1/3 9:17:55  monkeycn  http://monkeycn.javaeye.com  我要评论(0)
  • 摘要://简单爬虫算法伪代码//极品外公2010.12.28//qq:409242642voidrun(){hashtablehttp_table;//哈希表queuetxt_queue;//队列if(download_http(url,txt))//下载网页{get_keyword(txt,keyword);//提取关键字http_table.append(keyword,url);//加入到索引表txt_queue.enqueue(txt);//入队while(!txt_queue
  • 标签:代码 算法
// 简单爬虫算法伪代码
// 极品外公 2010.12.28 
// qq:409242642

void run()
{
	hashtable http_table; // 哈希表
	queue txt_queue; // 队列 
	if ( download_http(url, txt) ) // 下载网页
	{
	     get_keyword(txt, keyword); // 提取关键字
	     http_table.append(keyword, url); // 加入到索引表
	     txt_queue.enqueue(txt); // 入队

	     while( !txt_queue.is_empty() )  // 队列不为空
	     {
		 itxt = txt_queue.dequeue(); // 出队
		 foreach( iurl in itxt) // 遍历所有url
		 {
		      if ( download_http(iurl, iitxt) )
		      {
			  get_keyword(iitxt, ikeyword);
			  http_table.append(ikeyword, iurl);
			  txt_queue.enqueue(iitxt); // 入队
		      }
		 }		
	     }
	     
	}
}
发表评论
用户名: 匿名