简单的爬虫,爬去博客园文章标题_.NET_编程开发_程序员俱乐部

中国优秀的程序员网站程序员频道CXYCLUB技术地图
热搜:
更多>>
 
您所在的位置: 程序员俱乐部 > 编程开发 > .NET > 简单的爬虫,爬去博客园文章标题

简单的爬虫,爬去博客园文章标题

 2017/9/19 3:33:31  踏雪wu痕  程序员俱乐部  我要评论(0)
  • 摘要:花了几个小时写了一个小程序,没什么技术含量,第一次写博客。本人是个菜鸟,想记录一下自己的学习。运行效果如图:代码如下:stringurl="https://www.cnblogs.com/";intpagNum=10;stringhtml="";//stringpater="(<aclass=\"titlelnk\"href=\"[\\s\\S]*\"target=\"_blank\">)([\\s\\S]*)(</a>)";stringpater="<
  • 标签:文章 标题 博客

花了几个小时写了一个小程序,没什么技术含量,第一次写博客。本人是个菜鸟,想记录一下自己的学习。

运行效果如图:

  代码如下:
            string url = "https://www.cnblogs.com/";
            int pagNum = 10;
            string html = "";
            //string pater = "(<a class=\"titlelnk\" href=\"[\\s\\S]*\" target =\"_blank\">)([\\s\\S]*)(</a>)";
            string pater = "<a class=\"titlelnk\" href=\"(.*?)\" target=\"_blank\">(.*?)</a>";
            Regex regex = new Regex(pater);

            int num = 0;
            for (int i = 1; i < pagNum; i++)
            {
           string  url2 = url + "#p" + i;
                try
                {
                    WebRequest request = WebRequest.Create(url2);
                    Stream stream = request.GetResponse().GetResponseStream();
                    using (StreamReader reader = new StreamReader(stream, Encoding.UTF8))
                    {
                        html = reader.ReadToEnd();
                    }
                }
                catch (Exception ex)
                {
                    Console.WriteLine(ex.ToString());
                    Console.ReadKey();
                }
              
                if (!string.IsNullOrEmpty(html))
                {
                    //  Match match = Regex.Match(html, pater);
                    foreach (Match ma in regex.Matches(html))
                    {
                        Match math = Regex.Match(ma.Value,pater);
                        string title = math.Groups[2].Value;
                        num++;
                        Console.WriteLine("" + num + "个标题:\b" +title);
                        File.AppendAllText(@"d:\1.txt",title+ "\r\n");
                    }
                   
                }
            }
            Console.ReadKey();

 

 
上一篇: maven(四):一个基本maven项目的pom.xml配置 下一篇: 没有下一篇了!
发表评论
用户名: 匿名