有点闲时间就想跟”博客园过意不去“,每天逛博客园赶脚闪存挺好,就是"常驻人口"众多,其他偶尔来一次,大家交流也是挺方便的,于是乎我就想看看闪存"常驻人口"有哪些?根据他们发闪的频率来判断他们的状态。呵呵,所以就想到了抓取数据分析,本来想弄个c#版,但是c#不是我的强项,时间关系我就搞了一个java多线程抓取+highcharts报表生成,其实也就是对我的知识巩固一下、当中确实又领悟了不少的编程思想、下面我先汇报一下我的统计报告,然后再做技术方面的分享,两个方面。废话不多说我们通过数据说话,数据完全真实可靠(由于博客园闪存最多翻页到167页,所以数据时间段是从2013-8-1日到2013-8-22日差不多刚好一个月的样子)。
一:统计结果分析:
1.1闪存总人数:
1.2发布消息最多的排行——top20
看看那些人都在明星榜单?呵呵呵,哈哈,我也在,dudu,也在江湖再见你发的有点多了哦。top1(8-1到8-22本来想弄个ps的通缉令想想算了。分享知识重要)
1.3回复数量最多的一条闪(没有抓内容,所以不知道这个家伙说神马了)
看到这个我有点不相信我的眼睛,是不是看错了,我的乖乖,回复65,这个是扣扣聊天?于是乎我想知道他是谁?这么大的魅力,看下面就是他、
这个要是微博这家伙绝对火了、哈哈哈,绯闻一大堆了、
1.4回复数量排行榜top20
看看谁都在名人榜上,呵呵呵呵、人气很高啊、闪存明星,欧码噶的,都有我、
1.5刷星能手top20排行榜
下面来让我们看看闪存的刷星能收排行榜,看看谁在22天的时间里刷到的星星最多,不废话,看图、
哈哈,看看谁都在,欧码噶的,第一果不其然是枕头妹子啊,你牛逼了、我当时统计的时候我也心里想应该是她,厉害啊!昨天晚上有人(二十三号同学)问我,问我那人也说是枕头、
好了,到这里我们粗略的统计了一下,下面我们通过报表的形式展现、也是我今天新鲜出炉的highcharts(前端报表库)下面看图。
2.1刷到星星和没有刷到星星占总人数比重(饼图)
2.2消息得到回复和没有得到回复的占总人数的比重(饼图)
2.3新人老人占总人数比重
2.4每天的发消息量(8-1日到8-22日)
、
其中x轴是日期(8-1日到8-22日)y轴是每天的发消息量。翻看黄历低峰都是休息的时候、
2.5每天星星出来的数量
其中x轴是日期(8-1日到8-22日)y轴是星星每天出来的数量
2.6每天新人数量
其中x轴是日期(8-1日到8-22日)y轴是新注册的人每天来的数量
好了,到这里就结束了我的分析,大概就考虑到了这点,你从上面的数据报告中能得到神马信息?可以回复文章中以供大家观摩。我这里多做点评。其实我打造的这个再完善点就可以作为闪存分析工具(本地mysql数据库保存数据,爬虫解析采用线程池,5k数据我划分了3个线程,大概几十秒搞定)可以永久对闪存做每月或者每个季度的行为分析,潜在的商机不言而喻,通过这次分析,我发现数据的魅力很大、数据就是一个软件的灵魂,而商业化点数据就是金钱,潜在的商机、欧码噶的,google记录的数据不知道能不能绘制一个蓝图?dudu我可不可把我的分析系统卖给你?哈哈哈(说这话我赶脚真不要脸,哈哈哈!)有时候我们coder更多的还是需要沟通,这样有利于我们团队建设,团队合作的能力、闪存的魅力到此结束、先发布分析报告,技术的分享我稍后补上,这里不方便再写了。