我真是无聊啊。今天有一大堆事要做,就是静不下心来。偏偏干点别的闲事聚精会神。刚才居然花了点时间写了个小程序,把CSDN有关CSDN圈子的数据抓到Excel里,做了点统计。CSDN没有提供API,所以抓数据只好“刮页”了。还好,CSDN的网页程序员相当不错(反正比我牛多了),做的网页干净,全用DIV+CSS排版。Table就是用来放数据的。圈子列表的URL是http://blog.csdn.net/grouplist.aspx?keyword=&O=ViewCount&IsDesc=1&p=1, 要翻页,改动最后那个p的值就行了。每页就一个表,用来装关于圈子的数据。这样我的程序简单多了。运行了一下,耗时1404秒,抓了131页,得到2463个圈子。平均每页10秒多,看来网速还是很慢。比较有意思的数据。我把一些有意思的数据加黑了。80%以上的群没有一篇文章。79.8%的群没有一个成员。不到1%的群发了超过30%的帖子。不到1%的圈子拥有超过46%的成员。长尾巴啊长尾巴。另一方面,看来圈子的利用率一般。平均访问/人才65。
Statistic | 成员数 | 文章数 | 访问数 | 访问/人 | 文章/人 | 访问/文章 |
No. of observations | 2462 | 2462 | 2462 | 2462 | 2462 | 2462 |
No. of missing values | 0 | 0 | 0 | 0 | 0 | 0 |
Sum of weights | 2462 | 2462 | 2462 | 2462 | 2462 | 2462 |
Minimum | 0.000 | 0.000 | 1.000 | 0.000 | 0.000 | 0.000 |
Maximum | 202.000 | 172864.000 | 8734.000 | 605.000 | 21247.000 | 229.000 |
Freq. of minimum | 1965 | 2027 | 18 | 1965 | 2029 | 2027 |
Freq. of maximum | 1 | 1 | 1 | 1 | 1 | 1 |
Range | 202.000 | 172864.000 | 8733.000 | 605.000 | 21247.000 | 229.000 |
1st Quartile | 0.000 | 0.000 | 6.000 | 0.000 | 0.000 | 0.000 |
Median | 0.000 | 0.000 | 13.000 | 0.000 | 0.000 | 0.000 |
3rd Quartile | 0.000 | 0.000 | 24.000 | 0.000 | 0.000 | 0.000 |
Sum | 2375.000 | 562812.000 | 161978.000 | 32795.892 | 161380.151 | 3119.706 |
Mean | 0.965 | 228.600 | 65.791 | 13.321 | 65.548 | 1.267 |
Variance (n) | 44.860 | 16742560.226 | 133050.839 | 1619.698 | 593022.322 | 82.830 |
Variance (n-1) | 44.878 | 16749363.380 | 133104.902 | 1620.356 | 593263.290 | 82.864 |
Standard deviation (n) | 6.698 | 4091.767 | 364.761 | 40.245 | 770.079 | 9.101 |
Standard deviation (n-1) | 6.699 | 4092.599 | 364.835 | 40.254 | 770.236 | 9.103 |
Variation coefficient | 6.943 | 17.899 | 5.544 | 3.021 | 11.748 | 7.182 |
Skewness (Pearson) | 18.821 | 34.254 | 14.711 | 6.269 | 18.691 | 16.768 |
Skewness (Fisher) | 18.832 | 34.275 | 14.720 | 6.273 | 18.702 | 16.779 |
Skewness (Bowley) | 0.222 | |||||
Kurtosis (Pearson) | 452.389 | 1341.878 | 266.442 | 57.855 | 402.560 | 344.779 |
Kurtosis (Fisher) | 453.311 | 1344.610 | 266.986 | 57.975 | 403.381 | 345.483 |
Standard error of the mean | 0.135 | 82.464 | 7.351 | 0.811 | 15.520 | 0.183 |
Lower bound on mean (95%) | 0.700 | 66.893 | 51.376 | 11.730 | 35.115 | 0.907 |
Upper bound on mean (95%) | 1.229 | 390.306 | 80.207 | 14.911 | 95.982 | 1.627 |
Mean absolute deviation | 1.540 | 424.966 | 91.693 | 21.461 | 120.736 | 2.174 |
Median absolute deviation | 0.000 | 0.000 | 8.000 | 0.000 | 0.000 | 0.000 |
Geometric mean | 14.289 | |||||
Geometric standard deviation | 3.721 | |||||
Harmonic mean | 7.781 |
下面是一些图: