当前位置: 主页 > 大话特码 > 内容

热门内容

python抓取历年特码开记录

时间:2017-09-20 16:52  来源:未知  作者:admin

  小时候,有种游戏,两个主人公:白和曾,每个家庭把他俩像活一样供着,供他们吃,供他们穿

  很多人为了白和曾,最后变成了CCTV少儿频道的粉丝,这也可以看出特码啊,有木有啊

  想起一位退休后俨然成为白和曾的文员,每天都会手动更新记录资料和各种画图,当时我就在想要是我读书能有他一半认真,起码要把城读一圈才肯放手。

  知识点:splinter库的使用,将抓取数据存入数据库,pandas库连接Mysql数据库进行数据的调用和基本统计整理

  1.一切都得从12306开始说起,当时已经自己倒腾出了查票的一套小程序,可是一直在想怎么绕过那个验证码,后来到网上各种找,看有没有解决办法,真的是东边不亮,亮西边,解决验证码的答案是没找到,倒是搜出了一大把标题党,其实内容就是介绍这个库的使用,耐着性子边操边练,也算入了门,后来去读了文档,发现这个家伙用处还是挺大

  2.查了很多彩的网站,发现坑爹的一点就是所有开记录都是js生成的网页代码,刚好splinter库的broswer.html返回的就是响应了js后的网页文本(和审查元素看到的一样一样的)

  3.1976年到2017年,也就41年,也就是说只要访问41次网页即可,对内存也造成不了多大的,综合考虑,这个splinter就可以派上用场了

  然后你所开发的模拟的任何行为,都会自动完成,你只需要坐在电脑面前,像看电影一样看着屏幕上各种动作自动完成然后收集结果即可。

  我们看到,这种开记录,比小时候大家只去关注最终数字,情况是好的多,连笔画,都特么有。拿着放大镜数了一下共27个有价值字段我们可以取出

  1.建个表,把数据写入数据库这种办法还是不错的,到时不管什么时候需要做有趣的统计分析研究的时候,直接拿数据就行了。

  数据已写入数据库,今天就先简单的用pandas库稍微热热身吧(虽然这点数据量用excel已经可以起飞了)

  读取数据库数据所有数据(这里可以选择你想读取的任何数据,可以理解成用SQL提取数据然后用pandas来交互)

  查看一下数据(效果还是差了点,列的宽度还存在问题,可以通过pd.set_option(display.max_colwidth,20)来设置列的最大宽度,将就着用吧)

  注:本文的统计分析描述,毫无参考意义,开数据均已经过掺假处理,所展示数据均为虚拟数据,珍爱生命,远离白X姐和

  概率事件的东西总是个磨人的小妖精,你心动了吗?因个人能力有限,如果你心动了,真诚的邀请您一起加入之后很多有趣的数据统计分析工作。

  能力有限,做的不好的地方,大神们多多包含,尤其是逻辑与思维上的东西,需要大神们看到了多多指教和斧正。

相关推荐