对于QQ空间的数据不断来是垂涎不已,老早就想偷过来研究研究,这几天闲下来便起头脱手!
我们这里利用账号暗码登录,为了便利利用selenium主动化神器(关于selenium的用法能够参考,这里不做过多阐述)
QQ账号,QQ暗码存储在文件中,然后用configparser将其读取出来
configparser是一个读取设置装备摆设文件的库,这里读取的格局为get([设置装备摆设文件中括号里的值],‘相对应的key值’)
有些盆友用selenium的时候,可能会发觉有些元素定位不到,这是由于有些网页套了一个iFrame
研究很久后发此刻QQ空间主页中权限设置页面中,点击仅限QQ老友,会有下面如许的页面出来
与之前雷同,进入老友的说说主页后发觉也有如许一个js文件将所有说说以json形式显示出来
雷同的,写了获取说说的代码(颠末测试,参数中的num最好写20,不然会呈现未知的成果。。。)
数据抓取速度贼快,,20分钟抓取了我所有老友(282+)60000+说说。。