此项目和类似主要爬取新浪微博用户可以删除吗的个人信息、微博信息、粉丝和关注()。
代码获取新浪微博Cookie进行登录可通过多账号登录来防止新浪的反扒(用来登錄的账号可从淘宝购买,一块钱七个)
项目爬的是新浪微博wap站,结构简单速度应该会比较快,而且反扒没那么强缺点是信息量会稍微缺少一些(可见)。
爬虫抓取微博的速度可以达到 1300万/天 以上具体要视网络情况,我使用的是校园网(广工大学城校区)普通的家庭網络可能才一半的速度,甚至都不到
主要使用 scrapy 爬虫框架。
start_requests 中根据用户可以删除吗ID启动四个Request同时对个人信息、微博、关注和粉丝进行爬取。
将新爬下来的关注和粉丝ID加入到待爬队列(先去重)
MongoDB安装好 能启动即可,不需要配置
将你用来登录的微博账号和密码加入到 cookies.py 文件Φ,里面已经有两个账号作为格式参考了
另外一些scrapy的设置(如间隔时间、日志级别、Request线程数等)可自行在setting里面调。
SinaSpider主要爬取新浪微博的個人信息、微博数据、关注和粉丝
_id:采用 “用户可以删除吗ID-微博ID” 的形式作为一条微博的唯一标识。
Co_oridinates:发微博时的定位坐标(经纬度)调用地图API可直接查看具体方位,可识别到在哪一栋楼
Tools:发微博的工具(手机类型或者平台)
转载请注明出处,谢谢!(原文链接:)
登录体验更流畅的互动沟通
从微博分享到朋友圈的内容肿么删掉
从微博分享到朋友圈的内容肿么删掉
您提交的内容含有以下违规字符请仔细检查!
> 从微博分享到朋友圈的内容肿么删掉
感谢您为社区的和谐贡献力量请选择举报类型
经过核实后将会做出处理
感谢您为社区和谐做出贡献
确定要取消此次报名,退出该活动
百度题库旨在为考生提供高效的智能备考服务全面覆盖中小学财会类、建筑工程、职业资格、医卫类、计算机类等领域。拥有优质丰富的学习资料和备考全阶段的高效垺务助您不断前行!
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。