我们采用的是casperjs把每个ajax请求完成後保存网页,放入队列这样的话后面的分析程序就只要分析html就好了。
casperjs这货和nodejs一起使用的时候时不时会有点小问题(我遇到的问题都不大很好解决),如果不想麻烦npm安装spookyjs,据说就可以把casperjs作为node的模块来使用了
当然,请求不复杂无需验证的话,直接观察请求就可以了
需求:爬取豆瓣电影分类排行榜 Φ的电影详情数据
这个get请求是本次发起的请求的url
获取响应内容不再是页面数據是json字符串,是通过异步请求获取的电影详情信息
start和limit参数 需要注意改变这两个参数获取的电影详情不一样
从21个电影开始获取信息总共获取20个电影详情信息
formdata 里面的数据是body里的带上就好了,我做爬虫评论好几年了有什么不懂的,欢迎追问!如果对你有帮助请采纳!
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。