对携程酒店评论爬虫评论,Ajax的response明明有异步加载的html,但那个requests url打开为什么是空白的?

我们采用的是casperjs把每个ajax请求完成後保存网页,放入队列这样的话后面的分析程序就只要分析html就好了。

casperjs这货和nodejs一起使用的时候时不时会有点小问题(我遇到的问题都不大很好解决),如果不想麻烦npm安装spookyjs,据说就可以把casperjs作为node的模块来使用了

当然,请求不复杂无需验证的话,直接观察请求就可以了

}

需求:爬取豆瓣电影分类排行榜 Φ的电影详情数据 

用抓包工具捉取 使用ajax加载页面的请求

鼠标往下下滚轮拖动页面会加载更多的电影信息,这个局部刷新是当前页面发起嘚ajax请求

用抓包工具捉取页面刷新的ajax的get请求,捉取滚轮在最底部时候发起的请求

这个get请求是本次发起的请求的url

获取响应内容不再是页面数據是json字符串,是通过异步请求获取的电影详情信息

start和limit参数 需要注意改变这两个参数获取的电影详情不一样

# 指定ajax-get请求的url(通过抓包进行獲取) # 封装ajax的get请求携带的参数(从抓包工具中获取) 封装到字典 # 改变这两个参数获取的电影详情不一样 # 定制请求头信息,相关的头信息必须封裝在字典结构中 # 获取响应内容:响应内容为json字符串 29 大话西游之月光宝盒 38 本杰明·巴顿奇事

 从21个电影开始获取信息总共获取20个电影详情信息

}

formdata 里面的数据是body里的带上就好了,我做爬虫评论好几年了有什么不懂的,欢迎追问!如果对你有帮助请采纳!

}

我要回帖

更多关于 爬虫评论 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信