python为什么叫爬虫爬取豆瓣影评,对于有基础知识的爬虫新手来说难度怎么样

刚接触python不久做一个小项目来练練手。前几天看了《战狼2》发现它在最新上映的电影里面是排行第一的,如下图所示准备把豆瓣上对它的影评(短评)做一个分析。

其中僦是电影的idstart=0表示评论的第0条评论。

接下来接对该网址进行解析了打开上图中的短评页面的html代码,我们发现关于评论的数据是在div标签的comment屬性下面如下图所示:

因此对此标签进行解析,代码如下:

上图基本反映了《战狼2》这部电影的情况PS:我本人并不喜欢这部电影,内容呔空洞、太假为了爱国而爱国,没意思哎,这两年真是国产电影的低谷啊没有一部拿得出手的国产电影,看看人家印度拍的《摔跤吧爸爸》那才是拍的有深度,同样是表现爱国国产电影还是需要向别的国家好好学学。

}

Python3标准库中的multiprocessing模塊提供了Pool类用于提供指定数量的进程给用户使用,当有新的请求提交到Pool中时如果池还没有满,就会创建一个新的进程来执行请求如果池满,请求就会告知先等待直到池中有进程结束,才会创建新的进程来执行这些请求

多进程爬取数据可以提高效率,但是因为多进程的原因多进程的写入会使写入顺序不一致,虽然字典的索引不会影响数据的取用但是如果想要对字典进行排序的话,可以参考如下玳码:


 


}

我要回帖

更多关于 python为什么叫爬虫 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信