自学爬虫有一段时间了期间总昰觉得内容编码会傻傻分不清楚,尤其是直接网页拿数据的时候遇见中文有时候特别麻烦,看大神介绍的东西太多只记下了处理方式,仅供参考不对地方欢迎大家指正~~
一般请求返回内容编码方式步骤如下:
1、查看数据源网页的编码形式--爬取数据所在网页源代码就有写:
自学爬虫有一段时间了期间总昰觉得内容编码会傻傻分不清楚,尤其是直接网页拿数据的时候遇见中文有时候特别麻烦,看大神介绍的东西太多只记下了处理方式,仅供参考不对地方欢迎大家指正~~
一般请求返回内容编码方式步骤如下:
1、查看数据源网页的编码形式--爬取数据所在网页源代码就有写:
我们在安装py是建议如果使用windows不要咹装原生的py因为windows的c编译器原因会使某些套件安装起来有麻烦
py官网下载的是原生版本
本文爬取文字使用原生python进行演示
爬虫的原理就是模仿人類登录不同的网页 然后使用开发者工具来获得服务器传回的信息 将其按照特定格式储存起来
我们以chrome浏览器为示例
首先我们打开一个页面右鍵检查 或者使用f12
点击刷新/或按下f5我们可以看到服务器返回的内容
我们可以看到 我们需要的内容
这里可以看到一个get我们要注意这里有了这些經验我们就可以开始利用无所不能的python来完成这些过程
我们在安装过程中一定要注意是在cmd下安装不能再python环境下安装!!!
下面安装完成后只需要输入
会自动打开浏览器 我们通过一个port访问自己电脑 然后可以创建python的项目
下面我们开始写一个程序模拟人类点击的过程
但是因为我们爬取文字等拿原生py就可以做到我们就不使用anaconda作为案例了
下面我们打开notepad++这个文本编辑器有中文版并且免费
或者直接使用py的idle交互式编译器
我们运荇就可以获取获pycharm爬取网页数据html的所有内容
这样我们的第一只爬虫就写好了但是怎样获取到我们需要的信息呢?
运行完出现我们需要的文檔
打开就是我们需要的文本了
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。