一个简单的python爬虫算法法编译没错，一运行就这样，求解决？

点击联系发帖人 时间：2014-11-17 04:40

爬虫算法

爬虫：一段自动抓取互联网信息的程序，从互联网上抓取对于我们有价值的信息；

Python爬虫架构主要由五个部分组成分别是调度器、URL管理器、网页下载器、网页解析器、应用程序（爬取的有价值数据）

相当于一台电脑的CPU，主要负责调度URL管理器、下载器、解析器之间的协调工作；

包括待爬取的URL地址和已爬取的URL地址防止重复抓取URL和循环抓取URL，实现URL管理器主要鼡三种方式：通过内存、数据库、缓存数据来实现；

通过传入一个URL地址来下载网页将网页转换成一个字符串，网页下载器有urllib（Python官方基础模块）包括需要登录、代理和Cookie；还有requests（第三方包）；

将一个网页字符串进行解析，可以按照我们的要求来提取出我们有用的信息也可鉯根据DOM树的解析方式来解析；

直观，将网页转成字符串通过模糊匹配的方式来提取有价值的信息；

但当文档比较复杂的时候该方法提取數据的时候就会非常困难；

（content是html文档太长就不附在这里了）

其他的后续会有示例，我们慢慢理解；

}

当你觉得爬虫很难的时候，可能确实是你想多了零基础只需五行代码即可编写一個爬虫程序！

写爬虫时基本是接下来的几大步骤：

# 转换编码格式，不然显示文字格式不对

运行之后是不是发现输出了该网页的源码呢那麼恭喜你，成功完成了第一个爬虫

}

今天在学习小甲鱼的python爬虫，遇到下面问题

首先贴上今天找到的一个技巧

在python报错之後，定位c：之前的那个语句基本上就是出错的地方

这个问题是由于网站的反爬机制，如果用 urllib.request.urlopen 方式打开一个URL,服务器端只会收到一个单纯的對于该页面访问的请求,但是服务器并不知道发送这个请求使用的浏览器,操作系统,硬件平台等信息,而缺失这些信息的请求往往都是非正常的訪问,例如爬虫.
有些网站为了防止这种非正常的访问,会验证请求信息中的UserAgent(它的信息包括硬件平台、系统软件、应用软件和用户个人偏好),如果UserAgent存在异常或者是不存在,那么这次请求将会被拒绝(如上错误信息所示)
所以可以尝试在请求中加入UserAgent的信息

}

天天发财游戏网