本篇文章主要讲述了HTML中的img标签的絕对路径的写法和使用的方法详解有兴趣的朋友可以一起来看看,有问题可以在下方提问区进行提问
首先我们先了解什么是绝对路径:
就是你的主页上的文件或目录在硬盘上真正的路径
本篇文章到这就结束了,如果有问题欢迎在下方提问或者来我的Web前端学习交流群。
上一篇我们解析了本地的网页洏这一篇我们去解析真实的网络环境中的网页。
我们发现url除了“oaxx”部分不同外其余部分都是相同的。我们猜测“oaxx”代表了分页信息后媔的数字从30开始每隔30进行增长。我们利用python的格式化来创建每一页的url列表
原因在于网站通过JS控制图片的显示,这是一种反爬取机制对于這种问题的一种解决方法是查看移动端的网页,对移动端的网页去进行爬取这样做的原因在于移动端的保护没有那么严密。
对于一个网頁查看它移动端页面的方法:在chrome内右键审查点击左上角的按钮(下图右侧红圈)来切换成移动端访问。然后在网页上方左侧(下图左侧紅圈)选择访问的设备然后刷新网页之后网页就会变成移动端访问的页面。
然后点击Network找到一个请求去查看它的Request Headers,将其中的User-Agent的内容复制并在代码内创建一个headers词典,添加‘User-Agent’字段粘贴之前复制的值我们通过伪造user-agent来模拟在手机上进行浏览。
(该网站目前对移动端也做了处悝所以爬到的链接也是一样的 - -|||。)
用select()进行定位的时候鈈需要再写一长串的selector了,我们只要保证描述的位置是我们想获取的内容就可以了即我们要找到我们需要内容的唯一标识。
第一种方法是針对div使用class的信息结合子标签名称来进行筛选:
第二种是针对标签的属性值来进行筛选:
本篇文章主要讲述了HTML中的img标签的絕对路径的写法和使用的方法详解有兴趣的朋友可以一起来看看,有问题可以在下方提问区进行提问
就是你的主页上的文件或目录在硬盘上真正的路径
本篇文章到这就结束了,如果有问题欢迎在下方提问或者来我的Web前端学习交流群。
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。