这两个库主要是解析html/xml文档beautifulsoup4咹装 用来解析 HTML 比较简单,API非常人性化支持CSS选择器、
数据结构、种类:Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有對象可
Tag: 即我们在写网页时所使用的标签(如<a>超链接标签)
NavigableString:简单的说就是一种可以遍历的字符串
使用requests库获取网页源代码:
列表:find_all方法也能接受列表参数,beautifulsoup4安装会将与列表中任一元素匹配的内容返回
返回的数据类型为bs4.element.ResultSet,跟列表相似可以通過索引取值且有序
方法(调用函数体):如果没有合适的过滤器,我们也可以自定义一个方法,方法只接受一个元素参数
基于select获取:css选择器,写 CSS 时标签名不加任何修饰,类名前加.id名前加#;返回值是一个列表
beautifulsoup4安装是Python的一个第三方库可用于幫助解析html/XML等内容,以抓取特定的网页信息目前最新的是v4版本,这里主要总结一下我使用的v3版本解析html的一些常用方法
文字的搜索会导致其他搜索给的值如:tag, attrs都失效。方法与搜索tag一致
# 注意:1每个tag的text包括了它以及它子孙的text。2所有text已经被自动转为unicode,如果需要可以自行转码encode(xxx)
實例本文以博客的文档列表页面为例,利用python对页面中的文章名进行提取
文章列表页中的文章列表部分的url如下:
# 为了防止漏掉调用close方法,這里使用了with语句 # 写入到文件中的编码为utf-8
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。