常用的提取网页数据的工具有三種xpath、css选择器、正则表达式
# 从响应报文中提取出响应体(图片二进制数字)需了解报文的结构
正则表达式可以包含一些可选標志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志多个标志可以通过按位OR(|)它们来指定。如
re.I|re.M被设置成I和M标志:
re.I 使匹配对大小写不敏感
re.L 使本地化识别(locale-aware匹配)
re.M 多行匹配影响^和$
re.S 使.匹配包括换行在内的所有字符
re.X 该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解
匹配鈈到返回:None
匹配到返回:
# 序号0为正则表达式匹配到的内容
# 序号1为正则表达式第一个括号的内容
# 序号2为正则表达式第二个括号嘚内容
# 序号3为正则表达式第三个括号的内容
# 返回匹配到的内容所有分组元组
匹配不到返回:None
匹配到返回:
# 序号0為正则表达式匹配到的内容
# 序号1为正则表达式第一个括号的内容
# 序号2为正则表达式第二个括号的内容
# 序号3为正则表达式第三个括号的内容
# 返回匹配到的内容所有分组元组
匹配不到返回:[]
匹配到返回:一个列表(如果没有分组,就返回匹配正则表达式的所有匹配到的项如果分组就会返回匹配到的项中的分组组成的一个元组的所有项)
}
一、使用scapy简单的用来抓取http相关報文
三、wireshark对比(发现红框所示,有2个http缺失)
部分报文中无法提取http相关匹配项Raw显示如下:
·1.scapy显示的结构层级,查看分层结构可以进行解析數据
2. 调试过程获取数据结构
}