如何用python实现神经网络读取八张照片

点击联系发帖人 时间：2016-06-19 05:14

lstm python实现

后使用快捷导航没有帐号？
查看: 949|回复: 6
python实现简单爬虫功能-爬去网页图片
在线时间80 小时
TA的帖子TA的资源
一粒金砂（中级）, 积分 42, 距离下一级还需 158 积分
一粒金砂（中级）, 积分 42, 距离下一级还需 158 积分
& & 在我们日常上网浏览网页的时候，经常会看到一些好看的图片，我们就希望把这些图片保存下载，或者用户用来做桌面壁纸，或者用来做设计的素材。　　我们最常规的做法就是通过鼠标右键，选择另存为。但有些图片鼠标右键的时候并没有另存为选项，还有办法就通过就是通过截图工具截取下来，但这样就降低图片的清晰度。　　这里可以通过python 来实现这样一个简单的爬虫功能，把我们想要的代码爬取到本地。下面就看看如何使用python来实现这样一个功能。一. 获取整个页面数据首先我们可以先获取要下载图片的整个页面信息。创建getjpg.py文件#coding=utf-8import urllib def getHtml(url):& &page = urllib.urlopen(url)& &html = page.read()& &return html html =getHtml(&/p/&) print html 说明：　&&Urllib 模块提供了读取web页面数据的接口，我们可以像读取本地文件一样读取www和ftp上的数据。首先，我们定义了一个getHtml()函数；urllib.urlopen()方法用于打开一个URL地址；read()方法用于读取URL上的数据；向getHtml()函数传递一个网址，并把整个页面下载下来。执行程序就会把整个网页打印输出。二. 筛选页面中想要的数据　Python 提供了非常强大的正则表达式，我们需要先要了解一点python 正则表达式的知识才行。re模块中一些重要的函数：& &假如我们百度贴吧找到了几张漂亮的壁纸，通过到前段查看工具。找到了图片的地址，如：src=&/forum/w%3D580/sign=fcfaafbc5594ed/75fafbedab6b80aecd11.jpg& 修改代码如下： import reimport urllib def getHtml(url):& &page = urllib.urlopen(url)& &html = page.read()& &return html def getImg(html):& &reg = r'src=&(.+?\.jpg)& pic_ext'& &imgre = re.compile(reg)& &imglist = re.findall(imgre,html)& &return imglist& && && &html =getHtml(&/p/&)print getImg(html) 我们又创建了getImg()函数，用于在获取的整个页面中筛选需要的图片连接。re模块主要包含了正则表达式：　　re.compile() 可以把正则表达式编译成一个正则表达式对象.　　re.findall() 方法读取html 中包含 imgre（正则表达式）的数据。运行脚本将得到整个页面中包含图片的URL地址。
三. 将页面筛选的数据保存到本地把筛选的图片地址通过for循环遍历并保存到本地，代码如下：#coding=utf-8import urllibimport re def getHtml(url):& &page = urllib.urlopen(url)& &html = page.read()& &return html def getImg(html):& &reg = r'src=&(.+?\.jpg)& pic_ext'& &imgre = re.compile(reg)& &imglist = re.findall(imgre,html)& & x= 0& &for imgurl in imglist:& && & urllib.urlretrieve(imgurl,'c:\Users\Administrator\Desktop\pic\%s.jpg'&&% x)& && & x+=1
html =getHtml(&/p/&) print getImg(html)
　&&这里的核心是用到了urllib.urlretrieve()方法，直接将远程数据下载到本地。　&&通过一个for循环对获取的图片连接进行遍历，为了使图片的文件名看上去更规范，对其进行重命名，命名规则通过x变量加1。保存的位置默认为程序的存放目录。& &&&程序运行完成，将在目录下看到下载到本地的文件。效果如下：
本帖子中包含更多资源
才可以下载或查看，没有帐号？
在线时间2141 小时
威望5986 分
芯币7901 枚
E金币376 枚
TA的帖子TA的资源
五彩晶圆（中级）, 积分 5986, 距离下一级还需 14 积分
五彩晶圆（中级）, 积分 5986, 距离下一级还需 14 积分
本帖最后由 shower.xu 于
17:07 编辑
cool,能把整个脚本分享一下么？
嗯嗯好的，不过这个要针对不同的网页才行&
在线时间80 小时
TA的帖子TA的资源
一粒金砂（中级）, 积分 42, 距离下一级还需 158 积分
一粒金砂（中级）, 积分 42, 距离下一级还需 158 积分
cool,能把整个脚本分享一下么？
嗯嗯好的，不过这个要针对不同的网页才行
只要有脚本做模版就行，修修改改嘛&
在线时间2141 小时
威望5986 分
芯币7901 枚
E金币376 枚
TA的帖子TA的资源
五彩晶圆（中级）, 积分 5986, 距离下一级还需 14 积分
五彩晶圆（中级）, 积分 5986, 距离下一级还需 14 积分
嗯嗯好的，不过这个要针对不同的网页才行
只要有脚本做模版就行，修修改改嘛
在线时间192 小时
威望215 分
芯币726 枚
TA的帖子TA的资源
一粒金砂（高级）, 积分 215, 距离下一级还需 285 积分
一粒金砂（高级）, 积分 215, 距离下一级还需 285 积分
用到了wxpython？
在线时间1568 小时
威望3116 分
芯币27787 枚
E金币733 枚
TA的帖子TA的资源
学习一下。
在线时间103 小时
威望245 分
芯币458 枚
TA的帖子TA的资源
一粒金砂（高级）, 积分 245, 距离下一级还需 255 积分
一粒金砂（高级）, 积分 245, 距离下一级还需 255 积分
关键是看网页源码啊，要懂html以及更多啊& && && && && && && && && && && && && && && && &
论坛测评队员
Powered by
逛了这许久，何不进去瞧瞧？Python如何获取图片长宽等信息 - 开源中国社区
当前访客身份：游客 [
当前位置：
获取了一个图片的url(/example.jpg)。怎么快速的获取图片的尺寸，大小等信息呢？
如果是本地的图片又怎么快速的获取呢？
必须使用pil吗？
共有6个答案
<span class="a_vote_num" id="a_vote_num_
直接读文件肯定快。
<span class="a_vote_num" id="a_vote_num_
多谢，不知道直接用python读图片文件效率高不高，不同的图片格式保存信息不一样的赛。不知道pil是不是用C写的。
--- 共有 1 条评论 ---
(4年前)&nbsp&
<span class="a_vote_num" id="a_vote_num_
快速获取。。。。。
<span class="a_vote_num" id="a_vote_num_
获取图片的长，宽，需要了解你的图像文件，图片文件的头部都是定义好的可以直接读取，比附bmp格式的直接可以去读它对应的第几个字节，那就是长宽信息。
<span class="a_vote_num" id="a_vote_num_
<span class="a_vote_num" id="a_vote_num_
os.path.getsize('文件路径') &这个是获得文件的大小&
图片的尺寸需要引&PIL包 &用size 获得图片的大小
更多开发者职位上
有什么技术问题吗？
旁边白的其它问题
类似的话题python 能够实现读取图片的属性信息吗比如像素经纬度
[问题点数：20分，结帖人isaac198518]
python 能够实现读取图片的属性信息吗比如像素经纬度
[问题点数：20分，结帖人isaac198518]
不显示删除回复
显示所有回复
显示星级回复
显示得分回复
只显示楼主
2014年8月其他开发语言大版内专家分月排行榜第二2014年7月其他开发语言大版内专家分月排行榜第二2014年5月其他开发语言大版内专家分月排行榜第二2014年4月其他开发语言大版内专家分月排行榜第二2014年3月其他开发语言大版内专家分月排行榜第二2014年1月其他开发语言大版内专家分月排行榜第二2013年12月其他开发语言大版内专家分月排行榜第二2013年11月其他开发语言大版内专家分月排行榜第二2013年3月其他开发语言大版内专家分月排行榜第二2012年5月其他开发语言大版内专家分月排行榜第二2012年4月其他开发语言大版内专家分月排行榜第二2010年10月其他开发语言大版内专家分月排行榜第二2010年9月其他开发语言大版内专家分月排行榜第二
2013年9月其他开发语言大版内专家分月排行榜第三2012年6月其他开发语言大版内专家分月排行榜第三
匿名用户不能发表回复！|
每天回帖即可获得10分可用分！小技巧：
你还可以输入10000个字符
(Ctrl+Enter)
请遵守CSDN，不得违反国家法律法规。
转载文章请注明出自“CSDN（www.csdn.net）”。如是商业用途请联系原作者。基于Python的图片文字识别_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
基于Python的图片文字识别
上传于||文档简介
&&利用Python,基于pytesser,openCV进行图片文字识别
阅读已结束，如果下载本文需要使用1下载券
想免费下载本文？
下载文档到电脑，查找使用更方便
还剩1页未读，继续阅读
你可能喜欢Python爬虫实战（4）：抓取淘宝MM照片 - Python - 伯乐在线
& Python爬虫实战（4）：抓取淘宝MM照片
福利啊福利，本次为大家带来的项目是抓取淘宝MM照片并保存起来，大家有没有很激动呢？
1.抓取淘宝MM的姓名，头像，年龄
2.抓取每一个MM的资料简介以及写真图片
3.把每一个MM的写真图片按照文件夹保存到本地
4.熟悉文件保存的过程
1.URL的格式
在这里我们用到的URL是，问号前面是基地址，后面的参数page是代表第几页，可以随意更换地址。点击开之后，会发现有一些淘宝MM的简介，并附有超链接链接到个人详情页面。
我们需要抓取本页面的头像地址，MM姓名，MM年龄，MM居住地，以及MM的个人详情页面地址。
2.抓取简要信息
相信大家经过上几次的实战，对抓取和提取页面的地址已经非常熟悉了，这里没有什么难度了，我们首先抓取本页面的MM详情页面地址，姓名，年龄等等的信息打印出来，直接贴代码如下
__author__ = 'CQC'
# -*- coding:utf-8 -*-
import urllib
import urllib2
class Spider:
def __init__(self):
self.siteURL = '/json/request_top_list.htm'
def getPage(self,pageIndex):
url = self.siteURL + "?page=" + str(pageIndex)
request = urllib2.Request(url)
response = urllib2.urlopen(request)
return response.read().decode('gbk')
def getContents(self,pageIndex):
page = self.getPage(pageIndex)
pattern = re.compile('&div class="list-item".*?pic-word.*?&a href="(.*?)".*?&img src="(.*?)".*?&a class="lady-name.*?&(.*?)&/a&.*?&strong&(.*?)&/strong&.*?&span&(.*?)&/span&',re.S)
items = re.findall(pattern,page)
for item in items:
print item[0],item[1],item[2],item[3],item[4]
spider = Spider()
spider.getContents(1)
12345678910111213141516171819202122232425262728
__author__ = 'CQC'# -*- coding:utf-8 -*-&import urllibimport urllib2import re&class Spider:&&&&&def __init__(self):&&&&&&&&self.siteURL = '/json/request_top_list.htm'&&&&&def getPage(self,pageIndex):&&&&&&&&url = self.siteURL + "?page=" + str(pageIndex)&&&&&&&&print url&&&&&&&&request = urllib2.Request(url)&&&&&&&&response = urllib2.urlopen(request)&&&&&&&&return response.read().decode('gbk')&&&&&def getContents(self,pageIndex):&&&&&&&&page = self.getPage(pageIndex)&&&&&&&&pattern = re.compile('&div class="list-item".*?pic-word.*?&a href="(.*?)".*?&img src="(.*?)".*?&a class="lady-name.*?&(.*?)&/a&.*?&strong&(.*?)&/strong&.*?&span&(.*?)&/span&',re.S)&&&&&&&&items = re.findall(pattern,page)&&&&&&&&for item in items:&&&&&&&&&&&&print item[0],item[1],item[2],item[3],item[4]&spider = Spider()spider.getContents(1)
运行结果如下
2.文件写入简介
在这里，我们有写入图片和写入文本两种方式
1）写入图片
运行结果如下
2.文件写入简介
在这里，我们有写入图片和写入文本两种方式
1）写入图片
运行结果如下&QQ截图32 2.文件写入简介&在这里，我们有写入图片和写入文本两种方式1）写入图片
2）写入文本
def saveBrief(self,content,name):
fileName = name + "/" + name + ".txt"
f = open(fileName,"w+")
print u"正在偷偷保存她的个人信息为",fileName
f.write(content.encode('utf-8'))
def saveBrief(self,content,name):&&&&fileName = name + "/" + name + ".txt"&&&&f = open(fileName,"w+")&&&&print u"正在偷偷保存她的个人信息为",fileName&&&&f.write(content.encode('utf-8'))
3）创建新目录
#创建新目录
def mkdir(self,path):
path = path.strip()
# 判断路径是否存在
isExists=os.path.exists(path)
# 判断结果
if not isExists:
# 如果不存在则创建目录
# 创建目录操作函数
os.makedirs(path)
return True
# 如果目录存在则不创建，并提示目录已存在
return False
12345678910111213141516
#创建新目录def mkdir(self,path):&&&&path = path.strip()&&&&# 判断路径是否存在&&&&# 存在&&&& True&&&&# 不存在&& False&&&&isExists=os.path.exists(path)&&&&# 判断结果&&&&if not isExists:&&&&&&&&# 如果不存在则创建目录&&&&&&&&# 创建目录操作函数&&&&&&&&os.makedirs(path)&&&&&&&&return True&&&&else:&&&&&&&&# 如果目录存在则不创建，并提示目录已存在&&&&&&&&return False
3.代码完善
主要的知识点已经在前面都涉及到了，如果大家前面的章节都已经看了，完成这个爬虫不在话下，具体的详情在此不再赘述，直接帖代码啦。
__author__ = 'CQC'
# -*- coding:utf-8 -*-
import urllib
import urllib2
import tool
class Spider:
#页面初始化
def __init__(self):
self.siteURL = '/json/request_top_list.htm'
self.tool = tool.Tool()
#获取索引页面的内容
def getPage(self,pageIndex):
url = self.siteURL + "?page=" + str(pageIndex)
request = urllib2.Request(url)
response = urllib2.urlopen(request)
return response.read().decode('gbk')
#获取索引界面所有MM的信息，list格式
def getContents(self,pageIndex):
page = self.getPage(pageIndex)
pattern = re.compile('&div class="list-item".*?pic-word.*?&a href="(.*?)".*?&img src="(.*?)".*?&a class="lady-name.*?&(.*?)&/a&.*?&strong&(.*?)&/strong&.*?&span&(.*?)&/span&',re.S)
items = re.findall(pattern,page)
contents = []
for item in items:
contents.append([item[0],item[1],item[2],item[3],item[4]])
return contents
#获取MM个人详情页面
def getDetailPage(self,infoURL):
response = urllib2.urlopen(infoURL)
return response.read().decode('gbk')
#获取个人文字简介
def getBrief(self,page):
pattern = re.compile('&div class="mm-aixiu-content".*?&(.*?)&!--',re.S)
result = re.search(pattern,page)
return self.tool.replace(result.group(1))
#获取页面所有图片
def getAllImg(self,page):
pattern = re.compile('&div class="mm-aixiu-content".*?&(.*?)&!--',re.S)
#个人信息页面所有代码
content = re.search(pattern,page)
#从代码中提取图片
patternImg = re.compile('&img.*?src="(.*?)"',re.S)
images = re.findall(patternImg,content.group(1))
return images
#保存多张写真图片
def saveImgs(self,images,name):
number = 1
print u"发现",name,u"共有",len(images),u"张照片"
for imageURL in images:
splitPath = imageURL.split('.')
fTail = splitPath.pop()
if len(fTail) & 3:
fTail = "jpg"
fileName = name + "/" + str(number) + "." + fTail
self.saveImg(imageURL,fileName)
number += 1
# 保存头像
def saveIcon(self,iconURL,name):
splitPath = iconURL.split('.')
fTail = splitPath.pop()
fileName = name + "/icon." + fTail
self.saveImg(iconURL,fileName)
#保存个人简介
def saveBrief(self,content,name):
fileName = name + "/" + name + ".txt"
f = open(fileName,"w+")
print u"正在偷偷保存她的个人信息为",fileName
f.write(content.encode('utf-8'))
#传入图片地址，文件名，保存单张图片
def saveImg(self,imageURL,fileName):
u = urllib.urlopen(imageURL)
data = u.read()
f = open(fileName, 'wb')
f.write(data)
print u"正在悄悄保存她的一张图片为",fileName
#创建新目录
def mkdir(self,path):
path = path.strip()
# 判断路径是否存在
isExists=os.path.exists(path)
# 判断结果
if not isExists:
# 如果不存在则创建目录
print u"偷偷新建了名字叫做",path,u'的文件夹'
# 创建目录操作函数
os.makedirs(path)
return True
# 如果目录存在则不创建，并提示目录已存在
print u"名为",path,'的文件夹已经创建成功'
return False
#将一页淘宝MM的信息保存起来
def savePageInfo(self,pageIndex):
#获取第一页淘宝MM列表
contents = self.getContents(pageIndex)
for item in contents:
#item[0]个人详情URL,item[1]头像URL,item[2]姓名,item[3]年龄,item[4]居住地
print u"发现一位模特,名字叫",item[2],u"芳龄",item[3],u",她在",item[4]
print u"正在偷偷地保存",item[2],"的信息"
print u"又意外地发现她的个人地址是",item[0]
#个人详情页面的URL
detailURL = item[0]
#得到个人详情页面代码
detailPage = self.getDetailPage(detailURL)
#获取个人简介
brief = self.getBrief(detailPage)
#获取所有图片列表
images = self.getAllImg(detailPage)
self.mkdir(item[2])
#保存个人简介
self.saveBrief(brief,item[2])
self.saveIcon(item[1],item[2])
self.saveImgs(images,item[2])
#传入起止页码，获取MM图片
def savePagesInfo(self,start,end):
for i in range(start,end+1):
print u"正在偷偷寻找第",i,u"个地方，看看MM们在不在"
self.savePageInfo(i)
#传入起止页码即可，在此传入了2,10,表示抓取第2到10页的MM
spider = Spider()
spider.savePagesInfo(2,10)
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144
__author__ = 'CQC'# -*- coding:utf-8 -*-&import urllibimport urllib2import reimport toolimport os&#抓取MMclass Spider:&&&&&#页面初始化&&&&def __init__(self):&&&&&&&&self.siteURL = '/json/request_top_list.htm'&&&&&&&&self.tool = tool.Tool()&&&&&#获取索引页面的内容&&&&def getPage(self,pageIndex):&&&&&&&&url = self.siteURL + "?page=" + str(pageIndex)&&&&&&&&request = urllib2.Request(url)&&&&&&&&response = urllib2.urlopen(request)&&&&&&&&return response.read().decode('gbk')&&&&&#获取索引界面所有MM的信息，list格式&&&&def getContents(self,pageIndex):&&&&&&&&page = self.getPage(pageIndex)&&&&&&&&pattern = re.compile('&div class="list-item".*?pic-word.*?&a href="(.*?)".*?&img src="(.*?)".*?&a class="lady-name.*?&(.*?)&/a&.*?&strong&(.*?)&/strong&.*?&span&(.*?)&/span&',re.S)&&&&&&&&items = re.findall(pattern,page)&&&&&&&&contents = []&&&&&&&&for item in items:&&&&&&&&&&&&contents.append([item[0],item[1],item[2],item[3],item[4]])&&&&&&&&return contents&&&&&#获取MM个人详情页面&&&&def getDetailPage(self,infoURL):&&&&&&&&response = urllib2.urlopen(infoURL)&&&&&&&&return response.read().decode('gbk')&&&&&#获取个人文字简介&&&&def getBrief(self,page):&&&&&&&&pattern = re.compile('&div class="mm-aixiu-content".*?&(.*?)&!--',re.S)&&&&&&&&result = re.search(pattern,page)&&&&&&&&return self.tool.replace(result.group(1))&&&&&#获取页面所有图片&&&&def getAllImg(self,page):&&&&&&&&pattern = re.compile('&div class="mm-aixiu-content".*?&(.*?)&!--',re.S)&&&&&&&&#个人信息页面所有代码&&&&&&&&content = re.search(pattern,page)&&&&&&&&#从代码中提取图片&&&&&&&&patternImg = re.compile('&img.*?src="(.*?)"',re.S)&&&&&&&&images = re.findall(patternImg,content.group(1))&&&&&&&&return images&&&&&#保存多张写真图片&&&&def saveImgs(self,images,name):&&&&&&&&number = 1&&&&&&&&print u"发现",name,u"共有",len(images),u"张照片"&&&&&&&&for imageURL in images:&&&&&&&&&&&&splitPath = imageURL.split('.')&&&&&&&&&&&&fTail = splitPath.pop()&&&&&&&&&&&&if len(fTail) & 3:&&&&&&&&&&&&&&&&fTail = "jpg"&&&&&&&&&&&&fileName = name + "/" + str(number) + "." + fTail&&&&&&&&&&&&self.saveImg(imageURL,fileName)&&&&&&&&&&&&number += 1&&&&&# 保存头像&&&&def saveIcon(self,iconURL,name):&&&&&&&&splitPath = iconURL.split('.')&&&&&&&&fTail = splitPath.pop()&&&&&&&&fileName = name + "/icon." + fTail&&&&&&&&self.saveImg(iconURL,fileName)&&&&&#保存个人简介&&&&def saveBrief(self,content,name):&&&&&&&&fileName = name + "/" + name + ".txt"&&&&&&&&f = open(fileName,"w+")&&&&&&&&print u"正在偷偷保存她的个人信息为",fileName&&&&&&&&f.write(content.encode('utf-8'))&&&&&#传入图片地址，文件名，保存单张图片&&&&def saveImg(self,imageURL,fileName):&&&&&&&& u = urllib.urlopen(imageURL)&&&&&&&& data = u.read()&&&&&&&& f = open(fileName, 'wb')&&&&&&&& f.write(data)&&&&&&&& print u"正在悄悄保存她的一张图片为",fileName&&&&&&&& f.close()&&&&&#创建新目录&&&&def mkdir(self,path):&&&&&&&&path = path.strip()&&&&&&&&# 判断路径是否存在&&&&&&&&# 存在&&&& True&&&&&&&&# 不存在&& False&&&&&&&&isExists=os.path.exists(path)&&&&&&&&# 判断结果&&&&&&&&if not isExists:&&&&&&&&&&&&# 如果不存在则创建目录&&&&&&&&&&&&print u"偷偷新建了名字叫做",path,u'的文件夹'&&&&&&&&&&&&# 创建目录操作函数&&&&&&&&&&&&os.makedirs(path)&&&&&&&&&&&&return True&&&&&&&&else:&&&&&&&&&&&&# 如果目录存在则不创建，并提示目录已存在&&&&&&&&&&&&print u"名为",path,'的文件夹已经创建成功'&&&&&&&&&&&&return False&&&&&#将一页淘宝MM的信息保存起来&&&&def savePageInfo(self,pageIndex):&&&&&&&&#获取第一页淘宝MM列表&&&&&&&&contents = self.getContents(pageIndex)&&&&&&&&for item in contents:&&&&&&&&&&&&#item[0]个人详情URL,item[1]头像URL,item[2]姓名,item[3]年龄,item[4]居住地&&&&&&&&&&&&print u"发现一位模特,名字叫",item[2],u"芳龄",item[3],u",她在",item[4]&&&&&&&&&&&&print u"正在偷偷地保存",item[2],"的信息"&&&&&&&&&&&&print u"又意外地发现她的个人地址是",item[0]&&&&&&&&&&&&#个人详情页面的URL&&&&&&&&&&&&detailURL = item[0]&&&&&&&&&&&&#得到个人详情页面代码&&&&&&&&&&&&detailPage = self.getDetailPage(detailURL)&&&&&&&&&&&&#获取个人简介&&&&&&&&&&&&brief = self.getBrief(detailPage)&&&&&&&&&&&&#获取所有图片列表&&&&&&&&&&&&images = self.getAllImg(detailPage)&&&&&&&&&&&&self.mkdir(item[2])&&&&&&&&&&&&#保存个人简介&&&&&&&&&&&&self.saveBrief(brief,item[2])&&&&&&&&&&&&#保存头像&&&&&&&&&&&&self.saveIcon(item[1],item[2])&&&&&&&&&&&&#保存图片&&&&&&&&&&&&self.saveImgs(images,item[2])&&&&&#传入起止页码，获取MM图片&&&&def savePagesInfo(self,start,end):&&&&&&&&for i in range(start,end+1):&&&&&&&&&&&&print u"正在偷偷寻找第",i,u"个地方，看看MM们在不在"&&&&&&&&&&&&self.savePageInfo(i)&#传入起止页码即可，在此传入了2,10,表示抓取第2到10页的MMspider = Spider()spider.savePagesInfo(2,10)
__author__ = 'CQC'
#-*- coding:utf-8 -*-
#处理页面标签类
class Tool:
#去除img标签,1-7位空格,
removeImg = re.compile('&img.*?&| {1,7}| ')
#删除超链接标签
removeAddr = re.compile('&a.*?&|&/a&')
#把换行的标签换为\n
replaceLine = re.compile('&tr&|&div&|&/div&|&/p&')
#将表格制表&td&替换为\t
replaceTD= re.compile('&td&')
#将换行符或双换行符替换为\n
replaceBR = re.compile('&br&&br&|&br&')
#将其余标签剔除
removeExtraTag = re.compile('&.*?&')
#将多行空行删除
removeNoneLine = re.compile('\n+')
def replace(self,x):
x = re.sub(self.removeImg,"",x)
x = re.sub(self.removeAddr,"",x)
x = re.sub(self.replaceLine,"\n",x)
x = re.sub(self.replaceTD,"\t",x)
x = re.sub(self.replaceBR,"\n",x)
x = re.sub(self.removeExtraTag,"",x)
x = re.sub(self.removeNoneLine,"\n",x)
#strip()将前后多余内容删除
return x.strip()
123456789101112131415161718192021222324252627282930
__author__ = 'CQC'#-*- coding:utf-8 -*-import re&#处理页面标签类class Tool:&&&&#去除img标签,1-7位空格, &&&&removeImg = re.compile('&img.*?&| {1,7}| ')&&&&#删除超链接标签&&&&removeAddr = re.compile('&a.*?&|&/a&')&&&&#把换行的标签换为\n&&&&replaceLine = re.compile('&tr&|&div&|&/div&|&/p&')&&&&#将表格制表&td&替换为\t&&&&replaceTD= re.compile('&td&')&&&&#将换行符或双换行符替换为\n&&&&replaceBR = re.compile('&br&&br&|&br&')&&&&#将其余标签剔除&&&&removeExtraTag = re.compile('&.*?&')&&&&#将多行空行删除&&&&removeNoneLine = re.compile('\n+')&&&&def replace(self,x):&&&&&&&&x = re.sub(self.removeImg,"",x)&&&&&&&&x = re.sub(self.removeAddr,"",x)&&&&&&&&x = re.sub(self.replaceLine,"\n",x)&&&&&&&&x = re.sub(self.replaceTD,"\t",x)&&&&&&&&x = re.sub(self.replaceBR,"\n",x)&&&&&&&&x = re.sub(self.removeExtraTag,"",x)&&&&&&&&x = re.sub(self.removeNoneLine,"\n",x)&&&&&&&&#strip()将前后多余内容删除&&&&&&&&return x.strip()
以上两个文件就是所有的代码内容，运行一下试试看，那叫一个酸爽啊
看看里面有什么变化
不知不觉，海量的MM图片已经进入了你的电脑，还不快快去试试看！！
代码均为本人所敲，写的不好，大神勿喷，写来方便自己，同时分享给大家参考！希望大家支持！
打赏支持我写出更多好文章，谢谢！
打赏支持我写出更多好文章，谢谢！
任选一种支付方式
关于作者：
可能感兴趣的话题
完全复制粘贴执行报错：
正在偷偷寻找第 2 个地方，看看MM们在不在
发现一位模特,名字叫李喵喵芳龄 25 ,她在上海市
Traceback (most recent call last):
正在偷偷地保存李喵喵的信息
File "D:/Data Analysis/Python/51Hunter/TaoBaoMM.py", line 144, in
又意外地发现她的个人地址是 ///.htm
spider.savePagesInfo(2,10)
File "D:/Data Analysis/Python/51Hunter/TaoBaoMM.py", line 139, in savePagesInfo
self.savePageInfo(i)
File "D:/Data Analysis/Python/51Hunter/TaoBaoMM.py", line 122, in savePageInfo
detailPage = self.getDetailPage(detailURL)
File "D:/Data Analysis/Python/51Hunter/TaoBaoMM.py", line 36, in getDetailPage
response = urllib2.urlopen(infoURL)
File "C:\Python27\lib\urllib2.py", line 126, in urlopen
return _opener.open(url, data, timeout)
File "C:\Python27\lib\urllib2.py", line 392, in open
protocol = req.get_type()
File "C:\Python27\lib\urllib2.py", line 254, in get_type
raise ValueError, "unknown url type: %s" % self.__original
ValueError: unknown url type: ///.htm
关于 Python 频道
Python频道分享 Python 开发技术、相关的行业动态。
新浪微博：
推荐微信号
（加好友请注明来意）
– 好的话题、有启发的回复、值得信赖的圈子
– 分享和发现有价值的内容与观点
– 为IT单身男女服务的征婚传播平台
– 优秀的工具资源导航
– 翻译传播优秀的外文文章
– 国内外的精选文章
– UI,网页，交互和用户体验
– 专注iOS技术分享
– 专注Android技术分享
– JavaScript, HTML5, CSS
– 专注Java技术分享
– 专注Python技术分享
& 2016 伯乐在线}

天天发财游戏网