如何用python实现神经网络读取八张照片

后使用快捷导航没有帐号?
查看: 949|回复: 6
python实现简单爬虫功能-爬去网页图片
在线时间80 小时
TA的帖子TA的资源
一粒金砂(中级), 积分 42, 距离下一级还需 158 积分
一粒金砂(中级), 积分 42, 距离下一级还需 158 积分
& & 在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材。  我们最常规的做法就是通过鼠标右键,选择另存为。但有些图片鼠标右键的时候并没有另存为选项,还有办法就通过就是通过截图工具截取下来,但这样就降低图片的清晰度。  这里可以通过python 来实现这样一个简单的爬虫功能,把我们想要的代码爬取到本地。下面就看看如何使用python来实现这样一个功能。一. 获取整个页面数据首先我们可以先获取要下载图片的整个页面信息。创建getjpg.py文件#coding=utf-8import urllib def getHtml(url):& &page = urllib.urlopen(url)& &html = page.read()& &return html html =getHtml(&/p/&) print html 说明: &&Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据。首先,我们定义了一个getHtml()函数;urllib.urlopen()方法用于打开一个URL地址;read()方法用于读取URL上的数据;向getHtml()函数传递一个网址,并把整个页面下载下来。执行程序就会把整个网页打印输出。 二. 筛选页面中想要的数据  Python 提供了非常强大的正则表达式,我们需要先要了解一点python 正则表达式的知识才行。re模块中一些重要的函数:& &假如我们百度贴吧找到了几张漂亮的壁纸,通过到前段查看工具。找到了图片的地址,如:src=&/forum/w%3D580/sign=fcfaafbc5594ed/75fafbedab6b80aecd11.jpg& 修改代码如下: import reimport urllib def getHtml(url):& &page = urllib.urlopen(url)& &html = page.read()& &return html def getImg(html):& &reg = r'src=&(.+?\.jpg)& pic_ext'& &imgre = re.compile(reg)& &imglist = re.findall(imgre,html)& &return imglist& && && &html =getHtml(&/p/&)print getImg(html) 我们又创建了getImg()函数,用于在获取的整个页面中筛选需要的图片连接。re模块主要包含了正则表达式:  re.compile() 可以把正则表达式编译成一个正则表达式对象.  re.findall() 方法读取html 中包含 imgre(正则表达式)的数据。运行脚本将得到整个页面中包含图片的URL地址。
三. 将页面筛选的数据保存到本地 把筛选的图片地址通过for循环遍历并保存到本地,代码如下:#coding=utf-8import urllibimport re def getHtml(url):& &page = urllib.urlopen(url)& &html = page.read()& &return html def getImg(html):& &reg = r'src=&(.+?\.jpg)& pic_ext'& &imgre = re.compile(reg)& &imglist = re.findall(imgre,html)& & x= 0& &for imgurl in imglist:& && & urllib.urlretrieve(imgurl,'c:\Users\Administrator\Desktop\pic\%s.jpg'&&% x)& && & x+=1
html =getHtml(&/p/&) print getImg(html)
 &&这里的核心是用到了urllib.urlretrieve()方法,直接将远程数据下载到本地。 &&通过一个for循环对获取的图片连接进行遍历,为了使图片的文件名看上去更规范,对其进行重命名,命名规则通过x变量加1。保存的位置默认为程序的存放目录。& &&&程序运行完成,将在目录下看到下载到本地的文件。效果如下:
本帖子中包含更多资源
才可以下载或查看,没有帐号?
在线时间2141 小时
威望5986 分
芯币7901 枚
E金币376 枚
TA的帖子TA的资源
五彩晶圆(中级), 积分 5986, 距离下一级还需 14 积分
五彩晶圆(中级), 积分 5986, 距离下一级还需 14 积分
本帖最后由 shower.xu 于
17:07 编辑
cool,能把整个脚本分享一下么?
嗯嗯 好的,不过这个要针对不同的网页才行&
在线时间80 小时
TA的帖子TA的资源
一粒金砂(中级), 积分 42, 距离下一级还需 158 积分
一粒金砂(中级), 积分 42, 距离下一级还需 158 积分
cool,能把整个脚本分享一下么?
嗯嗯 好的,不过这个要针对不同的网页才行
只要有脚本做模版就行,修修改改嘛&
在线时间2141 小时
威望5986 分
芯币7901 枚
E金币376 枚
TA的帖子TA的资源
五彩晶圆(中级), 积分 5986, 距离下一级还需 14 积分
五彩晶圆(中级), 积分 5986, 距离下一级还需 14 积分
嗯嗯 好的,不过这个要针对不同的网页才行
只要有脚本做模版就行,修修改改嘛
在线时间192 小时
威望215 分
芯币726 枚
TA的帖子TA的资源
一粒金砂(高级), 积分 215, 距离下一级还需 285 积分
一粒金砂(高级), 积分 215, 距离下一级还需 285 积分
用到了wxpython?
在线时间1568 小时
威望3116 分
芯币27787 枚
E金币733 枚
TA的帖子TA的资源
学习一下。
在线时间103 小时
威望245 分
芯币458 枚
TA的帖子TA的资源
一粒金砂(高级), 积分 245, 距离下一级还需 255 积分
一粒金砂(高级), 积分 245, 距离下一级还需 255 积分
关键是看网页源码啊,要懂html以及更多啊& && && && && && && && && && && && && && && && &
论坛测评队员
Powered by
逛了这许久,何不进去瞧瞧?Python如何获取图片长宽等信息 - 开源中国社区
当前访客身份:游客 [
当前位置:
获取了一个图片的url(/example.jpg)。怎么快速的获取图片的尺寸,大小等信息呢?
如果是本地的图片又怎么快速的获取呢?
必须使用pil吗?
共有6个答案
<span class="a_vote_num" id="a_vote_num_
直接读文件肯定快。
<span class="a_vote_num" id="a_vote_num_
多谢,不知道直接用python读图片文件效率高不高,不同的图片格式保存信息不一样的赛。不知道pil是不是用C写的。
--- 共有 1 条评论 ---
(4年前)&nbsp&
<span class="a_vote_num" id="a_vote_num_
快速获取。。。。。
<span class="a_vote_num" id="a_vote_num_
获取图片的长,宽,需要了解你的图像文件,图片文件的头部都是定义好的可以直接读取,比附bmp格式的直接可以去读它对应的第几个字节,那就是长宽信息。
<span class="a_vote_num" id="a_vote_num_
<span class="a_vote_num" id="a_vote_num_
os.path.getsize('文件路径') &这个是获得文件的大小&
图片的尺寸 需要引&PIL包 &用size 获得图片的大小
更多开发者职位上
有什么技术问题吗?
旁边白的其它问题
类似的话题python 能够实现读取图片的属性信息吗 比如 像素 经纬度
[问题点数:20分,结帖人isaac198518]
python 能够实现读取图片的属性信息吗 比如 像素 经纬度
[问题点数:20分,结帖人isaac198518]
不显示删除回复
显示所有回复
显示星级回复
显示得分回复
只显示楼主
2014年8月 其他开发语言大版内专家分月排行榜第二2014年7月 其他开发语言大版内专家分月排行榜第二2014年5月 其他开发语言大版内专家分月排行榜第二2014年4月 其他开发语言大版内专家分月排行榜第二2014年3月 其他开发语言大版内专家分月排行榜第二2014年1月 其他开发语言大版内专家分月排行榜第二2013年12月 其他开发语言大版内专家分月排行榜第二2013年11月 其他开发语言大版内专家分月排行榜第二2013年3月 其他开发语言大版内专家分月排行榜第二2012年5月 其他开发语言大版内专家分月排行榜第二2012年4月 其他开发语言大版内专家分月排行榜第二2010年10月 其他开发语言大版内专家分月排行榜第二2010年9月 其他开发语言大版内专家分月排行榜第二
2013年9月 其他开发语言大版内专家分月排行榜第三2012年6月 其他开发语言大版内专家分月排行榜第三
匿名用户不能发表回复!|
每天回帖即可获得10分可用分!小技巧:
你还可以输入10000个字符
(Ctrl+Enter)
请遵守CSDN,不得违反国家法律法规。
转载文章请注明出自“CSDN(www.csdn.net)”。如是商业用途请联系原作者。基于Python的图片文字识别_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
基于Python的图片文字识别
上传于||文档简介
&&利&#8203;用&#8203;P&#8203;y&#8203;t&#8203;h&#8203;o&#8203;n&#8203;,&#8203;基&#8203;于&#8203;p&#8203;y&#8203;t&#8203;e&#8203;s&#8203;s&#8203;e&#8203;r&#8203;,&#8203;o&#8203;p&#8203;e&#8203;n&#8203;C&#8203;V&#8203;进&#8203;行&#8203;图&#8203;片&#8203;文&#8203;字&#8203;识&#8203;别
阅读已结束,如果下载本文需要使用1下载券
想免费下载本文?
下载文档到电脑,查找使用更方便
还剩1页未读,继续阅读
你可能喜欢Python爬虫实战(4):抓取淘宝MM照片 - Python - 伯乐在线
& Python爬虫实战(4):抓取淘宝MM照片
福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢?
1.抓取淘宝MM的姓名,头像,年龄
2.抓取每一个MM的资料简介以及写真图片
3.把每一个MM的写真图片按照文件夹保存到本地
4.熟悉文件保存的过程
1.URL的格式
在这里我们用到的URL是 ,问号前面是基地址,后面的参数page是代表第几页,可以随意更换地址。点击开之后,会发现有一些淘宝MM的简介,并附有超链接链接到个人详情页面。
我们需要抓取本页面的头像地址,MM姓名,MM年龄,MM居住地,以及MM的个人详情页面地址。
2.抓取简要信息
相信大家经过上几次的实战,对抓取和提取页面的地址已经非常熟悉了,这里没有什么难度了,我们首先抓取本页面的MM详情页面地址,姓名,年龄等等的信息打印出来,直接贴代码如下
__author__ = 'CQC'
# -*- coding:utf-8 -*-
import urllib
import urllib2
class Spider:
def __init__(self):
self.siteURL = '/json/request_top_list.htm'
def getPage(self,pageIndex):
url = self.siteURL + "?page=" + str(pageIndex)
request = urllib2.Request(url)
response = urllib2.urlopen(request)
return response.read().decode('gbk')
def getContents(self,pageIndex):
page = self.getPage(pageIndex)
pattern = re.compile('&div class="list-item".*?pic-word.*?&a href="(.*?)".*?&img src="(.*?)".*?&a class="lady-name.*?&(.*?)&/a&.*?&strong&(.*?)&/strong&.*?&span&(.*?)&/span&',re.S)
items = re.findall(pattern,page)
for item in items:
print item[0],item[1],item[2],item[3],item[4]
spider = Spider()
spider.getContents(1)
12345678910111213141516171819202122232425262728
__author__ = 'CQC'# -*- coding:utf-8 -*-&import urllibimport urllib2import re&class Spider:&&&&&def __init__(self):&&&&&&&&self.siteURL = '/json/request_top_list.htm'&&&&&def getPage(self,pageIndex):&&&&&&&&url = self.siteURL + "?page=" + str(pageIndex)&&&&&&&&print url&&&&&&&&request = urllib2.Request(url)&&&&&&&&response = urllib2.urlopen(request)&&&&&&&&return response.read().decode('gbk')&&&&&def getContents(self,pageIndex):&&&&&&&&page = self.getPage(pageIndex)&&&&&&&&pattern = re.compile('&div class="list-item".*?pic-word.*?&a href="(.*?)".*?&img src="(.*?)".*?&a class="lady-name.*?&(.*?)&/a&.*?&strong&(.*?)&/strong&.*?&span&(.*?)&/span&',re.S)&&&&&&&&items = re.findall(pattern,page)&&&&&&&&for item in items:&&&&&&&&&&&&print item[0],item[1],item[2],item[3],item[4]&spider = Spider()spider.getContents(1)
运行结果如下
2.文件写入简介
在这里,我们有写入图片和写入文本两种方式
1)写入图片
运行结果如下
2.文件写入简介
在这里,我们有写入图片和写入文本两种方式
1)写入图片
运行结果如下&QQ截图32 2.文件写入简介&在这里,我们有写入图片和写入文本两种方式1)写入图片
2)写入文本
def saveBrief(self,content,name):
fileName = name + "/" + name + ".txt"
f = open(fileName,"w+")
print u"正在偷偷保存她的个人信息为",fileName
f.write(content.encode('utf-8'))
def saveBrief(self,content,name):&&&&fileName = name + "/" + name + ".txt"&&&&f = open(fileName,"w+")&&&&print u"正在偷偷保存她的个人信息为",fileName&&&&f.write(content.encode('utf-8'))
3)创建新目录
#创建新目录
def mkdir(self,path):
path = path.strip()
# 判断路径是否存在
isExists=os.path.exists(path)
# 判断结果
if not isExists:
# 如果不存在则创建目录
# 创建目录操作函数
os.makedirs(path)
return True
# 如果目录存在则不创建,并提示目录已存在
return False
12345678910111213141516
#创建新目录def mkdir(self,path):&&&&path = path.strip()&&&&# 判断路径是否存在&&&&# 存在&&&& True&&&&# 不存在&& False&&&&isExists=os.path.exists(path)&&&&# 判断结果&&&&if not isExists:&&&&&&&&# 如果不存在则创建目录&&&&&&&&# 创建目录操作函数&&&&&&&&os.makedirs(path)&&&&&&&&return True&&&&else:&&&&&&&&# 如果目录存在则不创建,并提示目录已存在&&&&&&&&return False
3.代码完善
主要的知识点已经在前面都涉及到了,如果大家前面的章节都已经看了,完成这个爬虫不在话下,具体的详情在此不再赘述,直接帖代码啦。
__author__ = 'CQC'
# -*- coding:utf-8 -*-
import urllib
import urllib2
import tool
class Spider:
#页面初始化
def __init__(self):
self.siteURL = '/json/request_top_list.htm'
self.tool = tool.Tool()
#获取索引页面的内容
def getPage(self,pageIndex):
url = self.siteURL + "?page=" + str(pageIndex)
request = urllib2.Request(url)
response = urllib2.urlopen(request)
return response.read().decode('gbk')
#获取索引界面所有MM的信息,list格式
def getContents(self,pageIndex):
page = self.getPage(pageIndex)
pattern = re.compile('&div class="list-item".*?pic-word.*?&a href="(.*?)".*?&img src="(.*?)".*?&a class="lady-name.*?&(.*?)&/a&.*?&strong&(.*?)&/strong&.*?&span&(.*?)&/span&',re.S)
items = re.findall(pattern,page)
contents = []
for item in items:
contents.append([item[0],item[1],item[2],item[3],item[4]])
return contents
#获取MM个人详情页面
def getDetailPage(self,infoURL):
response = urllib2.urlopen(infoURL)
return response.read().decode('gbk')
#获取个人文字简介
def getBrief(self,page):
pattern = re.compile('&div class="mm-aixiu-content".*?&(.*?)&!--',re.S)
result = re.search(pattern,page)
return self.tool.replace(result.group(1))
#获取页面所有图片
def getAllImg(self,page):
pattern = re.compile('&div class="mm-aixiu-content".*?&(.*?)&!--',re.S)
#个人信息页面所有代码
content = re.search(pattern,page)
#从代码中提取图片
patternImg = re.compile('&img.*?src="(.*?)"',re.S)
images = re.findall(patternImg,content.group(1))
return images
#保存多张写真图片
def saveImgs(self,images,name):
number = 1
print u"发现",name,u"共有",len(images),u"张照片"
for imageURL in images:
splitPath = imageURL.split('.')
fTail = splitPath.pop()
if len(fTail) & 3:
fTail = "jpg"
fileName = name + "/" + str(number) + "." + fTail
self.saveImg(imageURL,fileName)
number += 1
# 保存头像
def saveIcon(self,iconURL,name):
splitPath = iconURL.split('.')
fTail = splitPath.pop()
fileName = name + "/icon." + fTail
self.saveImg(iconURL,fileName)
#保存个人简介
def saveBrief(self,content,name):
fileName = name + "/" + name + ".txt"
f = open(fileName,"w+")
print u"正在偷偷保存她的个人信息为",fileName
f.write(content.encode('utf-8'))
#传入图片地址,文件名,保存单张图片
def saveImg(self,imageURL,fileName):
u = urllib.urlopen(imageURL)
data = u.read()
f = open(fileName, 'wb')
f.write(data)
print u"正在悄悄保存她的一张图片为",fileName
#创建新目录
def mkdir(self,path):
path = path.strip()
# 判断路径是否存在
isExists=os.path.exists(path)
# 判断结果
if not isExists:
# 如果不存在则创建目录
print u"偷偷新建了名字叫做",path,u'的文件夹'
# 创建目录操作函数
os.makedirs(path)
return True
# 如果目录存在则不创建,并提示目录已存在
print u"名为",path,'的文件夹已经创建成功'
return False
#将一页淘宝MM的信息保存起来
def savePageInfo(self,pageIndex):
#获取第一页淘宝MM列表
contents = self.getContents(pageIndex)
for item in contents:
#item[0]个人详情URL,item[1]头像URL,item[2]姓名,item[3]年龄,item[4]居住地
print u"发现一位模特,名字叫",item[2],u"芳龄",item[3],u",她在",item[4]
print u"正在偷偷地保存",item[2],"的信息"
print u"又意外地发现她的个人地址是",item[0]
#个人详情页面的URL
detailURL = item[0]
#得到个人详情页面代码
detailPage = self.getDetailPage(detailURL)
#获取个人简介
brief = self.getBrief(detailPage)
#获取所有图片列表
images = self.getAllImg(detailPage)
self.mkdir(item[2])
#保存个人简介
self.saveBrief(brief,item[2])
self.saveIcon(item[1],item[2])
self.saveImgs(images,item[2])
#传入起止页码,获取MM图片
def savePagesInfo(self,start,end):
for i in range(start,end+1):
print u"正在偷偷寻找第",i,u"个地方,看看MM们在不在"
self.savePageInfo(i)
#传入起止页码即可,在此传入了2,10,表示抓取第2到10页的MM
spider = Spider()
spider.savePagesInfo(2,10)
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144
__author__ = 'CQC'# -*- coding:utf-8 -*-&import urllibimport urllib2import reimport toolimport os&#抓取MMclass Spider:&&&&&#页面初始化&&&&def __init__(self):&&&&&&&&self.siteURL = '/json/request_top_list.htm'&&&&&&&&self.tool = tool.Tool()&&&&&#获取索引页面的内容&&&&def getPage(self,pageIndex):&&&&&&&&url = self.siteURL + "?page=" + str(pageIndex)&&&&&&&&request = urllib2.Request(url)&&&&&&&&response = urllib2.urlopen(request)&&&&&&&&return response.read().decode('gbk')&&&&&#获取索引界面所有MM的信息,list格式&&&&def getContents(self,pageIndex):&&&&&&&&page = self.getPage(pageIndex)&&&&&&&&pattern = re.compile('&div class="list-item".*?pic-word.*?&a href="(.*?)".*?&img src="(.*?)".*?&a class="lady-name.*?&(.*?)&/a&.*?&strong&(.*?)&/strong&.*?&span&(.*?)&/span&',re.S)&&&&&&&&items = re.findall(pattern,page)&&&&&&&&contents = []&&&&&&&&for item in items:&&&&&&&&&&&&contents.append([item[0],item[1],item[2],item[3],item[4]])&&&&&&&&return contents&&&&&#获取MM个人详情页面&&&&def getDetailPage(self,infoURL):&&&&&&&&response = urllib2.urlopen(infoURL)&&&&&&&&return response.read().decode('gbk')&&&&&#获取个人文字简介&&&&def getBrief(self,page):&&&&&&&&pattern = re.compile('&div class="mm-aixiu-content".*?&(.*?)&!--',re.S)&&&&&&&&result = re.search(pattern,page)&&&&&&&&return self.tool.replace(result.group(1))&&&&&#获取页面所有图片&&&&def getAllImg(self,page):&&&&&&&&pattern = re.compile('&div class="mm-aixiu-content".*?&(.*?)&!--',re.S)&&&&&&&&#个人信息页面所有代码&&&&&&&&content = re.search(pattern,page)&&&&&&&&#从代码中提取图片&&&&&&&&patternImg = re.compile('&img.*?src="(.*?)"',re.S)&&&&&&&&images = re.findall(patternImg,content.group(1))&&&&&&&&return images&&&&&#保存多张写真图片&&&&def saveImgs(self,images,name):&&&&&&&&number = 1&&&&&&&&print u"发现",name,u"共有",len(images),u"张照片"&&&&&&&&for imageURL in images:&&&&&&&&&&&&splitPath = imageURL.split('.')&&&&&&&&&&&&fTail = splitPath.pop()&&&&&&&&&&&&if len(fTail) & 3:&&&&&&&&&&&&&&&&fTail = "jpg"&&&&&&&&&&&&fileName = name + "/" + str(number) + "." + fTail&&&&&&&&&&&&self.saveImg(imageURL,fileName)&&&&&&&&&&&&number += 1&&&&&# 保存头像&&&&def saveIcon(self,iconURL,name):&&&&&&&&splitPath = iconURL.split('.')&&&&&&&&fTail = splitPath.pop()&&&&&&&&fileName = name + "/icon." + fTail&&&&&&&&self.saveImg(iconURL,fileName)&&&&&#保存个人简介&&&&def saveBrief(self,content,name):&&&&&&&&fileName = name + "/" + name + ".txt"&&&&&&&&f = open(fileName,"w+")&&&&&&&&print u"正在偷偷保存她的个人信息为",fileName&&&&&&&&f.write(content.encode('utf-8'))&&&&&#传入图片地址,文件名,保存单张图片&&&&def saveImg(self,imageURL,fileName):&&&&&&&& u = urllib.urlopen(imageURL)&&&&&&&& data = u.read()&&&&&&&& f = open(fileName, 'wb')&&&&&&&& f.write(data)&&&&&&&& print u"正在悄悄保存她的一张图片为",fileName&&&&&&&& f.close()&&&&&#创建新目录&&&&def mkdir(self,path):&&&&&&&&path = path.strip()&&&&&&&&# 判断路径是否存在&&&&&&&&# 存在&&&& True&&&&&&&&# 不存在&& False&&&&&&&&isExists=os.path.exists(path)&&&&&&&&# 判断结果&&&&&&&&if not isExists:&&&&&&&&&&&&# 如果不存在则创建目录&&&&&&&&&&&&print u"偷偷新建了名字叫做",path,u'的文件夹'&&&&&&&&&&&&# 创建目录操作函数&&&&&&&&&&&&os.makedirs(path)&&&&&&&&&&&&return True&&&&&&&&else:&&&&&&&&&&&&# 如果目录存在则不创建,并提示目录已存在&&&&&&&&&&&&print u"名为",path,'的文件夹已经创建成功'&&&&&&&&&&&&return False&&&&&#将一页淘宝MM的信息保存起来&&&&def savePageInfo(self,pageIndex):&&&&&&&&#获取第一页淘宝MM列表&&&&&&&&contents = self.getContents(pageIndex)&&&&&&&&for item in contents:&&&&&&&&&&&&#item[0]个人详情URL,item[1]头像URL,item[2]姓名,item[3]年龄,item[4]居住地&&&&&&&&&&&&print u"发现一位模特,名字叫",item[2],u"芳龄",item[3],u",她在",item[4]&&&&&&&&&&&&print u"正在偷偷地保存",item[2],"的信息"&&&&&&&&&&&&print u"又意外地发现她的个人地址是",item[0]&&&&&&&&&&&&#个人详情页面的URL&&&&&&&&&&&&detailURL = item[0]&&&&&&&&&&&&#得到个人详情页面代码&&&&&&&&&&&&detailPage = self.getDetailPage(detailURL)&&&&&&&&&&&&#获取个人简介&&&&&&&&&&&&brief = self.getBrief(detailPage)&&&&&&&&&&&&#获取所有图片列表&&&&&&&&&&&&images = self.getAllImg(detailPage)&&&&&&&&&&&&self.mkdir(item[2])&&&&&&&&&&&&#保存个人简介&&&&&&&&&&&&self.saveBrief(brief,item[2])&&&&&&&&&&&&#保存头像&&&&&&&&&&&&self.saveIcon(item[1],item[2])&&&&&&&&&&&&#保存图片&&&&&&&&&&&&self.saveImgs(images,item[2])&&&&&#传入起止页码,获取MM图片&&&&def savePagesInfo(self,start,end):&&&&&&&&for i in range(start,end+1):&&&&&&&&&&&&print u"正在偷偷寻找第",i,u"个地方,看看MM们在不在"&&&&&&&&&&&&self.savePageInfo(i)&#传入起止页码即可,在此传入了2,10,表示抓取第2到10页的MMspider = Spider()spider.savePagesInfo(2,10)
__author__ = 'CQC'
#-*- coding:utf-8 -*-
#处理页面标签类
class Tool:
#去除img标签,1-7位空格,
removeImg = re.compile('&img.*?&| {1,7}| ')
#删除超链接标签
removeAddr = re.compile('&a.*?&|&/a&')
#把换行的标签换为\n
replaceLine = re.compile('&tr&|&div&|&/div&|&/p&')
#将表格制表&td&替换为\t
replaceTD= re.compile('&td&')
#将换行符或双换行符替换为\n
replaceBR = re.compile('&br&&br&|&br&')
#将其余标签剔除
removeExtraTag = re.compile('&.*?&')
#将多行空行删除
removeNoneLine = re.compile('\n+')
def replace(self,x):
x = re.sub(self.removeImg,"",x)
x = re.sub(self.removeAddr,"",x)
x = re.sub(self.replaceLine,"\n",x)
x = re.sub(self.replaceTD,"\t",x)
x = re.sub(self.replaceBR,"\n",x)
x = re.sub(self.removeExtraTag,"",x)
x = re.sub(self.removeNoneLine,"\n",x)
#strip()将前后多余内容删除
return x.strip()
123456789101112131415161718192021222324252627282930
__author__ = 'CQC'#-*- coding:utf-8 -*-import re&#处理页面标签类class Tool:&&&&#去除img标签,1-7位空格, &&&&removeImg = re.compile('&img.*?&| {1,7}| ')&&&&#删除超链接标签&&&&removeAddr = re.compile('&a.*?&|&/a&')&&&&#把换行的标签换为\n&&&&replaceLine = re.compile('&tr&|&div&|&/div&|&/p&')&&&&#将表格制表&td&替换为\t&&&&replaceTD= re.compile('&td&')&&&&#将换行符或双换行符替换为\n&&&&replaceBR = re.compile('&br&&br&|&br&')&&&&#将其余标签剔除&&&&removeExtraTag = re.compile('&.*?&')&&&&#将多行空行删除&&&&removeNoneLine = re.compile('\n+')&&&&def replace(self,x):&&&&&&&&x = re.sub(self.removeImg,"",x)&&&&&&&&x = re.sub(self.removeAddr,"",x)&&&&&&&&x = re.sub(self.replaceLine,"\n",x)&&&&&&&&x = re.sub(self.replaceTD,"\t",x)&&&&&&&&x = re.sub(self.replaceBR,"\n",x)&&&&&&&&x = re.sub(self.removeExtraTag,"",x)&&&&&&&&x = re.sub(self.removeNoneLine,"\n",x)&&&&&&&&#strip()将前后多余内容删除&&&&&&&&return x.strip()
以上两个文件就是所有的代码内容,运行一下试试看,那叫一个酸爽啊
看看里面有什么变化
不知不觉,海量的MM图片已经进入了你的电脑,还不快快去试试看!!
代码均为本人所敲,写的不好,大神勿喷,写来方便自己,同时分享给大家参考!希望大家支持!
打赏支持我写出更多好文章,谢谢!
打赏支持我写出更多好文章,谢谢!
任选一种支付方式
关于作者:
可能感兴趣的话题
完全复制粘贴执行报错:
正在偷偷寻找第 2 个地方,看看MM们在不在
发现一位模特,名字叫 李喵喵 芳龄 25 ,她在 上海市
Traceback (most recent call last):
正在偷偷地保存 李喵喵 的信息
File "D:/Data Analysis/Python/51Hunter/TaoBaoMM.py", line 144, in
又意外地发现她的个人地址是 ///.htm
spider.savePagesInfo(2,10)
File "D:/Data Analysis/Python/51Hunter/TaoBaoMM.py", line 139, in savePagesInfo
self.savePageInfo(i)
File "D:/Data Analysis/Python/51Hunter/TaoBaoMM.py", line 122, in savePageInfo
detailPage = self.getDetailPage(detailURL)
File "D:/Data Analysis/Python/51Hunter/TaoBaoMM.py", line 36, in getDetailPage
response = urllib2.urlopen(infoURL)
File "C:\Python27\lib\urllib2.py", line 126, in urlopen
return _opener.open(url, data, timeout)
File "C:\Python27\lib\urllib2.py", line 392, in open
protocol = req.get_type()
File "C:\Python27\lib\urllib2.py", line 254, in get_type
raise ValueError, "unknown url type: %s" % self.__original
ValueError: unknown url type: ///.htm
关于 Python 频道
Python频道分享 Python 开发技术、相关的行业动态。
新浪微博:
推荐微信号
(加好友请注明来意)
&#8211; 好的话题、有启发的回复、值得信赖的圈子
&#8211; 分享和发现有价值的内容与观点
&#8211; 为IT单身男女服务的征婚传播平台
&#8211; 优秀的工具资源导航
&#8211; 翻译传播优秀的外文文章
&#8211; 国内外的精选文章
&#8211; UI,网页,交互和用户体验
&#8211; 专注iOS技术分享
&#8211; 专注Android技术分享
&#8211; JavaScript, HTML5, CSS
&#8211; 专注Java技术分享
&#8211; 专注Python技术分享
& 2016 伯乐在线}

我要回帖

更多关于 lstm python实现 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信