网络爬虫产品背景有哪些做的比较好的？

点击联系发帖人 时间：2018-06-04 11:49

r语言如何做网络爬虫

利用爬虫技术能做到哪些很酷很有趣很有用的事情？ - 知乎<strong class="NumberBoard-itemValue" title="7被浏览<strong class="NumberBoard-itemValue" title=",750,036分享邀请回答jikexueyuan.com/path/python/，极客学院，里面有些教程还是挺不错的。从里面我知道了两个可以替代Python里urllib和re正则表达式的库，它们分别叫做requests和lxml。
第一个库挺不错的，现在在获取网页源代码时，我都用这个库，大家如果有不懂的可以看看那个网站。第二个库由于我是用3.4版本的Python，折腾了很久没折腾进去，于是我发现了另一个不错的库BeautifulSoup，详细教程参考：
有了requests和Beautifulsoup，基本上可以实现我想要的很多功能了。我便做了一个抓取分级基金数据的爬虫：二、分析并推送
其实在此分析其实还谈不上，顶多算是筛选。（不过我相信随着我数学能力提升会能有进一步的分析的，美好的祝愿。。。）筛选很简单，就是涨幅或收益率等等满足一定条件就保留下来，保留下来干嘛？推送啊！！！
将保存下来的数据通过邮件发送到自己的邮箱，手机上下载个软件，一切就大功告成了！
至此当时学习Python的目的就达到了，当时鸡冻地要炸了！！！
不过……那么好玩的东西，怎么能这么快就结束了？再折腾吧！于是三、简单的界面
等等！Python好像不能直接弄成exe可执行文件，不能每次运行都开Python的窗口啊！强迫症怎么能忍！上网搜搜发现有诸如py2exe的包可以转换，可是老子是3.4版本啊！折腾半天没搞定，算了！我不是会点VB吗，用那个吧。于是连界面都有了
刚好会点PS，做做低级的界面也不错。四、云服务器做完界面我以为就结束了，我还是too young啊。用了几天发现，我总不能天天开着电脑让它就运行那么几个程序吧？总得有个地方能让我24小时运行这些程序。本来想跟朋友的电脑轮流运行，还是太麻烦。偶然的机会我发现了云服务器这个东西。了解后砸下重金买下服务器（其实一个月30而已……）
折腾一番linux系统的操作，实现了24小时的实时推送。
而到这里，我已经深陷到Python里了，我觉得我应该继续学习这门强大简单的语言，在知乎上看到了一个问题：，虽然说的是Quant但也为我指引了一些方向。目前正准备学习numpy,pandas,matplotlib这些库，以实现未来对金融、经济数据的可视化和分析。相关的内容有一本书写得还不错，叫《利用Python进行数据分析》，有兴趣学习可以读一读。
共勉。—————————更新—————————好多人问是什么服务器，我用的是阿里云。有些人反应价格很高，其实把配置调到最低，可以满足基本需求，价格只要30左右。正好刚刚收到一封邮件，学生党有福利了（我真的不是在打广告啊……）—————————更新—————————快破千赞了，有点出乎意料，补充几点吧。1.我用阿里云发现最低的也要100/80/40（各种价格），答主你不是在骗我吧？直接上图，32元左右。其实国内的服务器有挺多的，一个月三四十的低配很多地方都买得到。不过评论区有人提到一些外国个人的云服务器价格有些在30~50/年，很便宜。答主暂时还没去看，因为买的服务器还没过期，有需要的可以翻翻评论区看看。（另外，亚马逊好像有免费一年的云服务器试用。）2.Python3也可以转成exe我只是按照自己的学习轨迹写的回答，当初是在不知道云服务器的情况下才有转化成exe的需求，并且当时了解得不多，屡屡碰壁没能完成。现在已经不需要了，不过还是谢谢大家的提醒。这里顺便提醒一下，各位初学Python务必装入pip，不要像我一样怕麻烦，结果导致一些库花了好长时间才折腾进去，其实只要“pip install XXX”就很轻松搞定了。3.从哪里爬来的数据？见另一个回答：3.5K203 条评论分享收藏感谢收起battleofthequants.net/wp-content/uploads/0-10-15_JOCS_Twitter_Mood.pdf)。实习结束后我跟几个朋友聊了聊，我就想能不能自己做一点twitter的数据挖掘，当时只是想先写个爬虫玩玩，没想最后开发了两年多，抓取了一千多万用户的400亿条tweet。上分析篇先给大家看一些分析结果吧。大家几点睡觉呢? 我们来统计一下sleep这个词在twitter上出现的频率。看来很多人喜欢在睡前会说一声我睡了。那我们再看一个更有意思的 :"Thursday"这个词的每天出现的频率。这里2月2号是周四，不出意料，这一天提到周四的频率最高。而且好像离周四越近这个频率越高。可是，为什么2月1号的频率反而低了呢？是因为2月1号大家不说周四而说明天了（有的人会说2月2号也可以说是今天，但是因为在2月2号提到当天的次数太高，因此还是有很多人用周四这个词）。做了词频统计我们还可以做一些语义分析。我们可以利用unsupervised learning来分析一条tweet的感情色彩。我们对每一条tweet的高兴程度在0至1之间打分，并对每天做平均值，就得到了下面这张图。这里最明显的特征恐怕就是周期性了。是的，大家普遍周末比较高兴。不过这张图的开始和中间有两个点与周期不吻合。如果我告诉你这两天是1月1日和2月14日，那你肯定会想到为什么了，元旦和情人节很多人是很高兴的（不排除slient majority存在的可能）。这很有意思，但似乎没什么用啊。那我们来看下面这张图，还是2012年的情感分析，不过这里对用户进行了过滤，只保留了来自投资人和交易员的tweet （根据用户的tweet我们可以估计他/她的职业）。蓝线是这些用户的感情色彩，红线是S&P 500指数。看来行情好的时候大家都高兴啊。最后我们再来看两个统计图吧。2012年是美国大选年，这里统计了在所有和奥巴马相关的tweet里跟提到经济的tweet占的比例。红线是这个比例，黑线是S&P 500貌似和美国经济有负相关性啊！为什么呢，我们看下面的图就明白了。这个比例和美国失业率正相关，而经济和失业率又是负相关的。换句话说，美国人（尤其是共和党的）找不到工作了就开始埋怨奥巴马了。除了上面的分析外我做了很多其他的研究，比如如何判断一个用户的职业，验证六度分隔理论, 以及网络扩张速度的建模，不过这里就先不赘述了。最后要说的是以上的分析在统计上都是不严谨的，twitter上的信息杂音非常大，又有很强的demographic bias，有很多因素都没有考虑。我们只能希望大数定律能过弥补一些误差。写在这里只是抛砖引玉，给大家看一下爬虫可以做什么。大家感兴趣的话之后我可以补充一下这两个话题：1. 怎样判断一条tweet的感情色彩2. 怎样估计一个twitter用户的职业下技术篇当时Twitter用户大概已经有上亿了，每天新的tweet也有几千万甚至上亿。能不能把这些数据全部抓取下来呢？这是可能的。Twitter是有API的，不过每个IP地址每小时可以抓取150个用户最近的tweet，以这个速度要把几亿个用户抓取一遍需要近一百年。但是，大部分Twitter用户是不活跃甚至从来不发tweet的，还有很多用户是印尼等国家（不是他们不重要，我真的看不懂他们发的tweet），如果我们把不说英语，不发tweet以及follow人数不超过5个（好像注册twitter后用户会被要求follow 5个人）的用户过滤掉，我们就剩下了大约10,000,000个用户，十年就可以搞定了。十年好像还是太长了。。。不过twitter的访问限制是基于IP地址的，只要我从多个IP访问twitter不久好了(我真的没有DDOS twitter的意思啊)？那么下一步就是搜集大量代理服务器来访问twitter api。为了做twitter的爬虫我专门做了一个爬虫去搜集免费代理服务器。免费的东西总是有代价的，这些服务器非常不稳定。因此我又建立了一套代理服务器管理系统，定期更新IP地址，删除不能用的服务器。最后这套系统平均每天有几百个可用的服务器，大约半个月就可以把一千万个用户抓取一遍了。此外我又做了一些动态优化，根据twitter用户的follower数量决定他们的抓取频率，以提高重要用户tweet的实时性。在一年半的时间里，这套系统一共抓取了400亿条tweet，加起来得有10TB，估计占来自美国tweet数量的一半左右。那么问题来了，怎么存贮这些tweet呢？如果要做分析的话恐怕把数据读一遍就要好几天了。很多人马上会说hadoop, cassandra, spark等等。不过作为一个穷学生我哪里有钱去做一个cluster呢？这些数据存在AWS上就得每月1000刀了。自己动手，丰衣足食。解决方案就是自己组装一个服务器，买了8块3T硬盘做了一个12TB的磁盘矩阵放在寝室里。软件使用了最为传统的MySQL，这是一个存了400亿条数据的MySQL数据库。我花了大量时间去做优化，尝试了各种各样的partition, ordering, indexing。最后可以实现一天之内对100-200亿条数据进行线型搜索或过滤，或者几秒钟内调取某一天的或某一条tweet。这台服务器现在留在了MIT，毕业后我把它提供给了一位教授做研究。PS:这个项目在2013年停止了，因为social media已经不在火，而且twitter于2013年中关闭了相关的API接口。这个项目的初衷是学术性质的，我不想违反twitter的服务条款，因此这些数据没有被出售或者用来谋求商业价值，而是留给了MIT做研究。在这期间与几个朋友进行了很愉快的合作，未征得他们允许就不在此提名了。暂时没有开源的打算，因为当时水平有限，代码写得太丑了（用java写的）。PS2：很多人问怎么找代理服务器，请大家google一下吧。当然如果不能翻墙的话有代理服务器恐怕也不能用。谢绝转载。8.1K541 条评论分享收藏感谢收起大家用 python 都做过什么有趣的爬虫吗？ - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
已注册用户请 &
推荐学习书目
Python Sites
值得关注的项目
Python 编程
大家用 python 都做过什么有趣的爬虫吗？
19:31:03 +08:00 · 17058 次点击
大家用 python 都做过什么有趣的爬虫吗？分享分享呗！
96 回复 &| &直到
00:57:34 +08:00
& & 19:35:58 +08:00
上爬当天更新的便宜货算么？
But ，买了几个之后，一点不有趣
& & 19:43:55 +08:00 via iPhone
爱鼠绘漫画 PHP 和 C#（跑
& & 19:45:07 +08:00
然而好多都是用来爬妹子图的
& & 19:57:22 +08:00
这是从知乎上看来的题目吧，知乎的答案还是比较丰富的。
& & 20:46:24 +08:00
& & 20:49:56 +08:00
爬过学校的课表，排课用
& & 20:57:18 +08:00
@ 有源码看看不
& & 21:18:59 +08:00
豆瓣租房小组，爬最新帖子，不算有趣吧，但还有点用。
& & 21:49:58 +08:00
爬过一个网站的所有图片。。
& & 21:50:30 +08:00 via Android
& & 21:57:53 +08:00
这里的很多人都喜欢爬妹子图
& & 22:07:12 +08:00 via Android
爬猎聘， linkedin
& & 00:23:14 +08:00
@ 有，你可以去看我的 github ，那个 repo 叫 NTUCoursePlanner 貌似
我的 github 可以在我 v2 的个人资料页找到
& & 01:25:26 +08:00
爬过网络连载小说转成 txt 在 kindle 看。。
爬过一个盗版技术书籍的网站。。
& & 09:02:55 +08:00
都是爬来的信息
& & 09:05:14 +08:00 via Android
喜欢看 1024 的技术区，但是没法按发帖时间排序，写了个抓取帖子回来再按发帖时间排。
& & 09:23:30 +08:00
豆瓣爬日剧动画啥的，然后按评分排序选择性补番
& & 09:59:53 +08:00
爬漫画，按卷爬好打包成 zip 放在本地 ComicsViewer 看。。。。。不喜欢在 web 上看漫画
& & 10:05:14 +08:00
礼物说的专题和商品小代码搞定。
& & 10:16:18 +08:00 via iPhone
爬 91porn 视频 :)
& & 10:54:00 +08:00
爬 javbus 上的 av 封面
& & 11:04:16 +08:00
我爬的一个 xx 论坛的某个专区，每次种子更新了自动下载。。
& & 11:13:09 +08:00
把感兴趣的公众号的当天更新爬到一个 feed 里面算么
& & 11:20:45 +08:00
@ so...Where is the code.
& & 11:26:49 +08:00
@ so...Where is the url.
& & 11:36:30 +08:00
爬某网站数据，做数据分析后发现一些不可告人的秘密，公布出来后成功引发一场论战……
还有就是一些网站不慎泄露的用户数据，密码、邮箱之类的。
& & 12:13:58 +08:00
爬北都集团
& & 13:54:36 +08:00
PHP 简单写了个最简易的爬美女图。。。。
& & 14:06:56 +08:00
& & 15:03:24 +08:00
@ 哈哈哈，学以致用，求源码
& & 15:43:39 +08:00
第一次写爬虫，把一个竞聘的所有文章（ 10 万+）全部爬来了，不知道这数据都是几手的了。。
& & 15:56:40 +08:00
& & 16:01:34 +08:00
@ 这是怎么做的？有代码吗？
& & 16:08:56 +08:00
爬过学校图书馆自己借阅过的书。噢，主要是为了可以无限续借书，顺带爬了书单。
& & 16:17:30 +08:00
1024 的算么
& & 16:43:54 +08:00
把拉钩,内推,IT 桔子上爬了二十万职位信息和五万多家公司信息,
结果发现拉钩数据存在造假呀
& & 16:51:10 +08:00
@ 公众帐号怎么爬？源是哪？
& & 17:12:08 +08:00
用这个提供的方法
& & 17:28:37 +08:00
& & 17:29:34 +08:00
怎么造假了？另外我觉得拉钩很不靠谱
& & 17:31:51 +08:00
& & 17:34:21 +08:00
握爪我也写了个。
但是最终还是人工找到了合适的房子 0 0
& & 17:36:06 +08:00
@ 拉钩薪资大部分都是虚高
很多朋友都这样说我之前也面了一家
实际薪资比拉钩上标的差了不少
& & 17:51:56 +08:00
挂个 VPN 爬妹子图。。。后来觉得太蠢了，废弃了
& & 17:58:18 +08:00
试过爬一个填单类型的网站
想做的功能是填写表单
后来没弄出来
改用 chrome 插件了
& & 18:00:23 +08:00
爬了 Google Play
& & 18:10:37 +08:00
昨晚临下班写的。。很乱凑活着看
& & 18:11:25 +08:00
爬 v2 所有用户的 blog 地址
& & 18:12:45 +08:00
@ 这个牛逼，贡献下源码？哈哈
& & 18:20:54 +08:00
@ 做游戏植入?
& & 18:40:43 +08:00
山东大学自习室空堂表，包括我常去的千佛山校区 9 号楼、兴隆山校区讲学堂和教学楼
& & 19:12:44 +08:00
@ 哈哈! 我觉得这个爬虫，只会让 LZ 更想剁手
& & 21:01:46 +08:00
交出爬 91 的源码我们还能做网友！
& & 21:07:36 +08:00
抓取电影天堂的电影下载链接
& & 21:21:26 +08:00
不会 Python ，不过 Node 入门时用 Node 写了个爬华盟、极影、动漫花园和漫游资源站的爬虫，自己下资源用，页面用 Angular + Material-Angular 搭的，请脑补感受一下连指令都不会写、一股脑控制器的入门代码，一直想改掉，不过刚看一眼就没动力了…
& & 21:28:20 +08:00
@ 搜了下'91porn',你们也太重口了%&_&%
& & 21:30:53 +08:00
& & 00:07:37 +08:00
爬了 2 新浪美女图 3W 张，豆瓣美腿大赛 2000 张。
给豆瓣友邻点赞，小伙伴一觉起来发现多了几千个赞，吓哭了~
& & 00:17:08 +08:00
@ 你这个是抓全校全周的课表，然后对教室进行的分析？？
& & 02:08:08 +08:00
@ 千佛山九号楼是雅思楼。。。
& & 03:20:10 +08:00
爬了 1024 所有的账户,然并卵还是没扫到能登录的
& & 04:06:15 +08:00
& & 05:06:45 +08:00
是的，按教室弄到一块就行了。
@
今天就有雅思考试，只能去一楼，但是一楼的桌椅质量不好年岁太长有气味！！
& & 08:44:51 +08:00
相当有趣，之前想做一个 js 插件来着，他排版和搜索好差
& & 09:35:58 +08:00
我做了自已用的
算不算？
整了 github instagram twitter tumblr 的东西进来，准确的说应该是调用 api ，不算爬虫
不过如果想整合国内的微博、知乎这些封闭型的，估计只能上爬虫了
& & 09:42:25 +08:00 via iPhone
我把 9 个目标网站所有连接都爬了，然后在抓里面的价格…到只爬了 2KW 条记录时，我放弃了。这样爬没效率。
& & 12:27:59 +08:00
& & 12:32:28 +08:00
前两年写的少儿不宜爬虫。。
& & 16:25:43 +08:00
我想知道上面爬图的朋友，图片后来怎么处理了 :)
& & 17:02:54 +08:00
爬学校同学的证件照片、学号、班级、课表爬了 2000 多个
但是胆子比较小爬完就删了（主要是没有爬到好看的妹子）
& & 17:07:40 +08:00
爬新浪微博，做关系链分析
& & 18:06:36 +08:00
大数据抓取、搜索排序优化、聚类、性价比计算、一个人完成真心累
& & 18:49:18 +08:00
爬种子，发行并没什么*用
& & 18:49:25 +08:00
爬种子，发现并没什么*用
& & 19:21:28 +08:00
实习时候用 20+台屌丝云服务器，分布式爬过上亿条淘宝数据，如
带宽够牛逼，曾经测试跑满 1G 带宽，爽
& & 19:23:41 +08:00
撸过下厨房的菜单
& & 19:44:10 +08:00 via Android
@ 这数据占多少存储空间
& & 21:23:34 +08:00
@ 这些数据应该不是公开的吧怎么找到入口的
& & 21:43:16 +08:00
@ 只是没有链接而已自己构造 URL 可以进去
& & 22:02:21 +08:00
@ 某是不是看过你的毕设演讲啊
& & 09:25:43 +08:00
@ 报个 bug ， profile 页面顶部用户名
& & 10:02:11 +08:00
@ 感谢感谢，最近在大改，很多 bug 来不及测试
& & 11:08:30 +08:00
太可怕了，这么多爬虫，起了一身鸡皮疙瘩~~
& & 12:10:19 +08:00
@ 13' BJUT
& & 12:23:19 +08:00 via Android
爬完才发现，证件照实在是太丑了。
& & 18:41:52 +08:00 via Android
@ 压缩了很少,倒入 mysql 后好像几十 G, 可接受.
& & 11:14:25 +08:00
爬过携程旅游网。
& & 12:43:35 +08:00
@ 看起来不错呀
& & 15:20:44 +08:00
& & 20:32:00 +08:00 via Android
爬 beautyleg ……爬绅士漫画……
& & 17:41:35 +08:00
@ 潜水多年特来要源码 ~
& & 00:41:25 +08:00
不错。。。
& & 11:49:47 +08:00
@ 。。。我是根据浏览量从大到小排序看
& & 17:16:34 +08:00
爬过多玩的搞笑 gif 图库
& & 01:05:06 +08:00
& & 00:57:34 +08:00
& · & 1254 人在线 & 最高记录 3541 & · &
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.1 · 30ms · UTC 17:04 · PVG 01:04 · LAX 10:04 · JFK 13:04? Do have faith in what you're doing.网络爬虫工具有哪些做的比较好的？_百度知道
网络爬虫工具有哪些做的比较好的？
我有更好的答案
知道一个网络爬虫工具，瑞雪采集云，还是有一些特点的：瑞雪采集云是一个PaaS在线开发平台，与图形配置化爬虫客户端工具相比，瑞雪采集云提供的是通用采集能力，能够满足企业客户数据采集业务的长期需求。主要特点如下：（一）一站式通用能力集成，指数级提高开发效率。平台封装了丰富的通用功能，开发者不需要关心
Ajax和Cookie等底层细节，只需要利用平台封装好API，把主要精力放在业务上，工作效率提供10倍。（二）开发自由度高，支持复杂网站的采集。支持Java/Python编写应用插件，借助高级语言的高自由度能够处理复杂网站的采集。平台提供业内首个基于Web浏览器的在线开发环境，无需安装任何客户端，提高应用源代码在客户内部的共享。（三）分布式任务调度机制，并发采集效率高。把采集工作分解为多个采集工序，一个大任务被拆解为在不同工序上执行的大量小任务，然后被分配到海量爬虫机集群上被分布式并发执行，确保系统达到最高的采集效率。（四）强大的任务管理机制，确保数据完整性。平台拥有强大的任务状态机制，支持任务重发、支持利用结束码管理任务的不同结束状态，根据具体情况选择不同的后续处理，保证不遗漏目标数据，确保最终目标数据的完整性。（五）学习时间短，能够支撑业务的快速发展。平台提供丰富的在线帮助文档，开发者能够在1小时内快速掌握平台的基本使用，当有新的数据采集需求时，新的开发者能够立即学习开发采集爬虫程序，快速对应相关业务的发展。（六）支持私有化部署，保证数据安全。支持平台所有模块的私有化部署，让客户拥有瑞雪采集云平台的全部能力，保证客户开发的应用插件代码和目标数据的绝对安全。
采纳率：49%
为您推荐：
其他类似问题
您可能关注的内容
换一换
回答问题，赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。&&&&&& 爬虫里面做的最好的肯定是google ，不过google公布的蜘蛛是很早的一个版本，下面是几种开源的网络爬虫的简单对比表：
&&&&& 还有其他的一些比如Ubicrawler、FAST Crawler、天网蜘蛛等等没有添加进来。
&&&& 之后主要研究下larbin爬虫，如果有可能会给它添加一个删除功能，因为其排重部分用的是bloom filter算法，这个算法的有点很明显，对大规模数据的处理很快，性能很好，而且内存占用很小，但是什么事都没有尽善尽美的，该算法的直接缺点就是不能删除，还会出现误判情况。关于bloom filter有很多相关论文，网上也有些高质量的文章，暂时不做累述，之后如果自己有不一样的看法，再写关于该算法的文章。
&&&& 删除功能的算法暂时还不太确定，需要进一步了解，现在了解的counting bloom filter不错，带来的代价是内存占用高一点，园友们有什么建议和想法欢迎提出来哈！
阅读(...) 评论()用数据说话的年头，如何能够搞到完整全面的数据，可是件极其重要且并不容易的事。要真正做好大数据时代的分析，仅仅靠企业内部的数据是远远不够的，还需要借助外部力量。
这个时候，互联网上的资源就格外可爱了，从网络上爬取数据资源，就成为了非常关键的一环。
什么是网络爬虫？
网络爬虫也叫网络蜘蛛，即Web Spider，名字也是非常之形象。
如果把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，一直循环下去，直到把整个网站所有的网页都抓取完为止。
如果把整个互联网就当成一个网站，那么网络蜘蛛可以用这个原理把互联网上所有的网页都抓取下来。简而言之，利用爬虫我们可以获取大量的价值数据，从而获得感性认识中不能得到的信息。
光是听起来就很有意思，那利用这等技术能做些什么好玩的事儿呢？我们找来了部分知友的回答，一起来感受一下吧~
之前在北京买房，谁想房价开始疯长，链家的房价等数据分析只给了一小部分，远远不能满足自己的需求。于是晚上花了几个小时的时间写了个爬虫，爬下了北京所有的小区信息及北京所有小区的所有历史成交记录。
上次发现Android QQ和iOS QQ可以显示网络状态（2G/WiFi)之后，突然想到，这样子好像可以监视某人的出行和作息规律。简单的来说，在家里或者工作的地方，一般是有WiFi的，然后出门了，WiFi就断掉了。如果监测频率足够频繁，那么结合一定的推理，可以大致推测出一个人的行动。如果长期监视，那么可以大致推出一个人的作息时间。
因为只有Android QQ和iOS QQ有这个功能，所以要得到一个人的网络状态比较麻烦。我的做法是跑 Android 模拟器。然后用按键精灵模拟，并把网络状态截图，用 curl post到服务器上。服务器会把每次发送的时间、截图保存下来。因为是用程序截图的，所以只要网络状态是一样的，那么截图就是一样的，这样服务器就只会保存2~3张图片而已，其余的发现是相同的图片，数据库做个标记就好了。然后人工做OCR，还是注意到只有2~3张图片，所以工作量很少。
得到数据后，要做各种统计就可以自己搞了……
在用Python写网页爬虫之前，我只用来写过了一个驾校约车的脚本，让当时的我不惧上万的学车同僚，在约车环节没有输在起跑线上。
接着那段时间，我女朋友的领导每天下班都会下任务，要收集100条有招聘需求的信息，第二天检查。看到她熬夜百度+复制粘贴到半夜，心疼死了。
想到了某个牛人说:一切重复性的工作都可以用程序来完成。于是偷偷花了些时间研究了下她经常查的某些同类业务网站的页面数据，培育了这只爬虫。主要技能就是爬这些网站的招聘公司信息及联系方式，保存到Excel中。
在我将战斗成果----1000多个客户资料的Excel表格发给她的时候，先惊喜，后审问，再感慨！依稀记得那天她发了一条朋友圈，内容是：“有个程序员男朋友，感觉好幸福啊！！”成就感走直线啊，都能让她感到幸福，你说这只爬虫是不是做了很酷很有趣的事情呢？
我用爬虫爬了我爱白菜网、超值分享汇、发现值得买、惠惠购物、今日聚超值、留住你、买手党、没得比、慢慢买、牛杂网、买个便宜货、什么值得买、天上掉馅饼、一分网、折800值得买、值值值等网站的折扣信息。
这些网站都是提供的一些及时的、性价比较高的商品，很多时候要一个一个网站的看（重度用户），很容易就会错过一些很划算的商品。
大二学生一枚，前段时间中期考试，成绩一直不出来，又不想每次都登录，突然就像用以下所学的东西来干点事情。
说干就干，花了我将近4个小时完成成绩提醒功能。主要是用Python定时抓取数据（定时用Ubuntu的crontab），分析数据是否变化，然后发送短信。其实大部分时间是花在分析学校模拟登陆那一块了，毕竟要提取各种值，还有url重定向，本来就才学Python，对一些东西也不是很熟悉。
运行起来之后还是效果还不错，10分钟抓一次，第一时间知道了我的概率论。。。
在学校的时候做过一个项目，通过爬微博的文字，分析国内各个地区的用户收听虾米的热度和最受欢迎的歌手。当然也没有用什么很复杂的技术，就是写基本的TF-IDF。
做完的时候觉得自己好有想法啊，能实现这么有意思的东西。后来发现早就有公司做过了。当然别人做的是美国版的。
于是现在，我就在这家公司工作。
朋友交易了一套房子，手机号流落到了各种中介手里，隔几天就有中介电话骚扰，不胜其烦。每接一个电话都加黑名单，但还是有新号码打过来，so??问我咋办！
Android 手机的拦截倒不是问题，但需要房产经纪人的号码数据库，就只能去网上爬了！
各个房产站的广州站点加上58什么的，一个多小时爬了快两万个号码，去重之后还有一万五千多??
一时兴起，又去爬了深圳、北京和上海，现在都不知道拿这些号码去干嘛了??
PS：貌似活跃房产经纪的数量能反应市场活跃度？
PS：我觉得我可以把全国城市的都爬下来。
非计算机系。所以我做的比起其他人来说要简单的多，但是却解决了一些很实用的问题，也让我认识到各行各业的人都需要学一点编程。
我一个同学做数学建模，需要57个城市两两之间的距离。他们本来想在百度查，可是57*56/2=1596，也就是说他们光查数据就要百度1596次。刚好我那个时候接触了一点爬虫，就找到一个可以查询距离的网站，大概写了几十行代码，两分钟就解决问题了。
说个简单实用的例子吧。昨晚突然发现我在某培训网站的的会员马上就要过期了，于是赶紧写了个爬虫，把没看完的教学视频全下载下来了……
@ animalize
用爬虫技术做了个个人信息收集系统，部署在卡片式电脑（如树莓派、Cubieboard）上。
人们上各种网站浏览感兴趣的内容，如果一个个打开看，太浪费时间。如果不去看，又会错过很多感兴趣的内容，很可惜。这个东西呢，定时去获取用户感兴趣的信息，并通过web的方式展示出来。用户每天看一眼这个系统就可以了。（有网友说用RSS就可以了，可是现在提供RSS的网站实在不多，我这里大部分信息是从普通网页里提取的。）
@萝莉控夫斯基
我的爱人是某网络公司的销售，需要收集各种企业信息然后打电话联系。于是乎利用采集脚本抓一坨一坨的资料给她用，而她的同事天天自己搜资料整理到半夜。
ImageQ官网全新升级上线欢迎免费体验
----------------------------
ImageQ：中文领域领先的大数据语义分析应用服务品牌
官方微信：ImageQ大数据
文章转载自网络，作者观点不代表本网站立场，如需处理请联系客服
ImageQ大数据语义分析其它文章
任何完整的大数据平台，一般包括以下的几个过程：数据采集–&数据存储–&数据处理–&数据展现(可视化，报表和监控)。数据处理全过程其中，「数据采集」是所有数据系统必不可少的，随着大数据越来越被重视，「数据采集」的挑战也变的尤为突出。这其中包括：数据
这是一份来自百度内部培训关于数据分析的、阅读类 PPT，文字说明已非常充分，对于想入门或刚入门数据分析的萌新们，用来学习是最适合不过啦，赶紧收藏~整个 PPT 围绕着四大模块的内容进行：1、什么是数据分析（道）1.1 数据分析是什么？1.2 什么是做好数据分析的关键？1
人工智能发展的今天，「知识图谱」在一众领域发挥的重要的基础作用愈发突出。旨在研究如何更好地表示知识（实体和关系）的语义信息，以更好地利用知识图谱信息的「知识表示」，也随着深度学习的发展，在近些年里不断取得新的突破。第二届“大数据在清华”高峰论坛上，来
通过本篇文章可以对「机器学习」的常用算法有个常识性的认识，没有代码，没有复杂的理论推导，就是图解一下，知道这些算法是什么，它们是怎么应用的，例子主要是分类问题。常用算法如下：决策树随机森林算法逻辑回归SVM朴素贝叶斯K最近邻算法K均值算法Adaboost算法神经网
不久前，我们曾对 Python 当前发展情况及其核心知识体系进行了一下梳理，小伙伴们反馈不错（未来得及查看的请戳《17张思维导图读懂Python核心知识体系》）。之后几天，我们就 Python 常用标准库及相关计算机知识又集中整理了7张导图，今天也一并分享给大家。Python 标准
经常在网络上看到这样的问题：“从零开始学习「数据可视化」，需要怎么开始？”《Data at Work》一书的作者 Jorge Camoes 在一次演讲中，提出了“数据可视化思考者”这一概念，并分享了他的 12 个想法。我们从中选取了最具价值的 8 个，进行了编译。1有数无形少直观，有
4 月份 PYPL 编程语言排行榜出炉时，Python 以5.2％的巨幅增长超过 JavaScript，使其成为开发人员中受欢迎程度最快的语言，流行度名列前茅。万万没想到，这个势头有增无减。5 月份 PYPL 发布编程语言指数榜时，Python 超越了 Java ，成功占据榜首位置！PYPL 指数排名（与
近些年来，随着人工智能行业的蓬勃发展，领域内大大小小的展会会议也随之增多。历次大会除了展示前沿科技成果、发布权威数据、报告等，备受关注的同样还有同期领域内大家的思想碰撞和观点分享了。而作为当下人工智能热的一个重要组成部分，「知识图谱」，也似乎在全世界
说到数据分析，比较经典的算是「啤酒和尿布」的例子了。而再具体、深入一些的内容，人们往往因为数学就望而却步了。这里给大家分享 9 个不带数学推导的数据分析思路，希望大家能喜欢~人人都该掌握的 9 种数据分析思维分类
分类分析的目标是：给一批人（或者物）分成几个
AlphaGo 事件之后，人工智能领域在深度学习带领下迎来了又一个高峰，随之而来的是资本与人才的流动。基于公开信息提到的华人 AI 大牛们的职业路径，我们也梳理出了一个 AI 大牛的流动图谱。AI 大牛的流动图谱节点代表公司，AI 大牛在不同公司之间的流动形成有向边，颜色
今天，构造 AI 或机器学习系统比以往任何时候都更加容易。我们有了许多开源的最前沿的工具，如 TesorFlow，Torch，Spark 等，也有了像 AWS、Google Cloud 以及其他云服务提供商提供的大量计算力，这意味着你可以悠哉地一边喝着咖啡一边用 laptop 训练模型。虽然不算人工
一般谈云计算的时候会提到大数据、谈人工智能的时候会提大数据、谈人工智能的时候会提云计算……感觉三者之间相辅相成又不可分割。但如果是非技术的人员，就可能比较难理解这三者之间的相互关系，所以有必要解释一下。云计算的最初目标我们首先来说云计算。云计算最初的
近日，「中国信通院」推出最新版《中国大数据发展调查报告（2018年）》（以下简称“《报告》”）。报告收集到1,572份大数据用户的有效问卷，全面覆盖华北、东北、华东、中南、西南、西北以及海外地区，涉及政府部门、企业高管、技术精英、专家学者等各类人群。通过深入调
去年 6 月，「吴恩达」宣布了 deeplearning.ai 创业项目；8 月，项目揭晓：一套由 5 门课组成的「深度学习」系列课程，旨在推广普及「深度学习」知识。4 月初，吴恩达团队也终于开设了其官方微信公众号，并于 21 日将公号名称正式改为“吴恩达deeplearningai”；上午 9
别误会，这里说的可不是 NBA 球星迈克尔·乔丹，而是因名字相近，同样也在领域内有着突出贡献，被称为“The Michael Jordan of Machine Learning”的机器学习宗师级大牛 —— Michael I. Jordan。在过往的经历中，Michael I. Jordan 曾指出「机器学习」与统计学之间的联
从数据的获取、爬取、存储、处理、分析、BI、组件、框架、资源管理、集群、性能等方面做的工具大汇总，其中的很多已被全球各大企业所应用，部分开源工具在 GitHub 也有对应项目，非常适合大数据领域技术伙伴使用，推荐收藏备用哦~100 款大数据工具大汇总1、Talend Open
4 月 18 日，“2018 大数据产业峰会”在北京国家会议中心正式召开。大会重磅发布了《大数据白皮书（2018年）》（以下简称“白皮书”），中国信息通信研究院云计算与大数据研究所大数据部主任「魏凯」对此也在现场为大家进行了深度解读。此次白皮书是中国信通院继 2014 年
“人生苦短，我用 Python” ，不知道从什么时候开始，这句话开始流行。在过去的 2017 年，我们也见证了 Python 辉煌的一年。这一年，Python 的增长速度令人惊艳。主要编程语言增长趋势最新的 HackerRank 2018 开发者技能调查中，根据 HackerRank 的爱恨指数数据，Pytho
4 月 15 日下午，"京东人工智能创新峰会"在北京举行。京东 AI 带头人「周伯文」首次正式对外发布人工智能开放平台“NeuHub”，并展示了以三大主体、七大应用场景、五个人工智能产业化布局方向为支架的 AI 体系。京东 AI 全景图公布来自南京大学人工智能学院院长、南京大
一位转型 AI 的朋友，最近对我抱怨，“走过的最远的路，就是「机器学习」过程中的弯路”，然后开始各种 blablabla，从论文的坑，到模型的坑，再到培训的坑...一路吐槽。尤其是论文，他骂道：“最讨厌的就是那种，高高在上、假装清高、站着说话不腰疼、戳不到痛点的论文。
ImageQ大数据语义分析}

天天发财游戏网