在mac下使用python抓取数据

2015已经过去，这是2016的第一篇博文！

祝大家新年快乐！

但是我还有好多期末考试！

还没开始复习，唉，一把辛酸泪！

最近看了一遍彦祖的文章叫做

iOS程序员如何使用Python写网路爬虫

所以自己也想小试牛刀.于是便开始动手写,但初次接触,还是遇见了很多不懂的东西,于是爬文一个一个解决了,最终抓取了自己想要的东西

彦祖的这篇文章里Python代码格式有错,但是解释是没错的!所以我待会儿贴出我能正确运行的代码

彦祖的文章里说可以直接用类似于cocoapods的Python库管理工具pip进行安装我们解析网页所需要用的第三方库BeautifulSoup!

Mac确实是自带了Python.但是并没有安装pip,所以需要我们手动进行安装!

有人说可以使用命令:easy_install pip进行安装,但是我并没有安装成功!百思不得其解

于是爬文寻找其他方法:http://stackoverflow.com/questions/17271319/installing-pip-on-mac-os-x

原来是需要我的超级管理员权限...

至此,安装Pip成功

第二步:安装BeautifulSoup!

　　用彦祖的命令去运行,结果报错!提示我安装失败!(又忘了截图..)

没办法,就尝试手动安装BeautifulSoup,结果还是不行

后来我想是不是还是因为没有管理员权限的原因

于是尝试加上过后,就安装成功了

好了,开始写代码吧,但是我一个新人连该用什么来写Python代码都不知道!

又搜!(好低级的问题)=====>用记事本就行(真方便)(保存为.py文件后，是用的xcode打开的)

于是敲了如下代码:

 1 #!/usr/bin/python
 2 #-*- coding: utf-8 -*-
 3 #encoding=utf-8
 4
 5 import urllib2
 6 import urllib
 7 import os
 8 from BeautifulSoup import BeautifulSoup
 9 def getAllImageLink():
10     html = urllib2.urlopen(‘http://www.dbmeinv.com‘).read()
11     soup = BeautifulSoup(html)
12
13     liResult = soup.findAll(‘li‘,attrs={"class":"span3"})
14
15     for li in liResult:
16         imageEntityArray = li.findAll(‘img‘)
17         for image in imageEntityArray:
18             link = image.get(‘src‘)
19             imageName = image.get(‘title‘)
20             filesavepath = ‘/Users/WayneLiu_Mac/Desktop/meizi/%s.png‘ % imageName
21             urllib.urlretrieve(link,filesavepath)
22             print filesavepath
23
24
25 if __name__ == ‘__main__‘:
26     getAllImageLink()

获得了如下数据(彦祖好邪恶....):

其实python真的很强大的，短短数几十行代码就可以实现这些功能！

闲来无事,又完善了一下代码,用以获得所有妹子的照片...

 1 #!/usr/bin/python
 2 #-*- coding: utf-8 -*-
 3 #encoding=utf-8
 4
 5 import urllib2
 6 import urllib
 7 import os
 8 import socket
 9 from BeautifulSoup import BeautifulSoup
10
11
12 def getAllImageLink():
13     xiayiye = True
14     page = ‘/?pager_offset=12‘
15     while(1):
16         html = urllib2.urlopen(‘http://www.dbmeinv.com%s‘ % page).read()
17         soup = BeautifulSoup(html)
18
19         liResult = soup.findAll(‘li‘,attrs={"class":"span3"})
20         nextResult = soup.findAll(‘li‘,attrs={"class":"next next_page"})
21
22
23         for li in liResult:
24             imageEntityArray = li.findAll(‘img‘)
25             nameResult = li.findAll(‘span‘,attrs={"class":"starcount"})
26             for name in nameResult:
27                 nameTitle = name.get(‘topic-image-id‘)
28
29             for image in imageEntityArray:
30                 link = image.get(‘src‘)
31                 filesavepath = ‘/Users/WayneLiu_Mac/Desktop/meizi2/%s.jpg‘ % nameTitle
32                 socket.setdefaulttimeout(30)
33                 urllib.urlretrieve(link,filesavepath)
34                 print filesavepath
35
36         for nextPage in nextResult:
37             aEntityArray = nextPage.findAll(‘a‘)
38             for a in aEntityArray:
39                 nextTitle = a.get(‘title‘)
40                 print nextTitle
41                 page = a.get(‘href‘)
42                 print page
43                 if  nextTitle.encode(‘utf-8‘) != "下一页":
44                     xiayiye = False
45                     print xiayiye
46         if xiayiye == False:
47             break
48
49 if __name__ == ‘__main__‘:
50         getAllImageLink()

呵呵哒...

时间： 2024-08-06 20:22:11

在mac下使用python抓取数据的相关文章

python抓取数据，python使用socks代理抓取数据

在python中,正常的抓取数据直接使用urllib2 这个模块: import urllib2 url = 'http://fanyi.baidu.com/' stream = urllib2.urlopen(url) cont = stream.read() print cont 如果要走http代理的话,我们也可以使用urllib2,不需要引用别的模块: import urllib2 url = 'https://clients5.google.com/pagead/drt/dn/dn.j

使用python抓取并分析数据—链家网(requests+BeautifulSoup)（转）

本篇文章是使用python抓取数据的第一篇,使用requests+BeautifulSoup的方法对页面进行抓取和数据提取.通过使用requests库对链家网二手房列表页进行抓取,通过BeautifulSoup对页面进行解析,并从中获取房源价格,面积,户型和关注度的数据. 准备工作首先是开始抓取前准备工作,导入需要使用的库文件,这里主要使用的是requests和BeautifulSoup两个.Time库负责设置每次抓取的休息时间.这里并非全部,后续还会在过程中导入新的库. 抓取列表页开始抓取

运用python抓取博客园首页的所有数据，而且定时持续抓取新公布的内容存入mongodb中

原文地址:运用python抓取博客园首页的所有数据,而且定时持续抓取新公布的内容存入mongodb中依赖包: 1.jieba 2.pymongo 3.HTMLParser # -*- coding: utf-8 -*- """ @author: jiangfuqiang """ from HTMLParser import HTMLParser import re import time from datetime import date im

运用python抓取博客园首页的全部数据，并且定时持续抓取新发布的内容存入mongodb中

原文地址:运用python抓取博客园首页的全部数据,并且定时持续抓取新发布的内容存入mongodb中依赖包: 1.jieba 2.pymongo 3.HTMLParser # -*- coding: utf-8 -*- """ @author: jiangfuqiang """ from HTMLParser import HTMLParser import re import time from datetime import date im

python自然语言处理1——从网络抓取数据

python自然语言处理1--从网络抓取数据写在前面本节学习python2.7 BeautifulSoup库从网络抽取数据的技术,检验之简而言之就是爬虫技术.网络编程是一门复杂的技术,在需要基础的地方,文中给出的链接地址,都是很好的教程,可以参考,我在这里不在重复发明轮子.本节的主旨在于: 帮助快速掌握基本爬虫技术,形成一条主线,能为自己的实验构造基础数据.掌握爬虫技术后,可以从网络抓取符合特定需求的数据供分析,这里学习的爬虫技术适用于数据挖掘.自然语言处理等需要从外部挖掘数据的学科. 1.

使用 Python 抓取欧洲足球联赛数据

Web Scraping 在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤数据的采集和获取数据的清洗,抽取,变形和装载数据的分析,探索和预测数据的展现其中首先要做的就是获取数据,并提炼出有效地数据,为下一步的分析做好准备. 数据的来源多种多样,以为我本身是足球爱好者,而世界杯就要来了,所以我就想提取欧洲联赛的数据来做一个分析.许多的网站都提供了详细的足球数据,例如: 网易 http://goal.sports.163.com/ 腾讯体育 http://so

利用Python抓取亚马逊评论列表数据

前段时间,我家妹子公司老板叫她去将法国亚马逊评论列表的前100页共1000个评论用户的联系方式找出来.1000个用户,要一个个的去看再记录下来,而且并不是每个评论用户都会将个人的联系方式留下来.那么问题来了,这样费时费力的工作如果人工去做的话,那么就是花了两天的时间也就找了前30页的数据(还有别的工作要做),然后累的够呛的.本着心疼的原则(程序猿能找到妹子就很不错了,所以得心疼着),就想帮着她做点事. 我本身的工作是做游戏客户端开发的,主要使用的开发语言是lua和c++,并没有接触过网页.网站相

python抓取百度彩票的双色球数据

最近在学习<机器学习实战>这本书,在学习的过程中不免要自己去实践,写些练习.这写练习的第一步就需要收集数据,所以为了写好自己的练习程序,我得先学会收集一些网络数据.了解到用python抓取网页数据的一些方法后,我就根据别人的demo,自己实践了一下,学着从百度彩票网站上抓取双色球的历史数据.以下我就介绍一下自己的小程序. 大致思路如下找到相关url和其参数找出页面上你要抓取的数据的位置,也就是说这个数据在那些标签下将每页中学要的数据取下来按一定格式存放在自己本地需要的环境: pytho

微信好友大揭秘，使用Python抓取朋友圈数据，通过人脸识别全面分析好友，一起看透你的“朋友圈”

微信:一个提供即时通讯服务的应用程序,更是一种生活方式,超过数十亿的使用者,越来越多的人选择使用它来沟通交流. 不知从何时起,我们的生活离不开微信,每天睁开眼的第一件事就是打开微信,关注着朋友圈里好友的动态,而朋友圈中或虚或实的状态更新,似乎都在证明自己的"有趣",寻找那份或有或无的存在感. 有人选择在朋友圈记录生活的点滴,有人选择在朋友圈展示自己的观点.有时我们想去展示自己,有时又想去窥探着别人的生活,而有时又不想别人过多的了解自己的生活,或是屏蔽对方,或是不给对方看朋友圈,又或是不