爬虫学习1

结构安排

十八是第一部分;

十九二十六是第二部分。

一、大数据时代的挑战

数据抽取、转换、存储 (Data ETL)

  • 原始资料:Raw Data
  • ETL脚本:ETL Scipt
  • 结构化数据:Tidy Data

二、非结构化数据处理与网络爬虫

  1. 网页链接器(Web Connector)向目标网页发出请求(request);
  2. 目标网页将响应(response)发送给网页链接器(Web Connector);
  3. 对收到的响应进行资料剖析(Data Parser),剖析成结构化数据;
  4. 将结构化数据存入数据中心(Data Center)

三、了解网络爬虫背后的秘密

  • 浏览器内建的开发人员工具
  • requests
  • BeautifulSoup4 (注意,BeautifulSoup4和BeautifulSoup是不一样的)
  • jupyter

    jupyter中编辑的文件会保存在用户的家目录下,例如在windows中就会是C:\Users\username

以Chrome为例,抓取前的分析步骤如图:

抓取前的分析.png

  1. F12进入到开发者工具;
  2. 点击Network
  3. 刷新页面
  4. 找到Doc
  5. 找到左边Name这一栏的第一个(需要爬去的链接90%的情况都是第一个);
  6. 点击右边的Headers
  7. 找到请求的URL和请求方式。

四、撰写第一只网络爬虫

Requests库

  • 网络资源撷取套件
  • 改善Urllib2的缺点,让使用者以最简单的方式获取网络资源
  • 可以使用REST操作存取网络资源

jupyter

使用jupyter来抓取网页并打印在浏览器中,再按Ctrl-F查找对应的内容,以确定我们要爬去的内容在该网页中。

HelloWorld

import requests
res = requests.get(‘http://www.sina.com.cn/‘)
res.encoding = ‘utf-8‘
print(res.text)

五、用BeautifulSoup4剖析网页元素

from bs4 import BeautifulSoup
html_sample = ‘ <html> <body> <h1 id="title">Hello World</h1> <a href="#" class="link">This is link1</a> <a href="# link2" class="link">This is link2</a> </body> </html>‘

soup = BeautifulSoup(html_sample, ‘html.parser‘)
print(soup.text)

六、BeautifulSoup基础操作

使用select找出含有h1标签的元素

soup = BeautifulSoup(html_sample)
header = soup.select(‘h1‘)
print(header)
print(header[0])
print(header[0].text)

使用select找出含有a的标签

soup = BeautifulSoup(html_sample, ‘html.parser‘)
alink = soup.select(‘a‘)
print(alink)
for link in alink:
    print(link)
    print(link.txt)

使用select找出所有id为title的元素(id前面需要加#)

alink = soup.select(‘#title‘)
print(alink)

使用select找出所有class为link的元素(class前面需要加.)

soup = BeautifulSoup(html_sample)
for link in soup.select(‘.link‘):
    print(link)

使用select找出所有a tag的href链接

alinks = soup.select(‘a‘)
for link in alinks:
    print(link[‘href‘]) # 原理:会把标签的属性包装成字典
a = ‘<a href="#" qoo=123 abc=456> i am a link</a>‘
soup2 = BeautifulSoup(a, ‘html.parser‘)
print(soup2.select(‘a‘))
print(soup2.select(‘a‘)[0])
print(soup2.select(‘a‘)[0][‘qoo‘])

七、观察如何抓取新浪新闻信息

关键在于寻找CSS定位

  • Chrome开发人员工具(进入开发人员工具后,左上角点选元素观测,就可以看到了)

Chrome寻找元素定位.png

  • Firefox开发人员工具
  • InfoLite(需FQ)

八、制作新浪新闻网络爬虫

抓取时间、标题、内容

import requests
from bs4 import BeautifulSoup

res = requests.get(‘http://news.sina.com.cn/china‘)
res.encoding = ‘utf-8‘
soup = BeautifulSoup(res.text, ‘html.parser‘)

for news in soup.select(‘.news-item‘):
    if (len(news.select(‘h2‘)) > 0):
        h2 = news.select(‘h2‘)[0].text
        time = news.select(‘.time‘)[0].text
        a = news.select(‘a‘)[0][‘href‘]
        print(time, h2, a)

九、抓取新闻内文页面

新闻网址为:http://news.sina.com.cn/c/nd/2016-08-20/doc-ifxvctcc8121090.shtml

内文资料信息说明.png

取得内文页面的步骤和三、了解网络爬虫背后的秘密相同。

十、取得新闻内文标题

寻找标题的CSS定位同七、观察如何抓取新浪新闻信息中步骤一致。

soup.select(‘#artibodyTitle‘)[0].text # 抓取标题

十一、取得新闻发布时间

时间和来源.png

timesource = soup.select(‘.time-source‘)[0].contents[0].strip() # 抓取时间

时间和字符串转换

from datetime import datetime

// 字符串转时间 --- strptime
dt = datetime.strptime(timesource, ‘%Y年%m月%d日%H:%M‘)

// 时间转字符串 --- strftime
dt.strftime(%Y-%m-%d)

十二、处理新闻来源信息

medianame = soup.select(‘.time-source span a‘)[0].text # 抓取来源

十三、整理新闻内文

每一步的步骤分析如下:

抓取内文1.png

抓取内文2.png

抓取内文3.png

去掉最后一行的编辑者信息。

抓取内文4.png

抓取内文5.png

去掉空格。

抓取内文6.png

抓取内文7.png

将空格替换成\n,这里可以自行替换成各种其他形式。

抓取内文8.png

简写为一句话。

十四、撷取新闻编辑者名称

editor = soup.select(‘.article-editor‘)[0].text.lstrip(‘责任编辑:‘)

十五、抓取新闻评论数

常规方法抓取评论

常规方法抓取,会发现评论数为空。

不能采取常规办法了

因此猜想,评论是是通过JS代码传过来的;
那么接着猜,既然是JS,那么通过AJAX传过来的概率很高,于是点到XHR中看,但是发现Response中没有出现总评论数208
然后就只能去JS里面了,地毯式搜索,找哪个Response里出现了总评论数208,终于找到了。

找到链接和请求方式

因此可以兑现代码了

兑现代码1

兑现代码2

可以发现通过newsid传了参数过来,而这个id可以通过请求页面的URL得知;
除此之外,还有一个jsvar=loader_xxxxx也传过来了一个很像时间戳的参数,这个不太好猜,于是把这个请求参数去掉试试看。

去掉后

去掉后,查看内容,跟上面对比,并没有大的差别。因此可以给它去掉。
图中的var data={......}看着很像是个json串。

有var data=

无var data=

去掉var data=,使其变为json串。

包装成json

可以看到,jd串中就是评论的信息了。

回到Chrome开发工具

回到Chrome开发工具中,这样浏览jd中的信息会比较快。

Done

总评论数这时候变成了217而不是开始的208,是因为延时的关系,即操作的这段时间有9个用户又评论了。

十六、剖析新闻标识符

方式1:切割法

newsurl = ‘http://news.sina.com.cn/c/nd/2016-08-20/doc-ifxvctcc8121090.shtml‘
newsid = newsurl.split(‘/‘)[-1].rstrip(‘.shtml‘).lstrip(‘doc-i‘)
newsid

方式2:正则表达式

import re
m = re.search(‘doc-i(.*).shtml‘, newsurl)
print(m.group(0)) # doc-ifxvctcc8121090.shtml
print(m.group(1)) # fxvctcc8121090

十七、建立评论数抽取函式

做一个总整理,把刚刚取得评论数的方法整理成一个函式。之后有新闻网页的链接丢进来,可以通过这个函式去取得它的总评论数。

commentURL = ‘http://comment5.new.sina.com.cn/page/info?aaa=bbb......&newsid=comos-{}&xxx=yyy&...‘

注意上面的&newsid=comos-{}

newsid = fxvctcc8121090
commentURL.format(newsid)

此时commentURL会变为http://comment5.new.sina.com.cn/page/info?aaa=bbb......&newsid=comos-fxvctcc8121090&xxx=yyy&...;成功完成格式化。

import re
import requests
import json

def getCommentCounts(newsurl):
    m = re.search(‘doc-i(.*).shtml‘, newsurl)
    newsid = m.group(1) # fxvctcc8121090
    comments = requests.get(commentURL.format(newsid))
    jd = json.loads(comments.text.strip(‘var data=‘))
    return jd[‘result‘][‘count‘][‘total‘]

十八、完成内文信息抽取函式

将抓取内文信息的方法整理成一函式。

import requests
from bs4 import BeautifulSoup

def getNewsDetail(newsurl):
    result = {}
    res = requests.get(newsurl)
    res.encoding = ‘utf-8‘
    soup = BeautifulSoup(res.text, ‘html.parser‘)
    result[‘title‘] = soup.select(‘#artibodyTitle‘)[0].text
    result[‘newssource‘] = soup.select(‘.time-source span a‘)[0].text
    timesource = soup.select(‘.time-source‘)[0].contents[0].strip()
    result[‘dt‘] = datetime.strptime(timesource, ‘%Y年%m月%d日:%H%M‘)
    result[‘article‘] = ‘\n‘.join([p.text.strip() for p in soup.select(‘#artibody p‘)[:-1]])
    result[‘editor‘] = soup.select(‘.article-editor‘)[0].text.strip(‘责任编辑:‘)
    result[‘comments‘] = getCommentCounts(newsurl)
    return result

十九、从列表链接取出每篇新闻内容

如果Doc下面没有我们想要找的东西,那么就有理由怀疑,这个网页产生资料的方式,是通过非同步的方式产生的。因此需要去XHRJS下面去找。

有时候会发现非同步方式的资料XHR下没有,而是在JS下面。这是因为这些资料会被JS的函式包装,Chrome的开发者工具认为这是JS文件,因此就放到了JS下面。

JS中找到我们感兴趣的资料,然后点击Preview预览,如果确定是我们要找的,就可以去Headers中查看Request URLRequest Method了。

一般JS中的第一个可能就是我们要找的,要特别留意第一个。

图示

二十、找寻分页链接

需要去掉头和尾,将其变成标准的json格式。

变成json

将json格式变成python的字典。

二十一、剖析分页信息

获取新闻链接列表

获取新闻链接列表

二十二、建立剖析清单链接函式

将前面的步骤整理一下,封装到一个函式中。

def parseListLinks(url):
    newsdetails = []
    res = requests.get(url)
    jd = json.loads(res.text.lstrip(‘newsloadercallback()‘).rstrip(‘);‘))
    for ent in jd[‘result‘][‘data‘]:
        newsdetails.append(getNewsDetail(ent[‘url‘]))
    return newsdetails

二十三、使用for循环产生多页链接

for循环产生多页链接

二十四、批次抓取每页新闻内文

批次抓取每页新闻内文

二十五、使用Pandas整理数据

Python for Data Analysis

  • 源于R
  • Table-Like格式
  • 提供高效能、简易使用的资料格式(Data Frame)让使用者可以快速操作及分析资料

pandas范例

df.head():默认显示5条数据;
df:默认显示全部数据;
df.head(10):默认显示10条数据。

二十六、保存数据到数据库

保存至Excel或者sqlite3

sqlite3同oracle、mysql不一样,它不需要在操作系统上去启动一个服务,然后让客户端连接到这个服务才可以进行对数据库的操作。
sqlite3它将所有的资料都存放在一个档案之中,在这个例子中,这个档案就叫做news.sqlite。执行完毕后,所有的资料都存在放news.sqlite这个资料库的news表格。

可以保存成多种格式

作者:陈半仙儿
链接:http://www.jianshu.com/p/01af5cfcc522
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

时间: 2024-10-10 07:45:38

爬虫学习1的相关文章

Python爬虫学习系列教程

Python爬虫学习系列教程 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴趣的童鞋有帮助,如果有机会期待与大家的交流. Python版本:2.7 一.爬虫入门 1. Python爬虫入门一之综述 2. Python爬虫入门二之爬虫基础了解 3. Python爬虫入门三之Urllib库的基本使用 4. Python爬虫入门四之Urllib库

爬虫学习之一个简单的网络爬虫

这是一个网络爬虫学习的技术分享,主要通过一些实际的案例对爬虫的原理进行分析,达到对爬虫有个基本的认识,并且能够根据自己的需要爬到想要的数据.有了数据后可以做数据分析或者通过其他方式重新结构化展示. 什么是网络爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕虫.via 百度百科网络爬虫 网络蜘蛛(Web spider)也叫网络爬虫(Web c

Python爬虫学习:四、headers和data的获取

之前在学习爬虫时,偶尔会遇到一些问题是有些网站需要登录后才能爬取内容,有的网站会识别是否是由浏览器发出的请求. 一.headers的获取 就以博客园的首页为例:http://www.cnblogs.com/ 打开网页,按下F12键,如下图所示: 点击下方标签中的Network,如下: 之后再点击下图所示位置: 找到红色下划线位置所示的标签并点击,在右边的显示内容中可以查看到所需要的headers信息. 一般只需要添加User-Agent这一信息就足够了,headers同样也是字典类型: user

python网络爬虫学习资料

第一:Python爬虫学习系列教程(来源于某博主:http://cuiqingcai.com/1052.html) Python版本:2.7 整体目录: 一.爬虫入门 1. Python爬虫入门一之综述 2. Python爬虫入门二之爬虫基础了解 3. Python爬虫入门三之Urllib库的基本使用 4. Python爬虫入门四之Urllib库的高级用法 5. Python爬虫入门五之URLError异常处理 6. Python爬虫入门六之Cookie的使用 7. Python爬虫入门七之正则

Python爬虫学习:三、爬虫的基本操作流程

本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三.爬虫的基本操作与流程 一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据.信息: 2.将数据或信息存入数据库中: 3.数据展示,即在Web端进行显示,并有自己的分析说明. 这次我先介绍第一个功能中所需要实现的基本操作: 爬虫的基本操作:      表示必须步骤           表示可选步骤 导入爬虫所需要的库(如:urllib.urllib2.BeautifulSoup.Scrap

python网络爬虫学习笔记

python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章目录 1. 介绍: 2. 从简单语句中开始: 3. 传送数据给服务器 4. HTTP头-描述数据的数据 5. 异常 5.0.1. URLError 5.0.2. HTTPError 5.0.3. 处理异常 5.0.4. info和geturl 6. Opener和Handler 7. Basic Authentication 8. 代理 9. Timeout 设置 10. Cookie 11. Deb

2018/7/21 Python 爬虫学习

2018/7/21,这几天整理出来的一些Python 爬虫学习代码. import urllib2 response = urllib2.urlopen("http://baidu.com") html = response.read() print html 进一步,可以request import urllib2 req = urllib2.Request("http://www.baidu.com") response = urllib2.urlopen(re

Python爬虫学习路线,强烈建议收藏这十一条

(一)如何学习Python 学习Python大致可以分为以下几个阶段: 1.刚上手的时候肯定是先过一遍Python最基本的知识,比如说:变量.数据结构.语法等,基础过的很快,基本上1~2周时间就能过完了,我当时是在这儿看的基础:Python 简介 | 菜鸟教程 2.看完基础后,就是做一些小项目巩固基础,比方说:做一个终端计算器,如果实在找不到什么练手项目,可以在 Codecademy - learn to code, interactively, for free 上面进行练习. 如果时间充裕的

爬虫学习 04.Python网络爬虫之requests模块(1)

爬虫学习 04.Python网络爬虫之requests模块(1) 引入 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用. 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症.冗余代码症.重新发明轮子症.啃文档症.抑郁.头疼.甚至死亡. 今日概要 基于requests的get请求 基于requests模块的post请求 基于requests模块ajax的get请求 基于requests模块ajax的post请求 综合项目练习:爬取国家药品监

爬虫学习 06.Python网络爬虫之requests模块(2)

爬虫学习 06.Python网络爬虫之requests模块(2) 今日内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取 知识点回顾 xpath的解析流程 bs4的解析流程 常用xpath表达式 常用bs4解析方法 了解cookie和session - 无状态的http协议 如上图所示,HTTP协议 是无状态的协议,用户浏览服务器上的内容,只需要发送页面请求,服务器返回内容.对于服务器来说,并不关心,也并不知道是哪个用户的请求.对于一般浏览性的网页来说