使用python scrapy框架抓取cnblog 的文章内容

scrapy 的文档请移驾到 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.html

1、准备工作

安装python 、Spyder 、scrapy 如果想要数据直接入mysql 还需要安装python的 MySQLdb 依赖包

本人mac操作系统安装MySQLdb的时候出现了些小问题最后是重装了openssl 才通过的

Spyder 是编写python的ide

2、新建项目

cd /usr/local/var/www/python

执行 scrapy startproject myblog 则新建了一个名称为myblog 的项目，执行完成后你的python文件夹就出现了myblog文件夹了

cnblog_spider.py 是后来我新建的后缀.pyc 是执行python后的编译的文件其他的都是执行创建项目后就自动生成的文件了

3、编写爬虫脚本 cnblog_spider.py

分析cnblog的网站使用scrapy shell http://www.cnblogs.com/threemore/

使用google浏览器找到你想要抓取的数据话不多说直接上代码，我抓取了cnblog文章的标题，链接时间，文章的id，正文内容

# -*- coding: utf-8 -*-

from scrapy.spider import Spider
from scrapy.selector import Selector
from myblog.items import MyblogItem
import scrapy
import re
#SITE_URL = ‘http://www.cnblogs.com/threemore/‘

#抓取在cnblog中的文章
class CnblogSpider(Spider):
    #抓取名称 执行命令的时候后面的名称   scrapy crawl cnblog 中的cnblog 就是在这里定义的
    name =‘cnblog‘
    allow_domains = ["cnblogs.com"]

    #定义抓取的网址
    start_urls = [
        ‘http://www.cnblogs.com/threemore/‘
    ]

    #执行函数
    def parse(self,response):
        sel = Selector(response)
        self.log("begins  % s" % response.url)
        article_list = sel.css(‘div.postTitle‘).xpath(‘a‘)

        #抓取列表里面的内容也地址后循环抓取列表的内容页面数据
        for article in article_list:
            url = article.xpath(‘@href‘).extract()[0]
            self.log("list article url: % s" % url)

            #继续抓取内容页数据
            yield scrapy.Request(url,callback=self.parse_content)

        #如果有下一页继续抓取数据
        next_pages = sel.xpath(‘//*[@id="nav_next_page"]/a/@href‘)

        if next_pages :
            next_page = next_pages.extract()[0]
            #print next_page
            self.log("next_page: % s" % next_page)
            #自己调用自己  类似php 函数的当中的递归
            yield scrapy.Request(next_page,callback=self.parse)

    #内容页抓取
    def parse_content(self,response):
        self.log("detail views: % s" % response.url)

        #定义好的item  只需要在items 文件中定义抓取过来的数据对应的字段
        item = MyblogItem()

        #xpath 寻找需要在页面中抓取的数据
        item[‘link‘] =  response.url  

        #正则匹配出文章在cnblog中的id
        m = re.search(r"([0-9])+", item[‘link‘])
        if m:
            item[‘aid‘] = m.group(0)
        else:
            item[‘aid‘] = 0;
        item[‘title‘] = response.xpath(‘//*[@id="cb_post_title_url"]/text()‘).extract()[0]
        item[‘content‘] = response.xpath(‘//*[@id="cnblogs_post_body"]‘).extract()[0]
        item[‘date‘] = response.xpath(‘//*[@id="post-date"]‘).extract()
        #print item[‘content‘]
        yield item

4、数据入库

编写管道程序pipelines.py，管道就是存储数据使用的爬虫文件最后yield 的item 会将数据给到pipelines.py 这个文件

为了测试和正式环境的方便我就配置了两份mysql的登陆信息

每次执行前都将即将入库的数据表给清空了一次防止重复采集，直接看代码

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don‘t forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

#需要在setting.py文件中设置ITEM_PIPELINES 将前面的注释打开配置成当前的文件即可
#当前的管道就是这么配置 ‘myblog.pipelines.MyblogPipeline‘: 300,

import MySQLdb,datetime

DEBUG = True

#定义测试环境和正式环境中的mysql
if DEBUG:
    dbuser = ‘root‘
    dbpass = ‘root‘
    dbname = ‘test‘
    dbhost = ‘127.0.0.1‘
    dbport = ‘3306‘
else:
    dbuser = ‘root‘
    dbpass = ‘root‘
    dbname = ‘test‘
    dbhost = ‘127.0.0.1‘
    dbport = ‘3306‘

class MyblogPipeline(object):

    #初始化 链接数据库
    def __init__(self):

        self.conn = MySQLdb.connect(user=dbuser, passwd=dbpass, db=dbname, host=dbhost, charset="utf8", use_unicode=True)

        self.cursor = self.conn.cursor()

        self.cursor.execute(‘truncate table test_cnbog‘)        

        self.conn.commit()

    #执行sql语句
    def process_item(self, item, spider):
        try:
            self.cursor.execute("""INSERT INTO test_cnbog (title, link, aid,content,date)
                  VALUES (%s,%s,%s,%s,%s)""",
                  (
                    item[‘title‘].encode(‘utf-8‘),
                    item[‘link‘].encode(‘utf-8‘),
                    item[‘aid‘],
                    item[‘content‘].encode(‘utf-8‘),
                    datetime.datetime.now(),
                  )
            )
            self.conn.commit()
        except MySQLdb.Error, e:

            print u‘Error %d: $s‘ % (e.args[0],e.args[1])

        return item

5、配置setting.py

开启入库的配置

找到 ITEM_PIPELINES 将前面的注释去掉看到代码上面的注释的链接了么直接访问看下是干啥的就行了官方网站上看实例好像是将数据写入到monge里面去了

本人对monge 不熟悉直接放到mysql去了大致意思就是说pipelines.py 这个文件就是讲你采集的数据存放在什么地方

# Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    ‘myblog.pipelines.MyblogPipeline‘: 300,
}

6、执行采集

在项目的文件夹下面执行：scrapy crawl myblog

特意将crawl 拿百度翻译看了下啥意思原来就是“爬行”

最后展示下采集回来的数据

15条没有采集到数据 aid 程序就是拿正则随便处理了下

时间： 2024-12-12 20:27:07

使用python scrapy框架抓取cnblog 的文章内容的相关文章

python实现爬虫（一）--- Scrapy框架抓取豆瓣书籍信息

Scrapy是一个用python实现都爬虫框架,简单易用,功能强大,只需要在框架的基础上自定义自己的分析规则即可,具体如何新建工程等待都在官方文档上面讲解得非常清楚,官方文档tutorial(http://doc.scrapy.org/en/latest/intro/tutorial.html)请保证下载较新版本的Scrapy(我的是0.24.2,scrapy -v)旧版本会出现一些问题. 下面我使用Scrapy抓取豆瓣上面编程书籍的一些简单信息一.准备爬取的页面如下,新建一个douban工程

python爬虫：抓取新浪新闻内容（从当前时间到之前某个时间段），并用jieba分词，用于训练自己的分词模型

新浪新闻内容采用的是ajax动态显示内容,通过抓包,发现如下规律: 每次请求下一页,js那一栏都会出现新的url: "http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw&cat_2==gdxw1" "||=gatxw||=zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&show_num=22&ta

如何利用Python网络爬虫抓取微信朋友圈的动态（上）

今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌,小编在网上找到了第三方工具,它可以将朋友圈进行导出,之后便可以像我们正常爬虫网页一样进行抓取信息了. [出书啦]就提供了这样一种服务,支持朋友圈导出,并排版生成微信书.本文的主要参考资料来源于这篇博文:https://www.cnblogs.com/sheng-jie/p/7776495.html

用Python进行网页抓取

引言从网页中提取信息的需求日益剧增,其重要性也越来越明显.每隔几周,我自己就想要到网页上提取一些信息.比如上周我们考虑建立一个有关各种数据科学在线课程的欢迎程度和意见的索引.我们不仅需要找出新的课程,还要抓取对课程的评论,对它们进行总结后建立一些衡量指标.这是一个问题或产品,其功效更多地取决于网页抓取和信息提取(数据集)的技术,而非以往我们使用的数据汇总技术. 网页信息提取的方式从网页中提取信息有一些方法.使用API可能被认为是从网站提取信息的最佳方法.几乎所有的大型网站,像Twitter.

用python做网页抓取与解析入门笔记[zz]

(from http://chentingpc.me/article/?id=961) 事情的起因是,我做survey的时候搜到了这两本书:Computational Social Network Analysis和Computational Social Network,感觉都蛮不错的,想下载下来看看,但是点开网页发现这个只能分章节下载,晕,我可没时间一章一章下载,想起了迅雷的下载全部链接,试试看,果真可以把他们一网打尽,但是,sadly,迅雷下载的时候,文件名没办法跟章节名对应起来,晕,我可

queryList 一次抓取多个网页内容的方法--目前只有用循环替换页码或者给出url循环进行 queryList没有像python一样的yied迭代方法 queryList 实现多个实例抓取不同网页的内容,两个实例数据互不干扰

注意: 目前只有用循环替换页码或者给出url循环进行 queryList没有像python一样的yied迭代方法 queryList 实现多个实例抓取不同网页的内容,两个实例数据互不干扰新技能获取: Medoo(轻量级php数据库框架:https://medoo.lvtao.net/) 实现循环采集多个页面数据: 关键代码 for ($i = 1; $i < 21; $i++) { echo "正在爬取第{$i}页\n"; $url = "http://bl

python多线程实现抓取网页

Python实现抓取网页下面的Python抓取网页的程序比较初级,只能抓取第一页的url所属的页面,只要预定URL足够多,保证你抓取的网页是无限级别的哈,下面是代码: ##coding:utf-8 ''' 无限抓取网页 @author wangbingyu @date 2014-06-26 ''' import sys,urllib,re,thread,time,threading ''' 创建下载线程类 ''' class download(threading.Thread): def __

python&php数据抓取、爬虫分析与中介，有网址案例

最近在做一个网络爬虫程序,后台使用python不定时去抓取数据,前台使用php进行展示网站是:http://se.dianfenxiang.com python&php数据抓取.爬虫分析与中介,有网址案例,布布扣,bubuko.com

Python -- 网络编程 -- 抓取网页图片 -- 图虫网

字符串(str)编码成字节码(bytes),字节码解码为字符串获取当前环境编码:sys.stdin.encoding url编码urllib.parse.quote() url解码urllib.parse.unquote() 列表去重:pages = list(set(pages)) 创建文件夹(可多级创建):os.makedirs(folder) os.mkdir()只能单级创建首先分析网页(图虫网)的URL规律: 根网页地址形如: http://tuchong.com/tags/人像/