Scrapy框架爬虫

一、sprapy爬虫框架

pip install pypiwin32

1) 创建爬虫框架

scrapy startproject Project        # 创建爬虫项目
    You can start your first spider with:
        cd Project
        scrapy genspider example example.com
cd Project    # 进入项目
scrapy genspider chouti chouti.com    # 创建爬虫

创建爬虫框架

2)执行爬虫

class ChoutiSpider(scrapy.Spider):
    name = ‘chouti‘
    allowed_domains = [‘chouti.com‘]
    # start_urls = [‘http://dig.chouti.com/‘]   #
    start_urls = [‘http://www.autohome.com.cn/news‘]

    def parse(self, response):
        # response 访问网页的后的返回值
        print(response) # <200 https://www.autohome.com.cn/news/>
        print(response.url) # https://www.autohome.com.cn/news/

爬虫文件编写

(debug模式)
scrapy --help 参数帮助
pip install pypiwin32    # 执行爬虫的依赖包
scrapy crawl chouti        # 执行爬虫,查看经过的中间键

# 常用执行爬虫操作
scrapy crawl chouti --nolog        # 执行爬虫

执行爬虫命令

3)处理显示编码

import scrapy

import sys
import io
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding=‘gb18030‘)   # 处理显示编码

class ChoutiSpider(scrapy.Spider):
    .........

    def parse(self, response):
        content = str(response.body,encoding=‘utf-8‘)
        print(content)

编码

4)寻找标签:from scrapy.selector import Selector,HtmlXPathSelector

class ChoutiSpider(scrapy.Spider):
    name = ‘chouti‘
    allowed_domains = [‘chouti.com‘]
    # start_urls = [‘http://dig.chouti.com/‘]
    start_urls = [‘http://www.autohome.com.cn/news‘]

    def parse(self, response):
        ‘‘‘
        # # response 访问网页的后的返回值
        # print(response) # <200 https://www.autohome.com.cn/news/>
        # # 查看访问的地址
        # print(response.url) # https://www.autohome.com.cn/news/
        # 获取到网页文本代码
        # print(response.text)    # 网页代码
        print(response.body)
        ‘‘‘

        # 第一种 找到整个文档所有的 a 便签
        # hax = Selector(response=response).xpath(‘//a‘)  # 标签对象列表
        # for i in hax:
        #     print(i)    # 便签对象

        # 第二种 找到所有的div标签且属性是 id="content-list"
        # hax = Selector(response=response).xpath(‘//div[@id="content-list"]‘).extract()  # 拿到便签非标签对象

        # 第三种 找到所有的div标签且属性是 id="content-list",并寻找它的儿子标签  (/)
        # hxs = Selector(response=response).xpath(‘//div[@id="content-list"]/div[@class="item"]‘).extract()   # 标签对象转换成字符串
        # for i in hxs:
        #     print(i)

        # 第四种 找到所有的div标签且属性是 id="content-list",并寻找它的儿子标签  (/)
        hxs = Selector(response=response).xpath(‘//div[@id="content-list"]/div[@class="item"]‘)
        for obj in hxs:
            # 在当前标签下取所有的a 标签  .//a
            a = obj.xpath(‘.//a[@class="show-content"]/text()‘).extract()
            #  a = obj.xpath(‘.//a[@class="show-content"]/text()‘).extract_first() # 拿列表的第一个
            # print(a)
            print(a.strip())    # 去除空白

寻找标签

标签寻找总结

//   表示子孙中
.//  当前对象的子孙中
/    儿子
/div 儿子中的div标签
/div[@id="i1"]  儿子中的div标签且id=i1
/div[@id="i1"]  儿子中的div标签且id=i1
obj.extract()         # 列表中的每一个对象转换字符串 =》 []
obj.extract_first()   # 列表中的每一个对象转换字符串 => 列表第一个元素
//div/text()    获取某个标签的文本
hax = Selector(response=response).xpath(‘//div[@id="dig_lepage"]//a/text()‘)  # 拿内容hax = Selector(response=response).xpath(‘//div[@id="dig_lepage"]//a/@href‘)  # 拿标签属性

# starts-with(@href, "/all/hot/recent/ 以什么开头
hax = Selector(response=response).xpath(‘//a[starts-with(@href, "/all/hot/recent/")]/@href‘).extract()
# 正则取
hxs2 = Selector(response=response).xpath(‘//a[re:test(@href, "/all/hot/recent/\d+")]/@href‘).extract()

print(response.meta)  查询寻找深度

5.1)获取当前页的所有页面,即a 标签的href属性内容

class ChoutiSpider(scrapy.Spider):
    name = ‘chouti‘
    allowed_domains = [‘chouti.com‘]
    # start_urls = [‘http://dig.chouti.com/‘]
    start_urls = [‘http://www.autohome.com.cn/news‘]

    visited_urls = set()
    def parse(self, response):
        # 获取当前页的所有页码
        ‘‘‘
        hax = Selector(response=response).xpath(‘//div[@id="dig_lepage"]//a/@href‘).extract()
        for item in hax:
            print(item)     # 可能有重复的页面
        ‘‘‘
        hax = Selector(response=response).xpath(‘//div[@id="dig_lepage"]//a/@href‘).extract()
        for item in hax:
            if item in self.visited_urls:
                print(‘已经存在‘)
            else:
                self.visited_urls.add(item)
                print(item)

对url内容加密保存

class ChoutiSpider(scrapy.Spider):
    name = ‘chouti‘
    allowed_domains = [‘chouti.com‘]
    # start_urls = [‘http://dig.chouti.com/‘]
    start_urls = [‘http://www.autohome.com.cn/news‘]

    visited_urls = set()
    def parse(self, response):
        hax = Selector(response=response).xpath(‘//div[@id="dig_lepage"]//a/@href‘).extract()
        for url in hax:
            md5_url = self.md5(url)
            if url in self.visited_urls:
                print(‘已经存在‘)
            else:
                self.visited_urls.add(md5_url)
                print(url)

    def md5(self,url):
        import hashlib
        obj = hashlib.md5()
        obj.update(bytes(url,encoding=‘utf-8‘))
        return obj.hexdigest()

5.2)获取该网站的所有页面

# -*- coding: utf-8 -*-
import scrapy
from scrapy.selector import Selector,HtmlXPathSelector
from scrapy.http import Request
import sys
import io
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding=‘gb18030‘)   # 处理显示编码

class ChoutiSpider(scrapy.Spider):
    name = ‘chouti‘
    allowed_domains = [‘chouti.com‘]
    # start_urls = [‘http://dig.chouti.com/‘]
    start_urls = [‘http://www.autohome.com.cn/news‘]

    visited_urls = set()
    def parse(self, response):
        hax = Selector(response=response).xpath(‘//a[starts-with(@href, "/all/hot/recent/")]/@href‘).extract()
        for url in hax:
            md5_url = self.md5(url)
            if url in self.visited_urls:
                pass
            else:
                print(url)
                self.visited_urls.add(md5_url)
                url = "http://dig.chouti.com%s" %url
                # 将新要访问的url添加到调度器
                yield Request(url=url,callback=self.parse)

    def md5(self,url):
        import hashlib
        obj = hashlib.md5()
        obj.update(bytes(url,encoding=‘utf-8‘))
        return obj.hexdigest()

5.3)设置访问深度,即不获取到所有的页面,递归寻找的层数

#配置文件最后写入
DEPIH_LIMIT = 1

setting.py

6)数据保存操作

配置文件取消注释pipeline

ITEM_PIPELINES = {
   ‘Project.pipelines.ProjectPipeline‘: 300,
}

settings.py

定义保存的数据类字段名

class ChoutiItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    href = scrapy.Field()

items.py

将获取的对象传递给pipelines进行持久化保存

    def parse(self, response):
        hxs1 = Selector(response=response).xpath(‘//div[@id="content-list"]/div[@class="item"]‘)  # 标签对象列表
        for obj in hxs1:
            title = obj.xpath(‘.//a[@class="show-content"]/text()‘).extract_first().strip()
            href =  obj.xpath(‘.//a[@class="show-content"]/@href‘).extract_first().strip()
            item_obj = ChoutiItem(title=title,href=href)
            # 将item 对象传递给pipeline
            yield item_obj

6.1)写入文件

class ProjectPipeline(object):
    def process_item(self, item, spider):
        print(spider,item)
        tpl = "%s\n%s\n\n" %(item[‘item‘],item[‘href‘])
        f = open(‘news.json‘,‘a‘)
        f.write(tpl)
        f.close()

pipeline.py

7)知识小结

命令:
    scrapy startproject xxx
    cd xxx
    scrapy genspider name  name.com
    scrapy crawl name
编写代码:
    a. name不能省略
    b. start_urls,起始URL地址
    c. allowed_domains = ["chouti.com"] 允许的域名
    d. 重写start_requests,指定初始处理请求的函数
            def start_requests(self):
                for url in self.start_urls:
                    yield Request(url,callback=self.parse1)
    e. 响应response
        repsonse.url
        repsonse.text
        repsonse.body
        response.meta = {‘depth‘: ‘深度’}

    f. 采集数据

        Selector(response=response).xpath()
        //div
        //div[@id="i1"]
        //div[starts-with(@id,"i1")]
        //div[re:test(@id,"i1")]
        //div/a
        #
        obj.xpath(‘./‘)
        obj.xpath(‘.//‘)

        //div/a/text()
        //div/a/@href

        Selector().extract()
        Selector().extract_first()

        //a[@id]
        //a/@id

    g. yield Request(url=‘‘,callback=‘xx‘)

    h. yield Item(name=‘xx‘,titile=‘xxx‘)

    i. pipeline

        class Foo:
            def process_item(self,item,spider):
                ....

        settings = {
            "xx.xx.xxx.Foo1": 300,        # 谁小谁先执行
            "xx.xx.xxx.Foo2": 400,
        }

知识点小结

二、scrapy框架知识补充

from scrapy.dupefilter import RFPDupeFilter     # 查看去重的url源代码,在编写自己的

1)自定义类,url去重,内容保存方式

class RepeatFilter(object):
    def __init__(self):
        # 2
        self.visited_set = set()
    @classmethod
    def from_settings(cls, settings):
        # 1
        return cls()

    def request_seen(self, request):
        # 4
        if request.url in self.visited_set:
            return True
        self.visited_set.add(request.url)
        return False

    def open(self):  # can return deferred
        # 3
        # print(‘open‘)
        pass

    def close(self, reason):  # can return a deferred
        # 5
        # print(‘close‘)
        pass
    def log(self, request, spider):  # log that a request has been filtered
        # print(‘log....‘)
        pass

duplication.py

配置文件引入自定义类

DUPEFILTER_CLASS = "day96.duplication.RepeatFilter" # 自定义的
# DUPEFILTER_CLASS = "scrapy.dupefilters.RFPDupeFilter"     # scrapy框架自带的 

配置文件引用自定义类

主逻辑文件调用回调函数

class ChoutiSpider(scrapy.Spider):
    name = ‘chouti‘
    allowed_domains = [‘chouti.com‘]
    # start_urls = [‘http://dig.chouti.com/‘]
    start_urls = [‘http://www.autohome.com.cn/news‘]

    def parse(self, response):
        hax2 = Selector(response=response).xpath(‘//a[starts-with(@href, "/all/hot/recent/")]/@href‘).extract()
        for url in hax2:
            url = "http://dig.chouti.com%s" %url
            yield Request(url=url,callback=self.parse)

chouti.py

2.1)pipelines数据库持久化补充(分工明细)

class ProjectPipeline(object):
    def __init__(self,conn_str):
        # 数据的初始化
        self.conn_str = conn_str

    @classmethod
    def from_crawler(cls, crawler):
        """
        初始化时候,用于创建pipeline对象,读取配置文件
        :param crawler:
        :return:
        """
        conn_str = crawler.settings.get(‘DB‘)
        return cls(conn_str)

    def open_spider(self,spider):
        """
        爬虫开始执行时,调用
        :param spider:
        :return:
        """
        print(‘000000‘)
        self.conn = open(self.conn_str,‘a‘)

    def close_spider(self,spider):
        """
        爬虫关闭时,被调用
        :param spider:
        :return:
        """
        print(‘1111111‘)
        self.conn.close()

    def process_item(self, item, spider):
        # 每当数据需要持久化时,就需要被调用
        # if spider.name == "chouti":
        tpl = "%s\n%s\n\n" %(item[‘item‘],item[‘href‘])
        self.conn.write(tpl)

pipelines.py

2.2)如果有多个pipelines时,是否考虑让下一个执行

配置文件配置pipelines。根据执行顺序考虑谁先谁后

ITEM_PIPELINES = {
   ‘day96.pipelines.Day96Pipeline‘: 300,
   ‘day96.pipelines.Day97Pipeline‘: 200,
}

settings.py

from scrapy.exceptions import DropItem

根据返回值决定是否交给下一个pipelines执行

class ProjectPipeline(object):
    def __init__(self,conn_str):
        # 数据的初始化
        self.conn_str = conn_str

    @classmethod
    def from_crawler(cls, crawler):
        """
        初始化时候,用于创建pipeline对象,读取配置文件
        :param crawler:
        :return:
        """
        conn_str = crawler.settings.get(‘DB‘)
        return cls(conn_str)

    def open_spider(self,spider):
        """
        爬虫开始执行时,调用
        :param spider:
        :return:
        """
        print(‘000000‘)
        self.conn = open(self.conn_str,‘a‘)

    def close_spider(self,spider):
        """
        爬虫关闭时,被调用
        :param spider:
        :return:
        """
        print(‘1111111‘)
        self.conn.close()

    def process_item(self, item, spider):
        # 每当数据需要持久化时,就需要被调用
        # if spider.name == "chouti":
        tpl = "%s\n%s\n\n" %(item[‘item‘],item[‘href‘])
        self.conn.write(tpl)
        # 交给下一个pipeline处理
        return item
        # 丢弃item,不交给下一个pipeline处理
        # raise DropItem()

class ProjectPipeline2(object):
    pass

return item 或 DropItem()

2.3)pipelines总结

pipeline补充
from scrapy.exceptions import DropItem
class Day96Pipeline(object):

    def __init__(self,conn_str):
        self.conn_str = conn_str

    @classmethod
    def from_crawler(cls, crawler):
        """
        初始化时候,用于创建pipeline对象
        :param crawler:
        :return:
        """
        conn_str = crawler.settings.get(‘DB‘)
        return cls(conn_str)

    def open_spider(self,spider):
        """
        爬虫开始执行时,调用
        :param spider:
        :return:
        """
        self.conn = open(self.conn_str, ‘a‘)

    def close_spider(self,spider):
        """
        爬虫关闭时,被调用
        :param spider:
        :return:
        """
        self.conn.close()

    def process_item(self, item, spider):
        """
        每当数据需要持久化时,就会被调用
        :param item:
        :param spider:
        :return:
        """
        # if spider.name == ‘chouti‘
        tpl = "%s\n%s\n\n" %(item[‘title‘],item[‘href‘])
        self.conn.write(tpl)
        # 交给下一个pipeline处理
        return item
        # 丢弃item,不交给
        # raise DropItem()

    """
    4个方法
    crawler.settings.get(‘setting中的配置文件名称且必须大写‘)
    process_item方法中,如果抛出异常DropItem表示终止,否则继续交给后续的pipeline处理
    spider进行判断
    """

pipelines总结

3.1)使用cookie登录抽屉,验证是否成功

from scrapy.http.cookies import CookieJar  导入cookies模块

# -*- coding: utf-8 -*-
import scrapy
import sys
import io
from scrapy.http import Request
from scrapy.selector import Selector, HtmlXPathSelector
from ..items import ChoutiItem

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding=‘gb18030‘)
from scrapy.http.cookies import CookieJar

class ChoutiSpider(scrapy.Spider):
    name = "chouti"
    allowed_domains = ["chouti.com",]
    start_urls = [‘http://dig.chouti.com/‘]

    def parse(self, response):
        cookie_obj = CookieJar()
        cookie_obj.extract_cookies(response,response.request)
        # print(cookie_obj._cookies)  # 查看cookie

        # 带上用户名密码+cookie
        yield Request(
            url="http://dig.chouti.com/login",
            method=‘POST‘,
            body = "phone=8615331254089&password=woshiniba&oneMonth=1",
            headers={‘Content-Type‘: "application/x-www-form-urlencoded; charset=UTF-8"},
            cookies=cookie_obj._cookies,
            callback=self.check_login
        )

    def check_login(self,response):
        print(response.text)    # 验证是否登录成功

chouti.py

登录成功的信息

3.2)首页的当前页点赞

import scrapy
import sys
import io
from scrapy.http import Request
from scrapy.selector import Selector, HtmlXPathSelector
from ..items import ChoutiItem

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding=‘gb18030‘)
from scrapy.http.cookies import CookieJar

class ChoutiSpider(scrapy.Spider):
    name = "chouti"
    allowed_domains = ["chouti.com",]
    start_urls = [‘http://dig.chouti.com/‘]

    cookie_dict = None
    def parse(self, response):
        cookie_obj = CookieJar()
        cookie_obj.extract_cookies(response,response.request)
        # print(cookie_obj._cookies)  # 查看cookie
        self.cookie_dict = cookie_obj._cookies
        # 带上用户名密码+cookie
        yield Request(
            url="http://dig.chouti.com/login",
            method=‘POST‘,
            body = "phone=8615331254089&password=woshiniba&oneMonth=1",
            headers={‘Content-Type‘: "application/x-www-form-urlencoded; charset=UTF-8"},
            cookies=cookie_obj._cookies,
            callback=self.check_login
        )

    def check_login(self,response):
        print(response.text)    # 验证是否登录成功
        # 如果成功
        yield Request(url="http://dig.chouti.com/",callback=self.good)

    def good(self,response):
        id_list = Selector(response=response).xpath(‘//div[@share-linkid]/@share-linkid‘).extract()
        for nid in id_list:
            print(nid)
            url = "http://dig.chouti.com/link/vote?linksId=%s" % nid
            yield Request(
                url=url,
                method="POST",
                cookies=self.cookie_dict,
                callback=self.show  # 对发送点赞请求的返回数据
            )

    def show(self,response):
        # 查看是否点赞成功
        print(response.text)

chouti.py

3.3)为所有的页面点赞

# -*- coding: utf-8 -*-
import scrapy
import sys
import io
from scrapy.http import Request
from scrapy.selector import Selector, HtmlXPathSelector
from ..items import ChoutiItem

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding=‘gb18030‘)
from scrapy.http.cookies import CookieJar

class ChoutiSpider(scrapy.Spider):
    name = "chouti"
    allowed_domains = ["chouti.com",]
    start_urls = [‘http://dig.chouti.com/‘]

    cookie_dict = None
    def parse(self, response):
        cookie_obj = CookieJar()
        cookie_obj.extract_cookies(response,response.request)
        # print(cookie_obj._cookies)  # 查看cookie
        self.cookie_dict = cookie_obj._cookies
        # 带上用户名密码+cookie
        yield Request(
            url="http://dig.chouti.com/login",
            method=‘POST‘,
            body = "phone=8615331254089&password=woshiniba&oneMonth=1",
            headers={‘Content-Type‘: "application/x-www-form-urlencoded; charset=UTF-8"},
            cookies=cookie_obj._cookies,
            callback=self.check_login
        )

    def check_login(self,response):
        print(response.text)    # 验证是否登录成功
        # 如果成功
        yield Request(url="http://dig.chouti.com/",callback=self.good)

    def good(self,response):
        id_list = Selector(response=response).xpath(‘//div[@share-linkid]/@share-linkid‘).extract()
        for nid in id_list:
            print(nid)
            url = "http://dig.chouti.com/link/vote?linksId=%s" % nid
            yield Request(
                url=url,
                method="POST",
                cookies=self.cookie_dict,
                callback=self.show  # 对发送点赞请求的返回数据
            )

        # 找到所有的页面
        page_urls = Selector(response=response).xpath(‘//div[@id="dig_lcpage"]//a/@href‘).extract()
        for page in page_urls:
            url = "http://dig.chouti.com%s" % page
            yield Request(url=url,callback=self.good)   # 回调自己,为所有的页面内容点赞

    def show(self,response):
        # 查看是否点赞成功
        print(response.text)

chouti.py

配置文件设置访问深度,可以指定到页面的深度点赞

3.4)cookies小结

Cookie问题
from scrapy.http.cookies import CookieJar
cookie_obj = CookieJar()
cookie_obj.extract_cookies(response,response.request)
print(cookie_obj._cookies)

cookies使用小结

4)scrapy框架扩展

from scrapy.extensions.telnet import TelnetConsole   查看模拟扩展的源代码

自定义扩展内容

from scrapy import signals
class MyExtend:

    def __init__(self,crawler):
        self.crawler = crawler
        # 钩子上挂障碍物
        # 在指定信号上注册操作
        crawler.signals.connect(self.start, signals.engine_started)
        crawler.signals.connect(self.close, signals.spider_closed)

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler)

    def start(self):
        print(‘signals.engine_started.start‘)

    def close(self):
        print(‘signals.spider_closed.close‘)

extensions.py

配置文件引入extension.py

EXTENSIONS = {
   # ‘scrapy.extensions.telnet.TelnetConsole‘: None,
    ‘day96.extensions.MyExtend‘: 300,
}

settings.py

5)配置文件详解

# 设置浏览器信息
#USER_AGENT = ‘day96 (+http://www.yourdomain.com)‘
USER_AGENT = ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36‘

# Obey robots.txt rules
# 不遵守爬虫规则,任意爬
ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32  一次可发出32个请求。默认是16

#DOWNLOAD_DELAY = 3  # 执行过程慢一点,太快了,可能被封

# CONCURRENT_REQUESTS_PER_DOMAIN = 16    # 每个域名并发16个请求
# CONCURRENT_REQUESTS_PER_IP = 16        # 每一个ip 并发16个请求

# Disable cookies (enabled by default)
# COOKIES_ENABLED = True    # 是否爬取cookies,默认是True
# COOKIES_DEBUG = True        # 是否是调试模式,调试模式拿取cookies

TELNETCONSOLE_ENABLED = True  # telnet 127.0.0.1 6023 监听爬虫

# 设置请求头
# Override the default request headers:
#DEFAULT_REQUEST_HEADERS = {
#   ‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8‘,
#   ‘Accept-Language‘: ‘en‘,
#}

# 智能限速
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
#AUTOTHROTTLE_START_DELAY = 5    # 第一个请求延迟5秒
# The maximum download delay to be set in case of high latencies
#AUTOTHROTTLE_MAX_DELAY = 60    # 最大延迟60秒
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False

DEPTH_LIMIT = 4
DEPTH_PRIORITY = 0 # 1  # 只能是0和1,深度优先还是广度优先。深度:0;广度1

settings解释

原文地址:https://www.cnblogs.com/linu/p/9689633.html

时间: 2024-08-30 12:21:00

Scrapy框架爬虫的相关文章

第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息

第三百三十四节,web爬虫讲解2-Scrapy框架爬虫-Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻标题和rul地址 有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息,那么这种一般都是 js 的 Ajax 动态请求生成的信息 我们以百度新闻为列: 1.分析网站 首先我们浏览器打开百度新闻,在网页中间部分找一条新闻信息 然后查看源码,看看在源码里是否有

第三百三十三节,web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies

第三百三十三节,web爬虫讲解2-Scrapy框架爬虫-Scrapy模拟浏览器登录 模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于start_urls,start_requests()返回的请求会替代start_urls里的请求 Request()get请求,可以设置,url.cookie.回调函数 FormRequest.from_response()表单post提交,第一个必须参数,上一次响应cookie的response对象,其

Python爬虫进阶(Scrapy框架爬虫)

准备工作:           配置环境问题什么的我昨天已经写了,那么今天直接安装三个库                        首先第一步:                            (我们要用到scrapy框架,在python里调用windows 命令,使用mongodb存储爬到的数据 )                                  进入DOS python/Script>路径下  输入命令: python/Script> pip install p

web爬虫讲解—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies

模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于start_urls,start_requests()返回的请求会替代start_urls里的请求 Request()get请求,可以设置,url.cookie.回调函数 FormRequest.from_response()表单post提交,第一个必须参数,上一次响应cookie的response对象,其他参数,cookie.url.表单内容等 yield Request()可以将一个新

web爬虫讲解—Scrapy框架爬虫—Scrapy安装—Scrapy指令

Scrapy框架安装 1.首先,终端执行命令升级pip: python -m pip install --upgrade pip2.安装,wheel(建议网络安装) pip install wheel3.安装,lxml(建议下载安装)4.安装,Twisted(建议下载安装)5.安装,Scrapy(建议网络安装) pip install Scrapy 测试Scrapy是否安装成功 Scrapy框架指令 scrapy -h 查看帮助信息 Available commands: bench Run q

Scrapy框架爬虫初探——中关村在线手机参数数据爬取

关于Scrapy如何安装部署的文章已经相当多了,但是网上实战的例子还不是很多,近来正好在学习该爬虫框架,就简单写了个Spider Demo来实践.作为硬件数码控,我选择了经常光顾的中关村在线的手机页面进行爬取,大体思路如下图所示. 1 # coding:utf-8 2 import scrapy 3 import re 4 import os 5 import sqlite3 6 from myspider.items import SpiderItem 7 8 9 class ZolSpide

web爬虫讲解—Scrapy框架爬虫—Scrapy使用

xpath表达式 //x 表示向下查找n层指定标签,如://div 表示查找所有div标签 /x 表示向下查找一层指定的标签 /@x 表示查找指定属性的值,可以连缀如:@id @src [@属性名称="属性值"]表示查找指定属性等于指定值的标签,可以连缀 ,如查找class名称等于指定名称的标签 /text() 获取标签文本类容 [x] 通过索引获取集合里的指定一个元素 1.将xpath表达式过滤出来的结果进行正则匹配,用正则取最终内容最后.re('正则') xpath('//div[

web爬虫讲解—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息

crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址 有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息,那么这种一般都是 js 的 Ajax 动态请求生成的信息 我们以百度新闻为列: 1.分析网站 首先我们浏览器打开百度新闻,在网页中间部分找一条新闻信息 然后查看源码,看看在源码里是否有这条新闻,可以看到源文件里没有这条信息,这种情况爬虫是无法爬取到信息的 那么我们就需要抓包分析了,启动抓包软件和抓包

scrapy框架整理

0.安装scrapy框架 pip install scrapy 注:找不到的库,或者安装部分库报错,去python第三方库中找,很详细 https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud 1.创建一个scrapy框架 scrapy startproject 项目名 2.使用scrapy框架爬虫的三个步骤 a.配置items文件,确定需要爬取的字段 b.配置pipeline文件,确定文件的存储方式,并在setting文件中配置管道文件 注:如