爬虫篇-使用cookie,user-agent简单爬数据

  爬取网页数据有很多方法,我知道的就有:

1、scrapy框架,创建scrapy框架文件夹,在spider文件写上请求函数,文件保存函数等等

2、导入requests模块请求,写上请求函数和保存函数。

  方法很多种,今天这章节是做简单的爬取方式了。根据cookie,user-agent请求数据。

1、导入requests模块

  

import requests

2、可以写一个函数,也可以直接写代码,本人觉得写函数会比较有秩序。def run():    headers = {

def run():  headers:{#假装自己是浏览器
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36‘,
    #把登录的cookie复制进来
        ‘Cookie‘: ‘xxx‘,
    }
#创建一个会话
    session = requests.Session()
#请求网页
    response = session.get(‘https://i.51job.com/userset/my_51job.php‘,headers = headers)
#改为网页的编码gbk形式,不然会乱码
    #response.encoding=‘gbk‘
    #a = response.text保存成为txt文件,注意:查看网页编码,如果是‘utf-8‘,那么f.write(response.content.decode(‘utf-8‘))
  with open(‘a.text‘,‘w‘) as f:
        f.write(response.content.decode(‘gbk‘))

写完了函数,最后就要调用此函数。

if __name__==‘__main__‘:
    run()

运行成功,和这个py文件同目录下就可以看到一个a.text文本,可以看到这个就是网页请求的内容了

原文地址:https://www.cnblogs.com/yunsi/p/11888246.html

时间: 2024-10-11 10:43:00

爬虫篇-使用cookie,user-agent简单爬数据的相关文章

python简单爬数据(这两个成功了)

这两个做的比较早,也比较幸运,成功做出来了,把代码扔在这里 老师叫我从两个网站上弄点数据,数据不多,但是要分月份,小时,经度,纬度,虽然不用排列组合还是挺麻烦的 人生苦短,我用Python 之前就大半年前看了看语法,没有实践过,数据的网页也比较简单,也算是拿来练练手 代码里面已经包含了目标网址,就不具体介绍了,保存下来的是网页,还需要一个脚本来处理一下,这个比较简单也就不放了. 1 #!usr/bin/python import requests import time import sys #

python简单爬数据

失败了,即使跟Firefox看到的headers,参数一模一样都不行,爬出来有网页,但是就是不给数据,尝试禁用了js,然后看到了cookie(不禁用js是没有cookie的),用这个cookie爬,还是不行,隔了时间再看,cookie的内容也并没有变化,有点受挫,但还是发出来,也算给自己留个小任务啥的 如果有大佬经过,还望不吝赐教 另外另两个网站的脚本都可以用,过会直接放下代码,过程就不说了 目标网站 http://www.geomag.bgs.ac.uk/data_service/models

七夜在线音乐台开发 第三弹 爬虫篇 (原创)

上一篇咱们讲到了七夜音乐台的需求和所需要的技术.咱们今天就讲一下爬虫,为什么要讲爬虫,因为音乐台的数据源需要通过爬虫来获取,不可能手动来下载.下图是一个网络爬虫的基本框架: 网络爬虫的基本工作流程如下:     1.首先选取一部分精心挑选的种子URL: 2.将这些URL放入待抓取URL队列:     3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中.此外,将这些URL放进已抓取URL队列.     4.分析已抓取URL

Python爬虫入门教程 2-100 妹子图网站爬取

前言 从今天开始就要撸起袖子,直接写Python爬虫了,学习语言最好的办法就是有目的的进行,所以,接下来我将用10+篇的博客,写爬图片这一件事情.希望可以做好. 为了写好爬虫,我们需要准备一个火狐浏览器,还需要准备抓包工具,抓包工具,我使用的是CentOS自带的tcpdump,加上wireshark ,这两款软件的安装和使用,建议你还是学习一下,后面我们应该会用到. 网络请求模块requests Python中的大量开源的模块使得编码变的特别简单,我们写爬虫第一个要了解的模块就是requests

Python面试重点(爬虫篇)

Python面试重点(爬虫篇) 注意:只有必答题部分计算分值,补充题不计算分值. 第一部分 必答题 注意:第31题1分,其他题均每题3分. 了解哪些基于爬虫相关的模块? requests.urllib.lxml.bs4.selenium 常见的数据解析方式? re.lxml.bs4 列举在爬虫过程中遇到的哪些比较难的反爬机制? 参数加密.数据加密 简述如何抓取动态加载数据? 获取动态ip地址 向动态id发送请求 移动端数据如何抓取? 抓取过哪些类型的数据,量级多少? 了解哪些爬虫框架? scra

爬虫5 scrapy框架2 全站爬取cnblogs, scarpy请求传参, 提高爬取效率, 下载中间件, 集成selenium, fake-useragent, 去重源码分析, 布隆过滤器, 分布式爬虫, java等语言概念补充, bilibili爬视频参考

1 全站爬取cnblogs # 1 scrapy startproject cnblogs_crawl # 2 scrapy genspider cnblogs www.cnblogs.com 示例: # cnblogs_crawl/cnblogs_crawl/spiders/cnblogs.py import scrapy from cnblogs_crawl.items import CnblogsCrawlItem from scrapy.http import Request class

分布式爬虫系统设计、实现与实战:爬取京东、苏宁易购全网手机商品数据+MySQL、HBase存储

[TOC] 1 概述 在不用爬虫框架的情况,经过多方学习,尝试实现了一个分布式爬虫系统,并且可以将数据保存到不同地方,类似MySQL.HBase等. 基于面向接口的编码思想来开发,因此这个系统具有一定的扩展性,有兴趣的朋友直接看一下代码,就能理解其设计思想,虽然代码目前来说很多地方还是比较紧耦合,但只要花些时间和精力,很多都是可抽取出来并且可配置化的. 因为时间的关系,我只写了京东和苏宁易购两个网站的爬虫,但是完全可以实现不同网站爬虫的随机调度,基于其代码结构,再写国美.天猫等的商品爬取,难度不

什么是网络爬虫?有什么用?怎么爬?一篇文章带你领略python爬虫的魅力

网络爬虫也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理.在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高. 此时,我们可以使用网络爬虫对数据信息进行自动采集,比如应用于搜索引擎中对站点进行爬取收录,应用于数据分析与挖掘中对数据进行采集,应用于金融分析中对金融数据进行采集,除此之外,还可以将网络爬虫应用于舆情监测与分析.目标客户数据的收集等各个领域. 当然,要学习网络爬虫开发,首先需要认识网络爬虫,本文将带领大家一起认识

爬虫概念与编程学习之如何爬取视频网站页面(用HttpClient)(二)

先看,前一期博客,理清好思路. 爬虫概念与编程学习之如何爬取网页源代码(一) 不多说,直接上代码. 编写代码 运行 <!DOCTYPE html><html><head><meta http-equiv="X-UA-Compatible" content="IE=Edge" /><meta http-equiv="Content-Type" content="text/html; c