爬虫篇-使用cookie,user-agent简单爬数据

　　爬取网页数据有很多方法，我知道的就有：

1、scrapy框架，创建scrapy框架文件夹，在spider文件写上请求函数，文件保存函数等等

2、导入requests模块请求，写上请求函数和保存函数。

　　方法很多种，今天这章节是做简单的爬取方式了。根据cookie，user-agent请求数据。

1、导入requests模块

import requests

2、可以写一个函数，也可以直接写代码，本人觉得写函数会比较有秩序。def run(): headers = {

def run():　　headers:{#假装自己是浏览器
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36‘,
    #把登录的cookie复制进来
        ‘Cookie‘: ‘xxx‘,
    }
#创建一个会话
    session = requests.Session()
#请求网页
    response = session.get(‘https://i.51job.com/userset/my_51job.php‘,headers = headers)
#改为网页的编码gbk形式，不然会乱码
    #response.encoding=‘gbk‘
    #a = response.text保存成为txt文件，注意:查看网页编码，如果是‘utf-8‘,那么f.write(response.content.decode(‘utf-8‘))

　　with open(‘a.text‘,‘w‘) as f:
        f.write(response.content.decode(‘gbk‘))

写完了函数，最后就要调用此函数。

if __name__==‘__main__‘:
    run()

运行成功，和这个py文件同目录下就可以看到一个a.text文本，可以看到这个就是网页请求的内容了

原文地址：https://www.cnblogs.com/yunsi/p/11888246.html

时间： 2024-10-11 10:43:00

爬虫篇-使用cookie,user-agent简单爬数据的相关文章

python简单爬数据（这两个成功了）

这两个做的比较早,也比较幸运,成功做出来了,把代码扔在这里老师叫我从两个网站上弄点数据,数据不多,但是要分月份,小时,经度,纬度,虽然不用排列组合还是挺麻烦的人生苦短,我用Python 之前就大半年前看了看语法,没有实践过,数据的网页也比较简单,也算是拿来练练手代码里面已经包含了目标网址,就不具体介绍了,保存下来的是网页,还需要一个脚本来处理一下,这个比较简单也就不放了. 1 #!usr/bin/python import requests import time import sys #

python简单爬数据

失败了,即使跟Firefox看到的headers,参数一模一样都不行,爬出来有网页,但是就是不给数据,尝试禁用了js,然后看到了cookie(不禁用js是没有cookie的),用这个cookie爬,还是不行,隔了时间再看,cookie的内容也并没有变化,有点受挫,但还是发出来,也算给自己留个小任务啥的如果有大佬经过,还望不吝赐教另外另两个网站的脚本都可以用,过会直接放下代码,过程就不说了目标网站 http://www.geomag.bgs.ac.uk/data_service/models

七夜在线音乐台开发第三弹爬虫篇 (原创)

上一篇咱们讲到了七夜音乐台的需求和所需要的技术.咱们今天就讲一下爬虫,为什么要讲爬虫,因为音乐台的数据源需要通过爬虫来获取,不可能手动来下载.下图是一个网络爬虫的基本框架: 网络爬虫的基本工作流程如下: 1.首先选取一部分精心挑选的种子URL: 2.将这些URL放入待抓取URL队列: 3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中.此外,将这些URL放进已抓取URL队列. 4.分析已抓取URL

Python爬虫入门教程 2-100 妹子图网站爬取

前言从今天开始就要撸起袖子,直接写Python爬虫了,学习语言最好的办法就是有目的的进行,所以,接下来我将用10+篇的博客,写爬图片这一件事情.希望可以做好. 为了写好爬虫,我们需要准备一个火狐浏览器,还需要准备抓包工具,抓包工具,我使用的是CentOS自带的tcpdump,加上wireshark ,这两款软件的安装和使用,建议你还是学习一下,后面我们应该会用到. 网络请求模块requests Python中的大量开源的模块使得编码变的特别简单,我们写爬虫第一个要了解的模块就是requests

Python面试重点（爬虫篇）

Python面试重点(爬虫篇) 注意:只有必答题部分计算分值,补充题不计算分值. 第一部分必答题注意:第31题1分,其他题均每题3分. 了解哪些基于爬虫相关的模块? requests.urllib.lxml.bs4.selenium 常见的数据解析方式? re.lxml.bs4 列举在爬虫过程中遇到的哪些比较难的反爬机制? 参数加密.数据加密简述如何抓取动态加载数据? 获取动态ip地址向动态id发送请求移动端数据如何抓取? 抓取过哪些类型的数据,量级多少? 了解哪些爬虫框架? scra

爬虫5 scrapy框架2 全站爬取cnblogs, scarpy请求传参, 提高爬取效率, 下载中间件, 集成selenium, fake-useragent, 去重源码分析, 布隆过滤器, 分布式爬虫, java等语言概念补充, bilibili爬视频参考

1 全站爬取cnblogs # 1 scrapy startproject cnblogs_crawl # 2 scrapy genspider cnblogs www.cnblogs.com 示例: # cnblogs_crawl/cnblogs_crawl/spiders/cnblogs.py import scrapy from cnblogs_crawl.items import CnblogsCrawlItem from scrapy.http import Request class