拉钩网————爬取尝试

#拉勾网需要User-Agent请求头才能获取到内容

from urllib import request

url="https://www.lagou.com/jobs/list_python%20?labelWords=&fromSearch=true&suginput="

headers = {
‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36‘
}

req = request.Request(url,headers=headers)

resp = request.urlopen(req)

print(resp.read())

2.json解析后的内容

3.尝试获取（需要User-Agent请求头以及Referer）

from urllib import request,parse

#需要User-Agent请求头以及Referer

# url="https://www.lagou.com/jobs/list_python%20?labelWords=&fromSearch=true&suginput="
urlajax="https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false"

headers = {
‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.96 Safari/537.36‘,
 ‘Referer‘: ‘https://www.lagou.com/jobs/list_python%20?labelWords=&fromSearch=true&suginput=‘
}

data={
‘first‘:‘true‘,
‘pn‘:1,
‘kd‘:‘python‘
}

req = request.Request(urlajax,headers=headers,data=parse.urlencode(data).encode(‘utf-8‘),method=‘POST‘)

resp = request.urlopen(req)

print(resp.read().decode(‘utf-8‘))

原文地址：https://www.cnblogs.com/834477300j/p/9424886.html

时间： 2024-11-01 12:09:52

拉钩网————爬取尝试的相关文章

拉钩网爬取所有python职位信息

最近在找工作,所以爬取了拉钩网的全部python职位,以便给自己提供一个方向.拉钩网的数据还是比较容易爬取的,得到json数据直接解析就行,废话不多说, 直接贴代码: 1 import json 2 import urllib 3 import urllib2 4 from openpyxl import load_workbook 5 filename = 'E:\excel\position_number_11_2.xlsx' 6 ws = load_workbook(filename=fi

Python爬取句子迷-莎士比亚语录

爬取句子迷--莎士比亚语录(约2290个句子,229个分页) 这个练手的过程,在我不使用IP代理的情况下,我使用的IP惨遭封禁数次,好在隔几个小时就会被解封,但我却好比黏人的鼻涕虫一般,句子不给我,我就不走了,哼哼. 工具使用的是 Python3.7 + requests + BeautifulSoup4 + 线程首先句子迷是具有一定反爬程序的,具体是怎样的就不清楚,但是文字还是整整齐齐摆放着,这个还是很友好的,前端页面分析完就开始我数次爬取尝试. 第一次尝试爬取数据规规矩矩的在边缘试探,结

selelinum+PhantomJS 爬取拉钩网职位

使用selenium+PhantomJS爬取拉钩网职位信息,保存在csv文件至本地磁盘拉钩网的职位页面,点击下一页,职位信息加载,但是浏览器的url的不变,说明数据不是发送get请求得到的. 我们不去寻找它的API.这里使用另一种方式:使用PhantomJS模拟浏览,通过单击页面获取下一页. 这里的PhantomJS是一个没有界面的浏览器. 1 from selenium import webdriver 2 import time 3 import random 4 5 from selen

使用nodejs爬取拉勾苏州和上海的.NET职位信息

最近开始找工作,本人苏州,面了几家都没有结果很是伤心.在拉勾上按照城市苏州关键字.NET来搜索一共才80来个职位,再用薪水一过滤,基本上没几个能投了.再加上最近苏州的房价蹭蹭的长,房贷压力也是非常大,所以有点想往上海去发展.闲来无聊写了个小爬虫,爬了下苏州跟上海的.NET职位的信息,然后简单对比了一下. 是的小弟擅长.NET,为啥用nodejs?因为前几天有家公司给了个机会可以转nodejs,所以我是用来练手的,不过后来也泡汤了,但是还是花两晚写完了.刚学,代码丑轻喷哈! 一:如何爬取拉勾的数据

爬取拉钩全站的职位信息

爬虫学习到今天也告一段落了,利用一个项目把自己这几个月的所学的知识来做一次总结项目所需要的知识比较全面,很适合练手, 一程序目的爬取拉钩全站的职位信息存入mysql和mongodb中二所用到的方法一利用selenium登录拉钩取得cookies 二利用redis保存selenium登录拉钩取得cookies信息,维护一个cookie池三爬取西刺等免费IP网站,并用redis维护一个IP池四利用flask把cookies和ip分别映射到网页中,用requsets得到. 五

21天打造分布式爬虫-Selenium爬取拉钩职位信息（六）

6.1.爬取第一页的职位信息第一页职位信息 from selenium import webdriver from lxml import etree import re import time class LagouSpider(object): def __init__(self): self.driver = webdriver.Chrome() #python职位 self.url = 'https://www.lagou.com/jobs/list_python?labelWords

CrawlSpider爬取拉钩

CrawlSpider继承Spider,提供了强大的爬取规则(Rule)供使用填充custom_settings,浏览器中的请求头 from datetime import datetime import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from ArticleSpider.items import LagouJobItem,

使用selenium动态渲染爬取拉勾网上450个java职位的信息

开始这个小项目的时候要确保你的电脑中有装上selenium以及相应的浏览器驱动,还有别忘了Mongodb数据库我们首先打开拉勾网的官网查看下基本的页面元素当我在搜索框中输入java的时候,url如下,当我想用下面的url进行抓取的时候,我发现事情并不简单. 我点击下一页的时候发现,url并没有变化,所以并不能用最基本的抓取方法了,而改为ajax请求进行抓取当我查看ajax请求的时候,发现事情又不简单的了,这个分页的请求带的参数时Form data,也就是表单形式的参数, 所以,拉勾网上的a

爬虫---爬取拉钩信息网

今天不知道写点什么,想到金9银10了写一篇抓取拉勾网我们软件测试工程师的薪资~~ 爬取拉勾网职业信息分析网站信息 1.打开拉勾网,输入我们想要查找的职位 2.通过抓包工具或者开发者工具查看请求数据发现是请求地址:https://www.lagou.com/jobs/positionAjax.json?city=%E4%B8%8A%E6%B5%B7&needAddtionalResult=false 通过post形式请求的,请求参数也可以看到 4.分析页面数据通过分析,数据已json的格式存