爬取厦门地区职务表

1. 查找网址http://fj.huatu.com/zt/2019zwb/diqu/9.html

2.找到源代码

3.爬取所需内容

4.编写程序

import requests
from bs4 import BeautifulSoup
import pandas as pd
url="http://fj.huatu.com/zt/2019zwb/diqu/9.html"#爬取厦门职务
headers= {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400‘}#伪装爬虫
r=requests.get(url)#发送请求
r.encoding=r.apparent_encoding#统一编码
data=r.text
soup=BeautifulSoup(data,‘html.parser‘)#使用“美味的汤”工具
x=[]#建立空列表
y=[]
for i in soup.find_all(class_="job_title"):#将目录放在空列表
x.append(i.get_text().strip())
for k in soup.find_all(class_="job_content"):#将职位放在空列表
y.append(k.get_text().strip())
data=[x,y]
a=pd.DataFrame(data,index=["目录","职位"])#数据可视化
print("2019年厦门地区职位数据:","\n")#打印
print(a.T)

5.运行结果

原文地址:https://www.cnblogs.com/w-625/p/12536455.html

时间: 2024-11-02 17:17:30

爬取厦门地区职务表的相关文章

爬取福州地区职位数据

从网页源代码中找到我们需要爬取的标签且是html结构,爬取目标为class=’job_titile'和class='job_content' import requests from bs4 import BeautifulSoup import bs4 import pandas as pd #引用工具 url = 'http://fj.huatu.com/zt/2019zwb/diqu/1.html' def job(s):#定义函数 try: headers = {'User-Agent'

python3 爬虫学习-根据关键词爬取百度百科内容

小白编了好久才写出来,记录一下免得之后再用的时候都忘了还得重新学~ 学习爬虫最开始是学习了慕课上的python课程,然后学习了慕课和网易云上的爬虫教程.这两个自己去查一下就好了~ 开始还比较费劲,毕竟熟悉需要时间么,而且python也不太熟悉. 关于python版本:我一开始看很多资料说python2比较好,因为很多库还不支持3,但是使用到现在为止觉得还是pythin3比较好用,因为编码什么的问题,觉得2还是没有3方便.而且在网上找到的2中的一些资料稍微改一下也还是可以用. 好了,开始说爬百度百

23个Python爬虫开源项目代码:爬取微信、淘宝、豆瓣、知乎、微博等

来源:全球人工智能 作者:SFLYQ 今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [1]– 微信公众号爬虫. 基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典. github地址:https://github.com/Chyroc/WechatSogou 2.DouBanSpider [2]– 豆瓣

定时爬虫系统(以爬取[百度7日关注]为例)

1.web.xml加载servlet 1 <?xml version="1.0" encoding="UTF-8"?> 2 <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="http://java.sun.com/xml/ns/javaee" xsi:schemaLocation="http://java.su

Python爬取链家二手房数据——重庆地区

最近在学习数据分析的相关知识,打算找一份数据做训练,于是就打算用Python爬取链家在重庆地区的二手房数据. 链家的页面如下: 爬取代码如下: import requests, json, time from bs4 import BeautifulSoup import re, csv def parse_one_page(url): headers={ 'user-agent':'Mozilla/5.0' } r = requests.get(url, headers=headers) so

麦田厦门下区信息数据爬取

刚开始爬取的时候没有用headers伪装成是浏览器,导致麦田北京和福州小区把我的ip给禁掉了,还好后来发现原因也还剩下厦门小区没被我弄坏,代码如下: #-*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup page_url = "http://xm.maitian.cn/xqall" headers = {"User-Agent":"Mozilla/5.0 (X11; Linu

Python 爬取 13 个旅游城市,告诉你五一大家最爱去哪玩?

五一假期已经结束,小伙伴是不是都还没有玩过瘾?但是没办法,还有很多bug等着我们去写,同样还有需要money需要我们去赚.为了生活总的拼搏. 今年五一放了四天假,很多人不再只是选择周边游,因为时间充裕,选择了稍微远一点的景区,甚至出国游.各个景点成了人山人海,拥挤的人群,甚至去卫生间都要排队半天,那一刻我突然有点理解灭霸的行为了. 今天,通过分析去哪儿网部分城市门票售卖情况,简单的分析一下哪些景点比较受欢迎.等下次假期可以做个参考. 通过请求https://piao.qunar.com/tick

告诉你那里最受欢迎,python爬取全国13个城市旅游数据

前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun 抓取数据 通过请求https://piao.qunar.com/ticket/list.htm?keyword=北京,获取北京地区热门景区信息,再通过BeautifulSoup去分析提取出我们需要的信息. 这里爬取了前4页的景点信息,每页有15个景点.因为去哪儿并没

爬虫概念与编程学习之如何爬取视频网站页面(用HttpClient)(二)

先看,前一期博客,理清好思路. 爬虫概念与编程学习之如何爬取网页源代码(一) 不多说,直接上代码. 编写代码 运行 <!DOCTYPE html><html><head><meta http-equiv="X-UA-Compatible" content="IE=Edge" /><meta http-equiv="Content-Type" content="text/html; c