爬取厦门地区职务表

1. 查找网址http://fj.huatu.com/zt/2019zwb/diqu/9.html

2.找到源代码

3.爬取所需内容

4.编写程序

import requests
from bs4 import BeautifulSoup
import pandas as pd
url="http://fj.huatu.com/zt/2019zwb/diqu/9.html"#爬取厦门职务
headers= {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400‘}#伪装爬虫
r=requests.get(url)#发送请求
r.encoding=r.apparent_encoding#统一编码
data=r.text
soup=BeautifulSoup(data,‘html.parser‘)#使用“美味的汤”工具
x=[]#建立空列表
y=[]
for i in soup.find_all(class_="job_title"):#将目录放在空列表
x.append(i.get_text().strip())
for k in soup.find_all(class_="job_content"):#将职位放在空列表
y.append(k.get_text().strip())
data=[x,y]
a=pd.DataFrame(data,index=["目录","职位"])#数据可视化
print("2019年厦门地区职位数据:","\n")#打印
print(a.T)

5.运行结果

原文地址：https://www.cnblogs.com/w-625/p/12536455.html

时间： 2024-11-02 17:17:30

爬取厦门地区职务表的相关文章

爬取福州地区职位数据

从网页源代码中找到我们需要爬取的标签且是html结构,爬取目标为class=’job_titile'和class='job_content' import requests from bs4 import BeautifulSoup import bs4 import pandas as pd #引用工具 url = 'http://fj.huatu.com/zt/2019zwb/diqu/1.html' def job(s):#定义函数 try: headers = {'User-Agent'

python3 爬虫学习-根据关键词爬取百度百科内容

小白编了好久才写出来,记录一下免得之后再用的时候都忘了还得重新学~ 学习爬虫最开始是学习了慕课上的python课程,然后学习了慕课和网易云上的爬虫教程.这两个自己去查一下就好了~ 开始还比较费劲,毕竟熟悉需要时间么,而且python也不太熟悉. 关于python版本:我一开始看很多资料说python2比较好,因为很多库还不支持3,但是使用到现在为止觉得还是pythin3比较好用,因为编码什么的问题,觉得2还是没有3方便.而且在网上找到的2中的一些资料稍微改一下也还是可以用. 好了,开始说爬百度百

23个Python爬虫开源项目代码：爬取微信、淘宝、豆瓣、知乎、微博等

来源:全球人工智能作者:SFLYQ 今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [1]– 微信公众号爬虫. 基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典. github地址:https://github.com/Chyroc/WechatSogou 2.DouBanSpider [2]– 豆瓣

定时爬虫系统(以爬取[百度7日关注]为例)

1.web.xml加载servlet 1 <?xml version="1.0" encoding="UTF-8"?> 2 <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="http://java.sun.com/xml/ns/javaee" xsi:schemaLocation="http://java.su

Python爬取链家二手房数据——重庆地区

最近在学习数据分析的相关知识,打算找一份数据做训练,于是就打算用Python爬取链家在重庆地区的二手房数据. 链家的页面如下: 爬取代码如下: import requests, json, time from bs4 import BeautifulSoup import re, csv def parse_one_page(url): headers={ 'user-agent':'Mozilla/5.0' } r = requests.get(url, headers=headers) so

麦田厦门下区信息数据爬取

刚开始爬取的时候没有用headers伪装成是浏览器,导致麦田北京和福州小区把我的ip给禁掉了,还好后来发现原因也还剩下厦门小区没被我弄坏,代码如下: #-*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup page_url = "http://xm.maitian.cn/xqall" headers = {"User-Agent":"Mozilla/5.0 (X11; Linu

Python 爬取 13 个旅游城市，告诉你五一大家最爱去哪玩？

五一假期已经结束,小伙伴是不是都还没有玩过瘾?但是没办法,还有很多bug等着我们去写,同样还有需要money需要我们去赚.为了生活总的拼搏. 今年五一放了四天假,很多人不再只是选择周边游,因为时间充裕,选择了稍微远一点的景区,甚至出国游.各个景点成了人山人海,拥挤的人群,甚至去卫生间都要排队半天,那一刻我突然有点理解灭霸的行为了. 今天,通过分析去哪儿网部分城市门票售卖情况,简单的分析一下哪些景点比较受欢迎.等下次假期可以做个参考. 通过请求https://piao.qunar.com/tick

告诉你那里最受欢迎，python爬取全国13个城市旅游数据

前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun 抓取数据通过请求https://piao.qunar.com/ticket/list.htm?keyword=北京,获取北京地区热门景区信息,再通过BeautifulSoup去分析提取出我们需要的信息. 这里爬取了前4页的景点信息,每页有15个景点.因为去哪儿并没

爬虫概念与编程学习之如何爬取视频网站页面（用HttpClient）（二）

先看,前一期博客,理清好思路. 爬虫概念与编程学习之如何爬取网页源代码(一) 不多说,直接上代码. 编写代码运行 <!DOCTYPE html><html><head><meta http-equiv="X-UA-Compatible" content="IE=Edge" /><meta http-equiv="Content-Type" content="text/html; c

猜你喜欢

模拟创建类变量，static变量加类方法，单例

@interface Model + (int) value; + (void) setValue:(int)val; @end @implementation Model static int va ...

YCSB性能测试工具使用

在网上查In-Memory NoSQL性能测试的资料时,偶然间发现了这个性能测试工具YCSB,全称为"Yahoo! Cloud Serving Benchmark".它内置了对常见 ...

SAR ADC ：逐次逼近寄存器型(SAR)模数转换器(ADC)

1.为实现二进制搜索算法,N位寄存器首先设置在中间刻度(即:100... .00,MSB设置为1).这样,DAC输出(VDAC)被设为VREF/2,VREF是提供给ADC的基准电压.然后,比较判断VI ...

JS 基础事件的用法

// 1.9以上用on // 案例一 // $('#btn').on('click', function(){ // //console.log(1); // alert('测试...'); // } ...

Apache 2.2 到 2.4的不同

1.权限设定方式变更 2.2使用Order Deny / Allow的方式,2.4改用Require apache2.2: Order deny,allowDeny from allapache2.4 ...

离线安装SharePoint 2013

在无网络或网络不发达的地方,只能离线安装,以下内容是根据自己离线安装过程记录下来的,不一定对所有人适用. 手动以管理员身份顺序安装sqlncli.msi.Windows6.1-KB2506143-x6 ...

centos7 新安装基础配置

1)关闭selinux 使用getenforce 可以查看selinux的状态 [[email protected] ~]$ getenforce Enforcing 或者使用sestatus [[e ...

[daily][optimize] 去吃面（python类型转换函数引申的性能优化）（未完待续）

前天,20161012,到望京面试.第四个职位,终于进了二面.好么,结果人力安排完了面试时间竟然没有通知我,也没有收到短信邀请.如果没有短信邀请门口的保安大哥是不让我进去大厦的.然后,我在11号接到了 ...

微信开发--自动回复图片

先上传图片获得media_id <?php define("AppID",""); define("AppSecret", " ...

UDP 发送常见问题

1. udp 理论长度 2^16 - udp head - iphead 所以,字节数肯定要小于65535 2. 3. 4. 发送长度不能太大,固定位1024吧

Python入门 [Day 1] #Python学习

开始学Python,到Udacity学习Use functions章节. 主要熟悉了一下Python工作环境,语句Syntax,跟着编写两个小程序. 在https://www.python.org/d ...

【UE】常用的UltraEdit使用技巧

Tip 1: Alt+C 列模式可以说最初选择使用这个文本编辑软件,原因很简单,就是因为"她"具有列编辑模式.如果您还不知道什么是列编辑模式的话,我想您应该好好研究一下啦.这是一个 ...

iOS开发数据持久化技术02——plist介绍

有疑问的请加qq交流群:390438081 我的QQ:604886384(注明来意) 微信:niuting823 1. 简介:属性列表是一种xml格式的文件,扩展名.plist: 2. 特性:plis ...

告诉你 IOS7.0 之后的Bitcode到底是什么！！

用Xcode 7 beta 3在真机(iOS 8.3)上运行一下工程,结果发现工程编译不过.看了下问题,报的是以下错误: ld: ‘/Users/**/Framework/SDKs/PolymerPa ...

boost thread

#include <cassert> #include <iostream> #include <boost/ref.hpp> #include <boost ...

svn的搭建和和文件检出与提交

1,安装SVN服务端直接用apt-get或yum安装subversion即可(当然也可以自己去官方下载安装) sudo apt-get install subversion 2,创建版本库 svna ...

如何创建.gitignore文件，忽略git不必要提交的文件

touch .gitignore 在项目目录里输入以上名利后,会自动生成一个文件 .gitignore,可在文件里写入忽略的文件名,例如 node_modules coverage .idea npm ...

RabbitMQ整合spring

1 <?xml version="1.0" encoding="UTF-8"?> 2 <beans xmlns="http://ww ...

node在Fedora 22系统下开发环境搭建

事实上,环境搭建在linux系统还是比較简单的,下载已经编译好的包,配置一下环境变量. 或者下载源代码,自己编译. 这里记录一下,主要是node版本号变化节奏很块的情况下.怎样配置一次环境变量就不要再 ...

Why SignalR does not use WebSockets?

Why SignalR does not use WebSockets? As you probably know SignalR supports multiple transports. The ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.