python 爬取网页简单数据---以及详细解释用法

一、准备工作（找到所需网站，获取请求头，并用到请求头）

找到所需爬取的网站（这里举拉勾网的一些静态数据的获取）----------- https://www.lagou.com/zhaopin/Python/

请求头的作用：模拟真实用户进入网站浏览数据-----------headers={ ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36‘,}
r=requests.get("https://www.lagou.com/zhaopin/Python/",headers=headers)-------------------这两行就是模拟用户进入网站
找到数据所在网页的标签（html网页右键源代码查看即可）

　　假设这里的15k-25k是我们要的数据，右键查看按箭头查看即可-----例如这里是span标签class=‘‘money‘‘(可以点击下面的控制台查看money是什么属性，有的是id=“money”这样的)------具体得看html代码

准备工作完毕

二、代码演示：（开始爬取）

　　2.1如果爬取的数据乱码，可以加入这三句话，定义输出格式

import io
import sys
sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding=‘gb18030‘)

　　2.2爬取职位等相关信息（完整代码)

import requests
import re
import itertools
from bs4 import BeautifulSoup
import io
import sys
sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding=‘gb18030‘)

headers={ ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36‘,}-------------请求头

r=requests.get("https://www.lagou.com/zhaopin/Python/",headers=headers)---------------请求该网页
r.encoding=r.apparent_encoding
result=r.text------------------------------------------获取网页文档
bs=BeautifulSoup(result,‘html.parser‘)
# soup.find_all(string=re.compile(‘python‘))

li1=bs.find_all(‘h3‘)-------------------------------------------查找该页面所有h3标签
# len1=len(li1)
# for i in li1:-----------------------------------------------用来测试输出的内容
#     print(i.string)

li2=bs.find_all(‘em‘)
# len2=len(li2)
# for i in li2:--------------------------------------------用来测试输出的内容
#     print(i.string)

li3=bs.find_all(‘span‘,class_="money")
# len3=len(li3)
# for i in li3:
#     print(i.string)

li4=bs.find_all(‘div‘,class_="industry")
# len4=len(li4)
# for i in li4:
#     print(i.string)
print("职位:".ljust(15),"地点:".center(15),"薪水:".center(15),"需求:".rjust(15))
print("------------------------------------------------------------------------------------------------")
for li_1,li_2,li_3,li_4 in zip(li1,li2,li3,li4):--------------------------------------------------------------------------四个列表整合（每一行一个元素对应）
    print(li_1.string.ljust(15),li_2.string.center(15),li_3.string.center(15),li_4.string.rjust(15).strip())-------------strip()是用来去除字符串左右两边的空格（不然太长不好排版)

　　2.3运行结果

三、技术不是很难，但也很有用，不过这里得提醒一下（最好是将网页的html文档存放在本地，一直请求服务器是很不友好的行为哟！)

拓展：可以试着将数据存到txt文档或者excl表格中，更直观哟！

原文地址：https://www.cnblogs.com/cybg/p/11825317.html

时间： 2024-10-01 03:38:58

python 爬取网页简单数据---以及详细解释用法的相关文章

Python爬取网页信息

Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初始网址,逐层查找链接,直到找到需要获取的内容. 在打开的界面中,点击鼠标右键,在弹出的对话框中,选择“检查”,则在界面会显示该网页的源代码,在具体内容处点击查找,可以定位到需要查找的内容的源码. 注意:代码显示的方式与浏览器有关,有些浏览器不支持显示源代码功能(360浏览器,谷歌浏览器,火狐浏览器等

Python爬取网页的三种方法

# Python爬取网页的三种方法之一: 使用urllib或者urllib2模块的getparam方法 import urllib fopen1 = urllib.urlopen('http://www.baidu.com').info() fopen2 = urllib2.urlopen('http://www.sina.com').info() print fopen1.getparam('charset') print fopen2.getparam('charset') #----有些

Python爬取京东商品数据

对京东某一商品信息页面的HTML代码进行分析,可以发现它的图书产品信息页面都含有这样一段代码(不同类的商品页面有些不同): window.pageConfig={compatible:true,searchType: 1,product:{"skuid":"11408255","name":"\u4f17\u795e\u7684\u536b\u661f\uff1a\u4e2d\u56fd\u7981\u533a","

python爬取网页数据

python时间戳将时间戳转为日期 #!/usr/bin/python # -*- coding: UTF-8 -*- # 引入time模块 import time #时间戳 timeStamp = 1581004800 timeArray = time.localtime(timeStamp) #转为年-月-日形式 otherStyleTime = time.strftime("%Y-%m-%d ", timeArray) print(otherStyleTime) python爬

python爬取网页时返回http状态码HTTP Error 418

问题:urllib.error.HTTPError: HTTP Error 418: 问题描述:当我使用Python的request爬取网页时返回了http状态码为418, 错误描述:经过网上查询得知,418的意思是被网站的反爬程序返回的,网上解释为,418 I'm a teapotThe HTTP 418 I'm a teapot client error response code indicates that the server refuses to brew coffee becaus

python爬取豆瓣首页热门栏目详细流程

记录一下爬取豆瓣热门专栏的经过,通过这篇文章,你能学会requests,HTMLParser,json的基本使用,以及爬取网页内容的基本思路. 使用模块 1,获取豆瓣首页代码:首先我们需要访问豆瓣页面,获取首页的源码.这里推荐使用第三方库:requests,相比python内置的 urllib 模块,requests使用起来更简单,功能更全面 2,对获取的代码进行解析:对于解析html代码,已经有很多功能强大的框架能使用,如Scrapy,PySpider,Beautiful Soup等,这里我们

python爬取网页遇到521的处理方法

在网页中爬取数据时遇到status code: 521.参考: https://blog.csdn.net/fm345689/article/details/84980340 https://zhuanlan.zhihu.com/p/25957793 导入execjs库.PyV8仅支持到Python 2.7,不支持Python 3.7. 1 # -*- coding: utf-8 -*- 2 3 import execjs 4 import re 5 import requests_html 6

Python爬取新浪微博评论数据，写入csv文件中

因为新浪微博网页版爬虫比较困难,故采取用手机网页端爬取的方式操作步骤如下: 1. 网页版登陆新浪微博 2.打开m.weibo.cn 3.查找自己感兴趣的话题,获取对应的数据接口链接 4.获取cookies和headers # -*- coding: utf-8 -*- import requests import csv import os base_url = 'https://m.weibo.cn/api/comments/show?id=4131150395559419&page={pa

python爬取网页图片

在Python中使用正则表达式,一个小小的爬虫,抓取百科词条网页的jpg图片.下面就是我的代码,作为参考: #coding=utf-8 # __author__ = 'Hinfa' import re import os from urllib import request as req url='https://baike.baidu.com/item/%E5%B9%BF%E5%B7%9E/72101?fr=aladdin' path='Test//百科广州图片2' os.mkdir(path