python3爬虫 -----华东交大校园新闻爬取

如果爬取较多最好sleep一下，，，，

 1 import requests
 2 import requests.exceptions
 3 import re
 4 import json
 5
 6 #请求头，防止防爬虫的网页
 7 headers={
 8 "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"
 9 }
10
11 #获取一张网页上的内容
12 def get_one_page(url):
13     try:
14         res = requests.get(url, headers=headers)
15         if res.status_code == 200:
16             return res.text
17         return None
18     except Exception:
19         return None
20
21 #根据网页上的内容，再析取新闻标题
22 def parse_one_page(html):
23     pattern=re.compile(‘<td align="left".*?<a href.*?>(.*?)</a>.*?</td>‘,re.S)
24     items=re.findall(pattern,html)
25     return items
26     # for item in items:
27     #     yield {
28     #          "title":item.split()
29     #     }
30
31
32 #写入文件
33 def write_to_file(content):
34     with open(‘news_ecjtu.txt‘,‘a‘,encoding=‘utf-8‘) as f:
35         f.write(json.dumps(content,ensure_ascii=False)+‘\n‘)
36         f.close()
37
38
39 def main(page):
40     if(page):
41         page+=1
42         url=‘http://xw.ecjtu.jx.cn/1083/list‘+str(page)+‘.htm‘
43     else:
44         url=‘http://xw.ecjtu.jx.cn/1083/list.htm‘
45     html=get_one_page(url)
46
47     for item in parse_one_page(html):
48        write_to_file(item)
49
50
51 if __name__ == ‘__main__‘:
52     for i in range(10): #582
53         main(i)

原文地址：https://www.cnblogs.com/z-712/p/10625255.html

时间： 2024-11-09 12:48:04

python3爬虫 -----华东交大校园新闻爬取的相关文章

Python3 爬虫实例（三） -- 爬取豆瓣首页图片

序前面已经完成了简单网页以及伪装浏览器的学习.下面,实现对豆瓣首页所有图片爬取程序,把图片保存到本地一个路径下. 首先,豆瓣首页部分图片展示这只是截取的一部分.下面给出,整个爬虫程序. 爬虫程序这个爬取图片的程序采用伪装浏览器的方式,只不过是加了处理图片的模块. ''' 批量下载豆瓣首页的图片采用伪装浏览器的方式爬取豆瓣网站首页的图片,保存到指定路径文件夹下 ''' #导入所需的库 import urllib.request,socket,re,sys,os #定义文件保存路径 targ

爬虫学习 Python网络爬虫第三弹《爬取get请求的页面数据》

爬虫学习 Python网络爬虫第三弹<爬取get请求的页面数据> 一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2. 二.由易到难的爬虫程序: 1.爬取百度首页面所有数据值 1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 #导包 4

python爬虫实例详细介绍之爬取大众点评的数据

python 爬虫实例详细介绍之爬取大众点评的数据一． Python作为一种语法简洁.面向对象的解释性语言,其便捷性.容易上手性受到众多程序员的青睐,基于python的包也越来越多,使得python能够帮助我们实现越来越多的功能.本文主要介绍如何利用python进行网站数据的抓取工作.我看到过利用c++和Java进行爬虫的代码,c++的代码很复杂,而且可读性.可理解性较低,不易上手,一般是那些高手用来写着玩加深对c++的理解的,这条路目前对我们不通.Java的可读性还可以,就是代码冗余比较多,

【python爬虫】根据查询词爬取网站返回结果

最近在做语义方面的问题,需要反义词.就在网上找反义词大全之类的,但是大多不全,没有我想要的.然后就找相关的网站,发现了http://fanyici.xpcha.com/5f7x868lizu.html,还行能把"老师"-"学生","医生"-"病人"这样对立关系的反义词查出来. 一开始我想把网站中数据库中存在的所有的词语都爬出来(暗网爬虫),但是分析了url的特点: http://fanyici.xpcha.com/5f7x86

python3下scrapy爬虫(第八卷:循环爬取网页多页数据）

之前我们做的数据爬取都是单页的现在我们来讲讲多页的一般方式有两种目标URL循环抓取另一种在主页连接上找规律,现在我用的案例网址就是通过点击下一页的方式获取多页资源话不多说全在代码里(因为刚才写这篇文章时电脑出现点问题所以没存下来,所以这一版本不会那么详细) 来看下结果522*35条连接页面的数据爬取: 是不是很爽原文地址:https://www.cnblogs.com/woshiruge/p/8398229.html

Python3网络爬虫实战-9、APP爬取相关库的安装：Appium的安装

Appium 是移动端的自动化测试工具,类似于前面所说的 Selenium,利用它我们可以驱动 Android.iOS 等设备完成自动化测试,比如模拟点击.滑动.输入等操作,其官方网站为:http://appium.io/,本节来了解一下 Appium 的安装方式. 1. 相关链接 GitHub:https://github.com/appium/appium 官方网站:http://appium.io 官方文档:http://appium.io/introduction... 下载链接:htt

爬虫 + 数据分析 - 7 CrawlSpider(全站爬取), 分布式, 增量式爬虫

一.全站爬取(CrawlSpider) 1.基本概念作用:就是用于进行全站数据的爬取 - CrawlSpider就是Spider的一个子类 - 如何新建一个基于CrawlSpider的爬虫文件 - scrapy genspider -t crawl xxx www.xxx.com - LinkExtractor连接提取器:根据指定规则(正则)进行连接的提取 - Rule规则解析器:将链接提取器提取到的链接进行请求发送,然后对获取的页面数据进行指定规则(callback)的解析 - 一个链接提

爬虫(十)：AJAX、爬取AJAX数据

1. AJAX 1.1 什么是AJAX AJAX即“Asynchronous JavaScript And XML”(异步JavaScript和XML)可以使网页实现异步更新,就是不重新加载整个网页的情况下,对网页的某部分进行更新(局部刷新).传统的网页(不使用AJAX)如果需要更新内容,必须重载整个网页页面. AJAX = 异步JavaScript和XML,是一种新的思想,整合之前的多种技术,用于创建快速交互式网页应用的页面开发技术. 1.2 同步和异步同步现象:客户端发送请求到服务器端,当

Python_网络爬虫（新浪新闻抓取）

爬取前的准备: BeautifulSoup的导入:pip install BeautifulSoup4 requests的导入:pip install requests 下载jupyter notebook:pip install jupyter notebook 下载python,配置环境(可使用anocanda,里面提供了很多python模块) json 定义 :是一种格式,用于数据交换. Javascript 对象定义 : 一种javascript的引用类型中文格式除了' utf-8