广商-校园新闻爬虫

import requests
from bs4 import BeautifulSoup
url=‘http://news.gzcc.cn/html/xiaoyuanxinwen/‘
res=requests.get(url)
res.encoding=‘utf-8‘
soup=BeautifulSoup(res.text,‘html.parser‘)
for news in soup.select(‘li‘):
    if len(news.select(‘.news-list-title‘))>0:
        title=news.select(‘.news-list-title‘)[0].text #标题
        time=news.select(‘.news-list-info‘)[0].contents[0].text#时间
        url1=news.select(‘a‘)[0][‘href‘]#url
        bumen=news.select(‘.news-list-info‘)[0].contents[1].text#部门
        description=news.select(‘.news-list-description‘)[0].text #描述
        print(time,title,bumen,url)
        

时间: 2024-11-15 10:00:57

广商-校园新闻爬虫的相关文章

广商14级软件工程:助教总结

第二次给广商的童鞋做助教,有了上一次做助教的经验,这次面对这个工作,更加从容了 J. 以下为工作内容的总结: 学生规模: 两个班的学生, 作业批改次数: 16周的作业,包括团队作业,进度条作业,结对作业和个人作业,并且协助统计了考勤分. 面授课程:给每个班的学生上了两次课,分别讲了一下JUnit的使用和Github的使用. 同学博客点评:每次作业后都会对童鞋的博客进行一些点评,因为点评比较多,所以无法量化出来. 由于自己本身也有工作,所以安排在助教方面的时间不太固定,一般是周六日或者下班比较早的

大三上学期安卓一边学一边开始做一个自己觉得可以的项目 广商小助手App 加油

这项目构思好多 一个人一步一步来 一边做一边为后面应用铺设 广商小助手APP 设计出的软件登录场景 实现(算是可以) 界面大体出来了 界面点击方面也做了很多特效 上图其实点击各颜色后会出现各种图和反应 当然还有好多东西没弄 当前时代都看脸一个不精美的软件少人用 所以多花心思 项目还在努力中>>>>>>>

“广商百货”实现情况跟踪

由于这几天比较忙碌,被各种大作业纠缠着,可是我还是继续做着我们的团队项目“广商百货”平台.这几天做了商家以及用户的界面注册以及登录,有提示密码长度,提示用户是否存在,是否登录.注册成功的验证.在用android内嵌数据库时,比较耗时,因为对数据插入以及查找时,它并不显示有错,而是在你运行后却出现异常,这让我尝试了很多次的失败,可是还是让我弄好了用数据库保存用户和商家的注册资料.并且当你要更改.添加数据库里面的字段和表时,需要更改版本号,实现数据库更新.而我直接重构了一个新的数据库.我现在就把自己

群策群力:传智“小马”齐过河——成都传智播客校园新闻

日前,传智播客成都Java培训中心就业班同学开展了一场趣味游戏--小马过河.游戏中,传智学员集思广益,互帮互助,大家的表现真是可圈可点. 班主任倪老师正在讲解游戏规则,小伙伴们快来围观呀. 游戏规定,所有队员分成两组扮演小马,从"河"的一边转移到对岸,整个过程只能有3只脚在河中-- 每组队员都有10余人,这可不只三只脚啊,那么,大家该怎么过河呢? 小马们开始聚在一起商讨对策,于是,学员们开始出招啦. 只见两匹马的3只脚出现在河中,其余的马踩着这三只脚过河-- 要过河了,好忐忑,你们要扶

《广商百货》这几天的设计心得

这几天,每天都自发地上AS进行广商百货的设计,越来越觉得对这款应用付出努力是一件很愉快的事情,这款应用如同有生命一般,从小树苗状态经过不断栽培而成长,有了自己的能力(一般常见功能),也有了自己的个性(与众不同的状态栏),还有自己的颜值(美化) 每天都做了真机测试: 之所以有情怀,才觉得它不仅仅是作业,所以才会对它付出更多,去做一些美化和调整细节,对过去界面的调整和优化 对以往登陆界面的美化是我最喜欢的地方,多次选图——多次调色——高斯模糊——截图——加入背景,保证了应用界面的清新.高雅风格,也保

爬取校园新闻

1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题.链接.正文.show-info. 2. 分析info字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息. 3. 将字符串格式的发布时间转换成datetime类型 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 def getClickCount(newsUrl): 8. 将获取新闻详情的代码定义成一个函数 def getNe

爬取校园新闻首页的新闻的详情,使用正则表达式,函数抽离

1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题.链接.正文.show-info. 2. 分析info字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息. 3. 将字符串格式的发布时间转换成datetime类型 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 def getClickCount(newsUrl): 8. 将获取新闻详情的代码定义成一个函数 def getNe

基于Scrapy框架的Python新闻爬虫

概述 该项目是基于Scrapy框架的Python新闻爬虫,能够爬取网易,搜狐,凤凰和澎湃网站上的新闻,将标题,内容,评论,时间等内容整理并保存到本地 详细 代码下载:http://www.demodashi.com/demo/13933.html 一.开发背景 Python作为数据处理方面的一把好手,近年来的热度不断增长.网络爬虫可以说是Python最具代表性的应用之一,那么通过网络爬虫来学习Python以及网络和数据处理的相关内容可以说是再合适不过了. Scrapy是由Python语言开发的一

python3爬虫 -----华东交大校园新闻爬取

如果爬取较多最好sleep一下,,,, 1 import requests 2 import requests.exceptions 3 import re 4 import json 5 6 #请求头,防止防爬虫的网页 7 headers={ 8 "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Saf