Python爬取新闻网标题、日期、点击量

最近接触Python爬虫，以爬取学校新闻网新闻标题、日期、点击量为例，记录一下工作进度

目前，感觉Python爬虫的过程无非两步：

Step1.获取网页url(利用Python库函数import urllib2)

Step2.利用正则表达式对html中的字符串进行匹配、查找等操作

自我感觉sublime text2编辑器真心好用，部署Python后不会像WingIDE、notepad++那样存在那么多头疼的小问题，推荐使用

 # -*- coding: UTF-8 -*-
import urllib2
import sys
import re
import os
#***********fuction define************#
def extract_url(info):
    rege="<li><span class=\"title\"><a href=\"(.*?)\">"#fei tan lan mo shi
    re_url = re.findall(rege, info)
    n=len(re_url)
    for i in range(0,n):
    	re_url[i]="http://news.swjtu.edu.cn/"+re_url[i]
    return re_url

def extract_title(sub_web):
    re_key = "<h4>\r\n                    (.*)\r\n                    </h4>"
    title = re.findall(re_key,sub_web)

    return title

def extract_date(sub_web):
    re_key = "日期：(.*?)    "
    date = re.findall(re_key,sub_web)
    return date

def extract_counts(sub_web):
    re_key = "点击数：(.*?)  "
    counts = re.findall(re_key,sub_web)
    return counts
#*************main**************#
fp=open('output.txt','w')
content = urllib2.urlopen('http://news.swjtu.edu.cn/ShowList-82-0-1.shtml').read()
url=extract_url(content)
string=""
n=len(url)
print n
for i in range(0,n):
    sub_web = urllib2.urlopen(url[i]).read()
    sub_title = extract_title(sub_web)
    string+=sub_title[0]
    string+='   '
    sub_date = extract_date(sub_web)
    string+="日期："+sub_date[0]
    string+='   '
    sub_counts = extract_counts(sub_web)
    string+="点击数："+sub_counts[0]
    string+='\n'
    # print string
print string
fp.close()

附：Python爬虫学习系列教程

时间： 2024-10-14 18:49:50

Python爬取新闻网标题、日期、点击量的相关文章

利用Python爬取豆瓣电影

目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com/tag/#/?sort=T&range=0,10&tags=%E7%94%B5%E5%BD%B1,%E7%88%B1%E6%83%85,%E7%BE%8E%E5%9B%BD,%E9%BB%91%E5%B8%AE 有3个字段是非常重要的: 1.sort=T 2.range=0,10 3.tag

最后轻松一夏，周末利用python爬取“陈翔六点半”搞笑视频！

觉得程序员再忙也需要给自己安排一点娱乐时间,对自己好点,自己对自己不好,谁会? 自己娱乐一般会有:跑步.看电影.小视频,而小视频是最家常的娱乐方式,看得最多的小视频是「陈翔六点半」,咦! 拍得搞笑,演技也一流,也不乏有内涵!非常推荐大家看看. 时间太贵,我耗不起正题先上Python爬取小视频的效果图,duang.duang.duang.想下载什么就是什么,哈哈. 打开浏览器(电脑版,方便调试)输入微博 url 点击输入框,输入「陈翔六点半」,回车搜索但是发现在这个页面就只用几个视频.滑

使用python爬取csdn博客访问量

最近学习了python和爬虫,想写一个程序练练手,所以我就想到了大家都比较关心的自己的博客访问量,使用python来获取自己博客的访问量,这也是后边我将要进行的项目的一部分,后边我会对博客的访问量进行分析,以折线图和饼图等可视化的方式展示自己博客被访问的情况,使自己能更加清楚自己的哪些博客更受关注,博客专家请勿喷,因为我不是专家,我听他们说专家本身就有这个功能. 一.网址分析进入自己的博客页面,网址为:http://blog.csdn.net/xingjiarong 网址还是非常清晰的就是cs

python爬取某个网页的图片-如百度贴吧

python爬取某个网页的图片-如百度贴吧作者:vpoet 日期:大约在冬季注:随意copy,不用告诉我 #coding:utf-8 import urllib import urllib2 import re if __name__ =="__main__": rex=r'src="(http://imgsrc.baidu.com/forum/w%3D580.*?\.jpg)"'; Response=urllib2.urlopen("http://t

使用python爬取MedSci上的影响因子排名靠前的文献

使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn/sci的交互过程.可以使用谷歌或火狐浏览器的“审查元素-->Network”,然后就可以看到操作页面就可以看到网站的交互信息.当在网页上点击“我要查询”时,网页会发送一个POST消息给服务器,然后,服务器返回查询结果然后,将查询到的结果使用正则表达式提取出需要的数据. 最后将提取出的数据输出到文

python爬取免费优质IP归属地查询接口

python爬取免费优质IP归属地查询接口具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就ok了嘛~但是,网上免费接口要么限制访问频率(淘宝的),要么限制访问次数(百度及其他) 没辙了,从百度找到了几个在线查询的接口,要么不够准确(或者说她们的数据库太旧了),要么就是速度太慢了,跟限制访问似的(没办法,小规模人家的服务器的确不够好) 于是乎就想到了百度首页的ip接口,就这货: 为了防止泄露

表哥用Python爬取数千条淘宝商品数据后，发现淘宝这些潜规则！

本文记录了笔者用 Python 爬取淘宝某商品的全过程,并对商品数据进行了挖掘与分析,最终得出结论. 项目内容本案例选择商品类目:沙发. 数量:共 100 页 4400 个商品. 筛选条件:天猫.销量从高到低.价格 500 元以上. 项目目的对商品标题进行文本分析,词云可视化不同关键词 word 对应的 sales 的统计分析商品的价格分布情况分析商品的销量分布情况分析不同价格区间的商品的平均销量分布商品价格对销量的影响分析商品价格对销售额的影响分析不同省份或城市的商品数量分布

Python爬取网页信息

Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初始网址,逐层查找链接,直到找到需要获取的内容. 在打开的界面中,点击鼠标右键,在弹出的对话框中,选择“检查”,则在界面会显示该网页的源代码,在具体内容处点击查找,可以定位到需要查找的内容的源码. 注意:代码显示的方式与浏览器有关,有些浏览器不支持显示源代码功能(360浏览器,谷歌浏览器,火狐浏览器等

python爬取网页数据

python时间戳将时间戳转为日期 #!/usr/bin/python # -*- coding: UTF-8 -*- # 引入time模块 import time #时间戳 timeStamp = 1581004800 timeArray = time.localtime(timeStamp) #转为年-月-日形式 otherStyleTime = time.strftime("%Y-%m-%d ", timeArray) print(otherStyleTime) python爬