有关利用python获取网页, 以及KDD近几年论文标题与摘要链接

最近一直在看KDD的论文,不过,由于老师并没有什么合理的方向性,所以考虑把kdd中的大部分内容都利用python将所有标题、摘要获取下来。

还有一个原因在于,看acm上的摘要,都只显示了两行,再看多点儿,就需要点击expand,觉得非常不爽,所以就用python脚本把html标签删掉。。

想到的方法自然是通过python利用正则表达式对ACM的KDD网页进行字符串匹配,获得相应的网页字符串,然后将所有html的标签删除(例如<div></div>等), 将这些标签删除之后,就能够得到纯文本,从而得到人可读的内容。

但是,有一个问题在于python没有办法登陆账号,所以我最后直接把acm kdd 的网页html代码复制下来,扔在一个txt里面,然后打开txt进行读取。

其实整段python的代码函数非常简单,如下:

 1 import re
 2 file = open(‘kdd2013.txt‘,‘r‘)
 3 s1 = file.read()
 4 re_h = re.compile(‘</?\w+[^>]*>‘)
 5 s = re_h.sub(‘‘,s1)
 6 blankline = re.compile(‘\n+‘)
 7 s = blankline.sub(‘‘,s)
 8 expand = re.compile(‘expand‘)
 9 s = expand.sub(‘\n‘, s)
10 blankline = re.compile(‘\n+‘)
11 s = blankline.sub(‘\n‘,s)
12
13 fp = open(r‘kdd2013_pure.txt‘,‘w‘)
14 fp.write(s)
15 fp.close()

 

其实在这里,主要是记录一下python里面去除html标签正则表达式的编写,利用python有的re模块进行正则表达式的规则设置,compile为设定一个规则,可以看出,compile中的</?\w+[^>]*>,个人理解中,这段代表的就是说,匹配到开头中,如果是<开头,>结尾的语句,则直接删除,因为毕竟acm的页面写的还是相对非常工整的,所以能够很轻松的删除每一个html的标签,然后,再删除多余的空行,利用#2.通过#2可以实现对多个空行的删除,匹配的就是\n+,代表多个空行。

最后,利用上面的python程序,我将kdd中的字段全部拿下来了,得到的都是几个txt,是最近几年的kdd的文章title和摘要,这里也贴出来跟大家分享一下~

由于博客园似乎不能上传附件,我就扔在百度云里边儿了,链接如下:http://pan.baidu.com/s/1jGDUNqA

有关利用python获取网页, 以及KDD近几年论文标题与摘要链接

时间: 2024-10-16 05:38:35

有关利用python获取网页, 以及KDD近几年论文标题与摘要链接的相关文章

利用python登录网页并自动签到

最近接触python操作网页,甚是方便.很多网站为了粘贴用户,要求每天签到送积分,而我们这么忙哪有空去干这个呀,python可以自动帮我们做这个事情. 实验网站:www.shuobar.com,这是一个提供免费电话的网站,以前在任何时候打电话都免费的,但是现在只能在中午12点之前免费,其他时间打电话要积分,每天签到可以送一些积分 实验方法:windows下pyhton编程 1.用户的登录.www.shuobar.com采用QQ授权登录,不提供帐号密码的登录方式,这给自动签到带来一些不便,首先研究

利用python 获取网址中的href(基于python 3.6)

import urllib.request from bs4 import BeautifulSoup def get_link(page): # 寻找链接的href linkData = [] for page in page.find_all('td'): links = page.select("a") for each in links: # if str(each.get('href'))[:1] == '/': 过滤if代码 data=each.get('href') li

Python获取网页html代码

获取网页html代码: import requests res = requests.get('https://www.cnblogs.com/easyidea/p/10214559.html') res.encoding = 'utf-8' print(res.text) 如果不能正常获取说明你还没有安装 requests库,安装requests方法很简单,Windows电脑打开cmd 输入 pip install requests 回车即可,Macos(苹果电脑)打开终端输入 pip ins

在python获取网页的代码中添加头信息模拟浏览器

为什么要添加头部信息,因为有时候有些网页会有反爬虫的设置,导致无法获取正常的网页,在这里,在代码的头部添加一个headers信息,模拟成浏览器去访问网页. 没有添加头部信息的代码 import urllib2 url = "http://blog.51cto.com/lsfandlinux/2046467" file = urllib2.urlopen(url) html = file.read() print html 接下来添加头部信息,首先在浏览器打开百度一下,然后检查网页的头部

Python骚操作:利用Python获取摄像头并实时控制人脸!

实现流程 从摄像头获取视频流,并转换为一帧一帧的图像,然后将图像信息传递给opencv这个工具库处理,返回灰度图像(就像你使用本地静态图片一样)程序启动后,根据监听器信息,使用一个while循环,不断的加载视频图像,然后返回给opencv工具呈现图像信息.创建一个键盘事件监听,按下"d"键,则开始执行面部匹配,并进行面具加载(这个过程是动态的,你可以随时移动).面部匹配使用Dlib中的人脸检测算法来查看是否有人脸存在.如果有,它将为每个人脸创建一个结束位置,眼镜和烟卷会移动到那里结束.

利用python获取股票数据

一.利用pandas API接口 Pandas库提供了专门从财经网站获取金融数据的API接口,可作为量化交易股票数据获取的另一种途径,该接口在urllib3库基础上实现了以客户端身份访问网站的股票数据. 通过查看Pandas的手册可以发现,第一个参数为股票代码,苹果公司的代码为"AAPL",国内股市采用的输入方式“股票代码”+“对应股市”,上证股票在股票代码后面加上“.SS”,深圳股票在股票代码后面加上“.SZ”.DataReader可从多个金融网站获取到股票数据,如“Yahoo! F

php利用curl获取网页title内容

<?php $url = 'http://www.k7wan.com'; echo getTitle_web_curl($url); function getTitle_web_curl($url){ $title = ''; $ch = curl_init(); //设置选项,包括URL curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLO

利用python获取nginx服务的ip以及流量统计信息

#!/usr/bin/python #coding=utf8 log_file = "/usr/local/nginx/logs/access.log" with open(log_file) as f: contexts = f.readlines() # define ip dict### ip = {} # key为ip信息,value为ip数量(若重复则只增加数量) flow = {} # key为ip信息,value为流量总和 sum = 0 for line in cont

Python:爬虫之利用Python获取指定网址上的所有图片—Jaosn niu

# coding=gbk import urllib.request import re import os import urllib def getHtml(url): #指定网址获取函数 page = urllib.request.urlopen(url) html = page.read() return html.decode('UTF-8') def getImg(html): #定义获取图片函数 reg = r'src="(.+?\.jpg)" pic_ext' imgr