有关利用python获取网页，以及KDD近几年论文标题与摘要链接

最近一直在看KDD的论文，不过，由于老师并没有什么合理的方向性，所以考虑把kdd中的大部分内容都利用python将所有标题、摘要获取下来。

还有一个原因在于，看acm上的摘要，都只显示了两行，再看多点儿，就需要点击expand，觉得非常不爽，所以就用python脚本把html标签删掉。。

想到的方法自然是通过python利用正则表达式对ACM的KDD网页进行字符串匹配，获得相应的网页字符串，然后将所有html的标签删除（例如<div></div>等），将这些标签删除之后，就能够得到纯文本，从而得到人可读的内容。

但是，有一个问题在于python没有办法登陆账号，所以我最后直接把acm kdd 的网页html代码复制下来，扔在一个txt里面，然后打开txt进行读取。

其实整段python的代码函数非常简单，如下：

 1 import re
 2 file = open(‘kdd2013.txt‘,‘r‘)
 3 s1 = file.read()
 4 re_h = re.compile(‘</?\w+[^>]*>‘)
 5 s = re_h.sub(‘‘,s1)
 6 blankline = re.compile(‘\n+‘)
 7 s = blankline.sub(‘‘,s)
 8 expand = re.compile(‘expand‘)
 9 s = expand.sub(‘\n‘, s)
10 blankline = re.compile(‘\n+‘)
11 s = blankline.sub(‘\n‘,s)
12
13 fp = open(r‘kdd2013_pure.txt‘,‘w‘)
14 fp.write(s)
15 fp.close()

其实在这里，主要是记录一下python里面去除html标签正则表达式的编写，利用python有的re模块进行正则表达式的规则设置，compile为设定一个规则，可以看出，compile中的</?\w+[^>]*>,个人理解中，这段代表的就是说，匹配到开头中，如果是<开头，>结尾的语句，则直接删除，因为毕竟acm的页面写的还是相对非常工整的，所以能够很轻松的删除每一个html的标签，然后，再删除多余的空行，利用#2.通过#2可以实现对多个空行的删除，匹配的就是\n+，代表多个空行。

最后，利用上面的python程序，我将kdd中的字段全部拿下来了，得到的都是几个txt，是最近几年的kdd的文章title和摘要，这里也贴出来跟大家分享一下~

由于博客园似乎不能上传附件，我就扔在百度云里边儿了，链接如下：http://pan.baidu.com/s/1jGDUNqA

有关利用python获取网页，以及KDD近几年论文标题与摘要链接

时间： 2024-10-16 05:38:35

有关利用python获取网页，以及KDD近几年论文标题与摘要链接

有关利用python获取网页，以及KDD近几年论文标题与摘要链接的相关文章

利用python登录网页并自动签到

利用python 获取网址中的href(基于python 3.6）

Python获取网页html代码

在python获取网页的代码中添加头信息模拟浏览器

Python骚操作：利用Python获取摄像头并实时控制人脸！

利用python获取股票数据

php利用curl获取网页title内容

利用python获取nginx服务的ip以及流量统计信息

Python：爬虫之利用Python获取指定网址上的所有图片—Jaosn niu

有关利用python获取网页， 以及KDD近几年论文标题与摘要链接

有关利用python获取网页， 以及KDD近几年论文标题与摘要链接的相关文章

有关利用python获取网页，以及KDD近几年论文标题与摘要链接

有关利用python获取网页，以及KDD近几年论文标题与摘要链接的相关文章