python爬取中国知网部分论文信息

爬取指定主题的论文,并以相关度排序。

 1 #!/usr/bin/python3
 2 # -*- coding: utf-8 -*-
 3 import requests
 4 import linecache
 5 import random
 6 from bs4 import BeautifulSoup
 7
 8 if __name__=="__main__":
 9     keywords=‘通信‘ ### 查询的主题
10     n=0
11     target=‘http://search.cnki.net/search.aspx?q=‘+str(keywords)+‘&rank=relevant&cluster=all&val=CJFDTOTAL&p={}‘
12     user_agent = ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36‘
13     headers = {‘User-Agent‘:user_agent}
14     for i in range(10):
15         i=i*15
16         target=target.format(i)
17         req=requests.get(url=target)
18         html=req.text
19         html=html.replace(‘<br>‘,‘ ‘).replace(‘<br/>‘,‘ ‘).replace(‘/>‘,‘>‘)
20         bf=BeautifulSoup(html,"html.parser")
21         texts=bf.find(‘div‘,class_=‘articles‘)
22         texts_div=texts.find_all(‘div‘,class_=‘wz_content‘)
23         for item in texts_div:
24             item_name=item.find(‘a‘).text
25             item_href=item.find(‘a‘)[‘href‘]
26             item_refer2=item.find(‘span‘,class_=‘count‘).text
27             print(‘{} {} {}\n‘.format(item_name,item_href,item_refer2))
28     print(n)

原文地址:https://www.cnblogs.com/ljy1227476113/p/10913508.html

时间: 2024-10-09 23:38:35

python爬取中国知网部分论文信息的相关文章

Python爬取中国天气网天气

Python爬取中国天气网天气 基于requests库制作的爬虫. 使用方法:打开终端输入 "python3 weather.py 北京(或你所在的城市)" 程序正常运行需要在同文件夹下加入一个"data.csv"文件,内容请参考链接:https://www.cnblogs.com/Rhythm-/p/9255190.html 运行效果: 源码: import sys import re import requests import webbrowser from

【Python3 爬虫】U11_爬取中国天气网

目录 1.网页分析 2.代码实现 1.网页分析 庚子年初,各种大事件不期而至,又赶上最近气温突变,所以写个爬虫来爬取下中国天气网,并通过图表反映气温最低的前20个城市. 中国天气网:http://www.weather.com.cn/textFC/hb.shtml 打开后如下图: 从图中可以看到所有城市按照地区划分了,并且每个城市都有最低气温和最高气温,通过chrome查看Elements,如下: 从上图可以看到展示当天的数据,那么<div class='conMidtab'>..这个标签则没

python爬取中国大学排名

教程来自:[Python网络爬虫与信息提取].MOOC. 北京理工大学 目标:爬取最好大学网前50名大学 代码如下: import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r = requests.get(url,timeout = 30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text exce

第一篇博客(python爬取小故事网并写入mysql)

前言: 这是一篇来自整理EVERNOTE的笔记所产生的小博客,实现功能主要为用广度优先算法爬取小故事网,爬满100个链接并写入mysql,虽然CS作为双学位已经修习了三年多了,但不仅理论知识一般,动手能力也很差,在学习的空余时间前前后后DEBUG了很多次,下面给出源代码及所遇到的BUG. 本博客参照代码及PROJECT来源:http://kexue.fm/archives/4385/ 源代码: 1 import requests as rq 2 import re 3 import codecs

Python 爬取煎蛋网妹子图片

1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # @Date : 2017-08-24 10:17:28 4 # @Author : EnderZhou ([email protected]) 5 # @Link : http://www.cnblogs.com/enderzhou/ 6 # @Version : $Id$ 7 8 import requests 9 from bs4 import BeautifulSoup as bs

利用Scrapy爬取所有知乎用户详细信息并存至MongoDB

欢迎大家关注腾讯云技术社区-博客园官方主页,我们将持续在博客园为大家推荐技术精品文章哦~ 作者 :崔庆才 本节分享一下爬取知乎用户所有用户信息的 Scrapy 爬虫实战. 本节目标 本节要实现的内容有: 从一个大V用户开始,通过递归抓取粉丝列表和关注列表,实现知乎所有用户的详细信息的抓取. 将抓取到的结果存储到 MongoDB,并进行去重操作. 思路分析 我们都知道每个人都有关注列表和粉丝列表,尤其对于大V来说,粉丝和关注尤其更多. 如果我们从一个大V开始,首先可以获取他的个人信息,然后我们获取

月薪30k的资深程序员用Python爬取了知乎百万用户!并数据分析!

数据量:3,289,329 人. 数据采集工具:分布式 python 爬虫 分析工具:ElasticSearch + Kibana 分析角度:地理位置.男女比例.各类排名.所在高校.活跃程度等. 请各位注意: 以下所有分析结果都基于我抓取到的这300万用户的个人信息,非权威分析,仅供参考. 数据抓取时间为2017年7月份,用户数据会随着时间推移而变化,所以该报告具有一定时效性. 蓝色为男生,红色为女生.具体数据为: 男生:1,202,234 人,占 51.55%. 女生:1,129,874 人,

使用Python爬取煎蛋网妹纸图片

import urllib.request import os import os.path import re def dir(dir_name="images"):     """设定图片保存目录,基于当前程序运行目录"""     if os.path.isdir(dir_name):         os.chdir(dir_name)     else:         os.mkdir(dir_name)     

Python爬取17吉他网吉他谱

最近学习吉他,一张一张保存吉他谱太麻烦,写个小程序下载吉他谱. 安装 BeautifulSoup,BeautifulSoup是一个解析HTML的库.pip install BeautifulSoup4 在这个程序中 BeautifulSoup 使用 html5lib 所以还要安装 html5libpip install html5lib 代码如下: # -*- coding: utf-8 -*- #coding=UTF8 import os import sys import logging i