Python实例之抓取网易云课堂搜索数据(post方式json型数据)并保存为TXT

本实例实现了抓取网易云课堂中以‘java’为关键字的搜索结果,经详细查看请求的方式为post,请求的结果为JSON数据

具体实现代码如下:

import requests
import json
finalstr = ‘‘               #初始化字符串
totlePage = 0                #初始化总页数
test = 0                    #初始化数据总条数
url = ‘http://study.163.com/p/search/studycourse.json‘
headers = {‘content-type‘: ‘application/json‘}

def getData(count):         #定义一个方法,返回json型请求结果
    payload = {
        ‘pageIndex‘:count,        #页码为变量
        ‘pageSize‘:‘50‘,
        ‘keyword‘:‘java‘,
        ‘searchTimeType‘:‘-1‘,
        ‘orderType‘:‘5‘,
        ‘priceType‘:‘-1‘
    }
    req = requests.post(url,data=json.dumps(payload),headers=headers)
    res_json = json.loads(req.text)
    return res_json

final = getData(1)[‘result‘][‘list‘]        #判断是否有搜索结果
if final != None:
    totlePage = getData(1)[‘result‘][‘query‘][‘totlePageCount‘]       #获取页码总数
    for j in range(1,totlePage+1):         #页码循环
        final = getData(j)[‘result‘][‘list‘]
        for i in range(len(final)):        #每页中的数据项循环
            rt = ‘标题:‘+final[i][‘productName‘]+‘\n‘
            finalstr += rt
            rp = ‘发布者:‘+final[i][‘provider‘]+‘\n‘
            finalstr += rp
            strpri = final[i][‘discountPrice‘]
            if strpri == None:
                strpri = 0
            rn = ‘价格:‘+str(strpri)+‘\n‘
            finalstr += rn
            strcou = final[i][‘learnerCount‘]
            if strcou == None:
                strcou = 0
            rd = ‘学习人数:‘+str(strcou)+‘\n\n‘
            finalstr += rd
            print(‘当前正在读取第‘+str(j)+‘页的第‘+str(i+1)+‘条数据...‘)
            test += 1
    f = open(‘网易云课堂搜索java时的数据,共‘+str(test)+‘条.txt‘,‘w‘,1,‘UTF-8‘)    #保存数据到TXT
    f.write(finalstr)
    print(‘正在保存。。。‘)
    f.close()
    print(‘保存完毕!共‘+str(test)+‘条数据‘)
else:
    print(‘没有查询结果,请换个关键词试试!‘)
时间: 2024-10-13 15:17:42

Python实例之抓取网易云课堂搜索数据(post方式json型数据)并保存为TXT的相关文章

Python实例之抓取淘宝商品数据(json型数据)并保存为TXT

本实例实现了抓取淘宝网中以'python'为关键字的搜索结果,经详细查看数据存储于html文档中的js脚本中,数据类型为JSON 通过浏览器相关工具发现捧腹网笑话页面的数据存储在HTML页面而非json数据中,因此可以直接使用soup.select()方法来抓取数据,具体实现代码如下: import requests import re import json from urllib.parse import urlencode from bs4 import BeautifulSoup fin

如何用Python网络爬虫爬取网易云音乐歌词

前几天小编给大家分享了数据可视化分析,在文尾提及了网易云音乐歌词爬取,今天小编给大家分享网易云音乐歌词爬取方法. 本文的总体思路如下: 找到正确的URL,获取源码: 利用bs4解析源码,获取歌曲名和歌曲ID: 调用网易云歌曲API,获取歌词: 将歌词写入文件,并存入本地. 本文的目的是获取网易云音乐的歌词,并将歌词存入到本地文件.整体的效果图如下所示: 基于Python网易云音乐歌词爬取 赵雷的歌曲 本文以民谣歌神赵雷为数据采集对象,专门采集他的歌曲歌词,其他歌手的歌词采集方式可以类推,下图展示

抓取网易云音乐歌曲热门评论生成词云

前言 抓数据 抓包分析 加密信息处理 抓取热门评论内容 词云 词云运行效果 总结 前言 网易云音乐一直是我向往的"神坛",听音乐看到走心的评论的那一刻,高山流水.于是今天来抓取一下歌曲的热门评论.并做成词云来展示,看看相对于这首歌最让人有感受的评论内容是什么. 做成词云的好处就是直观以及美观, 其他的我也想不出来有什么了. 抓数据 要想做成词云,首先得有数据才行.于是需要一点点的爬虫技巧. 抓包分析 加密信息处理 抓取热门评论内容 抓包分析 使用Chrome控制台.我们可以轻松的找到评

使用爬虫抓取网易云音乐热门评论生成好玩的词云

互联网爬虫是一个很有意思的技术,借由爬虫,我们可以做到很多好玩的事情--这其中就包括爬取评论. 词云就是个更好玩的技术,通过技术方法分析词语出现频率,生成可视化的图形,将文字内容用图形呈现,想想就很意思. 这次,我们就试着把这两个技术结合起来吧. 前言 网易云音乐一直是我向往的"神坛",听音乐看到走心的评论的那一刻,高山流水.于是今天来抓取一下歌曲的热门评论.并做成词云来展示,看看相对于这首歌最让人有感受的评论内容是什么. 做成词云的好处就是直观以及美观, 其他的我也想不出来有什么了.

《Python机器学习kaggle案例》-- 网易云课堂

https://study.163.com/course/courseMain.htm?courseId=1003551009 LinearRegression # -*- coding: utf-8 -*- """ Created on Sat Dec 1 09:24:27 2018 @author: zh """ import pandas as pd import numpy as np titanic = pd.read_csv('tra

?《Python自动化测试修炼宝典》线上课程已经成功入驻网易云课堂......

<Python自动化测试修炼宝典>线上课程已经成功入驻网易云课堂...... IT测试老兵利用工作之余,亲自录制的<Python自动化测试修炼宝典>线上课程已经成功入驻网易云课堂,想要提高测试技术的小伙伴可以线上购买课程进行学习. 课程背景 测试人员进阶实战课程.本套课程以作者多年测试实战经验为背景,结合大量测试案例深入浅出讲解目前主流web端.app端自动化测试框架以及使用Python如何从0到1实现接口测试框架的搭建. 课程特色 系统教学+实战案例+开放源码.涵盖Python3

Python -- 网络编程 -- 抓取网页图片 -- 图虫网

字符串(str)编码成字节码(bytes),字节码解码为字符串 获取当前环境编码:sys.stdin.encoding url编码urllib.parse.quote() url解码urllib.parse.unquote() 列表去重:pages = list(set(pages)) 创建文件夹(可多级创建):os.makedirs(folder)  os.mkdir()只能单级创建 首先分析网页(图虫网)的URL规律: 根网页地址形如: http://tuchong.com/tags/人像/

如何利用Python网络爬虫抓取微信朋友圈的动态(上)

今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌,小编在网上找到了第三方工具,它可以将朋友圈进行导出,之后便可以像我们正常爬虫网页一样进行抓取信息了. [出书啦]就提供了这样一种服务,支持朋友圈导出,并排版生成微信书.本文的主要参考资料来源于这篇博文:https://www.cnblogs.com/sheng-jie/p/7776495.html

用python做网页抓取与解析入门笔记[zz]

(from http://chentingpc.me/article/?id=961) 事情的起因是,我做survey的时候搜到了这两本书:Computational Social Network Analysis和Computational Social Network,感觉都蛮不错的,想下载下来看看,但是点开网页发现这个只能分章节下载,晕,我可没时间一章一章下载,想起了迅雷的下载全部链接,试试看,果真可以把他们一网打尽,但是,sadly,迅雷下载的时候,文件名没办法跟章节名对应起来,晕,我可