Python实例之抓取网易云课堂搜索数据（post方式json型数据）并保存为TXT

本实例实现了抓取网易云课堂中以‘java’为关键字的搜索结果，经详细查看请求的方式为post，请求的结果为JSON数据

具体实现代码如下：

import requests
import json
finalstr = ‘‘               #初始化字符串
totlePage = 0                #初始化总页数
test = 0                    #初始化数据总条数
url = ‘http://study.163.com/p/search/studycourse.json‘
headers = {‘content-type‘: ‘application/json‘}

def getData(count):         #定义一个方法，返回json型请求结果
    payload = {
        ‘pageIndex‘:count,        #页码为变量
        ‘pageSize‘:‘50‘,
        ‘keyword‘:‘java‘,
        ‘searchTimeType‘:‘-1‘,
        ‘orderType‘:‘5‘,
        ‘priceType‘:‘-1‘
    }
    req = requests.post(url,data=json.dumps(payload),headers=headers)
    res_json = json.loads(req.text)
    return res_json

final = getData(1)[‘result‘][‘list‘]        #判断是否有搜索结果
if final != None:
    totlePage = getData(1)[‘result‘][‘query‘][‘totlePageCount‘]       #获取页码总数
    for j in range(1,totlePage+1):         #页码循环
        final = getData(j)[‘result‘][‘list‘]
        for i in range(len(final)):        #每页中的数据项循环
            rt = ‘标题：‘+final[i][‘productName‘]+‘\n‘
            finalstr += rt
            rp = ‘发布者：‘+final[i][‘provider‘]+‘\n‘
            finalstr += rp
            strpri = final[i][‘discountPrice‘]
            if strpri == None:
                strpri = 0
            rn = ‘价格：‘+str(strpri)+‘\n‘
            finalstr += rn
            strcou = final[i][‘learnerCount‘]
            if strcou == None:
                strcou = 0
            rd = ‘学习人数：‘+str(strcou)+‘\n\n‘
            finalstr += rd
            print(‘当前正在读取第‘+str(j)+‘页的第‘+str(i+1)+‘条数据...‘)
            test += 1
    f = open(‘网易云课堂搜索java时的数据，共‘+str(test)+‘条.txt‘,‘w‘,1,‘UTF-8‘)    #保存数据到TXT
    f.write(finalstr)
    print(‘正在保存。。。‘)
    f.close()
    print(‘保存完毕！共‘+str(test)+‘条数据‘)
else:
    print(‘没有查询结果，请换个关键词试试！‘)

时间： 2024-10-13 15:17:42

Python实例之抓取网易云课堂搜索数据（post方式json型数据）并保存为TXT的相关文章

Python实例之抓取淘宝商品数据（json型数据）并保存为TXT

本实例实现了抓取淘宝网中以'python'为关键字的搜索结果,经详细查看数据存储于html文档中的js脚本中,数据类型为JSON 通过浏览器相关工具发现捧腹网笑话页面的数据存储在HTML页面而非json数据中,因此可以直接使用soup.select()方法来抓取数据,具体实现代码如下: import requests import re import json from urllib.parse import urlencode from bs4 import BeautifulSoup fin

如何用Python网络爬虫爬取网易云音乐歌词

前几天小编给大家分享了数据可视化分析,在文尾提及了网易云音乐歌词爬取,今天小编给大家分享网易云音乐歌词爬取方法. 本文的总体思路如下: 找到正确的URL,获取源码: 利用bs4解析源码,获取歌曲名和歌曲ID: 调用网易云歌曲API,获取歌词: 将歌词写入文件,并存入本地. 本文的目的是获取网易云音乐的歌词,并将歌词存入到本地文件.整体的效果图如下所示: 基于Python网易云音乐歌词爬取赵雷的歌曲本文以民谣歌神赵雷为数据采集对象,专门采集他的歌曲歌词,其他歌手的歌词采集方式可以类推,下图展示

抓取网易云音乐歌曲热门评论生成词云

前言抓数据抓包分析加密信息处理抓取热门评论内容词云词云运行效果总结前言网易云音乐一直是我向往的"神坛",听音乐看到走心的评论的那一刻,高山流水.于是今天来抓取一下歌曲的热门评论.并做成词云来展示,看看相对于这首歌最让人有感受的评论内容是什么. 做成词云的好处就是直观以及美观, 其他的我也想不出来有什么了. 抓数据要想做成词云,首先得有数据才行.于是需要一点点的爬虫技巧. 抓包分析加密信息处理抓取热门评论内容抓包分析使用Chrome控制台.我们可以轻松的找到评

使用爬虫抓取网易云音乐热门评论生成好玩的词云

互联网爬虫是一个很有意思的技术,借由爬虫,我们可以做到很多好玩的事情--这其中就包括爬取评论. 词云就是个更好玩的技术,通过技术方法分析词语出现频率,生成可视化的图形,将文字内容用图形呈现,想想就很意思. 这次,我们就试着把这两个技术结合起来吧. 前言网易云音乐一直是我向往的"神坛",听音乐看到走心的评论的那一刻,高山流水.于是今天来抓取一下歌曲的热门评论.并做成词云来展示,看看相对于这首歌最让人有感受的评论内容是什么. 做成词云的好处就是直观以及美观, 其他的我也想不出来有什么了.

《Python机器学习kaggle案例》-- 网易云课堂

https://study.163.com/course/courseMain.htm?courseId=1003551009 LinearRegression # -*- coding: utf-8 -*- """ Created on Sat Dec 1 09:24:27 2018 @author: zh """ import pandas as pd import numpy as np titanic = pd.read_csv('tra

?《Python自动化测试修炼宝典》线上课程已经成功入驻网易云课堂......

<Python自动化测试修炼宝典>线上课程已经成功入驻网易云课堂...... IT测试老兵利用工作之余,亲自录制的<Python自动化测试修炼宝典>线上课程已经成功入驻网易云课堂,想要提高测试技术的小伙伴可以线上购买课程进行学习. 课程背景测试人员进阶实战课程.本套课程以作者多年测试实战经验为背景,结合大量测试案例深入浅出讲解目前主流web端.app端自动化测试框架以及使用Python如何从0到1实现接口测试框架的搭建. 课程特色系统教学+实战案例+开放源码.涵盖Python3

Python -- 网络编程 -- 抓取网页图片 -- 图虫网

字符串(str)编码成字节码(bytes),字节码解码为字符串获取当前环境编码:sys.stdin.encoding url编码urllib.parse.quote() url解码urllib.parse.unquote() 列表去重:pages = list(set(pages)) 创建文件夹(可多级创建):os.makedirs(folder) os.mkdir()只能单级创建首先分析网页(图虫网)的URL规律: 根网页地址形如: http://tuchong.com/tags/人像/

如何利用Python网络爬虫抓取微信朋友圈的动态（上）

今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌,小编在网上找到了第三方工具,它可以将朋友圈进行导出,之后便可以像我们正常爬虫网页一样进行抓取信息了. [出书啦]就提供了这样一种服务,支持朋友圈导出,并排版生成微信书.本文的主要参考资料来源于这篇博文:https://www.cnblogs.com/sheng-jie/p/7776495.html

用python做网页抓取与解析入门笔记[zz]

(from http://chentingpc.me/article/?id=961) 事情的起因是,我做survey的时候搜到了这两本书:Computational Social Network Analysis和Computational Social Network,感觉都蛮不错的,想下载下来看看,但是点开网页发现这个只能分章节下载,晕,我可没时间一章一章下载,想起了迅雷的下载全部链接,试试看,果真可以把他们一网打尽,但是,sadly,迅雷下载的时候,文件名没办法跟章节名对应起来,晕,我可