【爬虫】听故事的故事人

  “ 我每天上班都会经过一个地铁出站口,这个出口平常人不多,有一台长长的扶梯,扶梯下面经常站着一个地铁站务员,她的任务就是看着这列扶梯。每天经过的时候,我都看到她满脸的无聊和困惑,可能她自己也搞不清楚到底为什么要站在这里。

——故事FM

  昨天看支付宝年度账单,全年出行次数至少335次。来北京两年半,已经不知道多少次走过同一个地铁站,同一个人挤人的地下通道,经过同一个忙碌的人潮。

  有时候,疲劳的抬起头可以看到电梯扶手旁的站务员也在满脸疲惫的看着你,眼神中透露出不可言喻的感情,迷惘的人要么埋头前行,要么默念希望,在拥挤的地铁站里,每个人都有自己的故事,每个人也都在为别人的故事增添了些许精彩。

01

地铁里消失的年轻人

  “ 我每天上班都会经过一个地铁出站口,这个出口平常人不多,有一台长长的扶梯,扶梯下面经常站着一个地铁站务员,她的任务就是看着这列扶梯。每天经过的时候,我都看到她满脸的无聊和困惑,可能她自己也搞不清楚到底为什么要站在这里。

  一直对熟悉又陌生的地铁站务员的故事充满兴趣,一直也在故事FM聆听别人分享的好故事,《地铁里消失的年轻人》带我认识了这群有故事的人。感兴趣的话,你也可以听听他们的故事,故事里可能也藏着你我。。。

地铁里消失的年轻人:一个站务员的自述故事FM - 故事FM

02

听故事的故事人

  作为《故事FM》的网易云听众,在故事听到“过于真实”的时候,我常常会看看网易云音乐评论,看看有没有人和我一样感同身受,和我一样为故事而感动、喝彩或同情。

最近将以前的学习的代码整理了一下,增加了网易云音乐电台的评论爬取,看看那些听故事的故事评论人是怎样的人!

  在网易云音乐评论爬取中,值得注意的一点是动态页面加载。

  网易云音乐评论采用动态加载的方式翻页更新,打开Chrome的“检查”功能切换到“Network”,点击“下一页”会发现地址栏的网址没有变化,但是出现了一条貌似评论API的post请求,多次点击“下一页”,你会发现Request URL没有变化,变化的是Form Data,这里就是网易云音乐评论爬虫的精髓了,通过加密页面参数生成新的Form Data,post获取下一页的评论数据,关于网易云音乐评论加密算法,网络上有大量文章有进行相关介绍研究,我整理的是来自会讲故事的知乎大佬的加密讲解。

网易云音乐评论翻页,Chrome检查页面

  通过爬取评论用户ID,用户名,用户头像,评论时间,点赞数和评论详情为下一步数据分析部分做准备。

  爬虫部分今天就先说这么多,关注微信公众号:正版乔,持续了解听故事的故事人,一步一步了解python爬虫,数据库存储,数据分析,数据可视化的全过程。回复「故事评论」查看你想看的细节~

同时,大家也可以关注《故事FM》,听听这个世界其他人相同或不同,有趣或无趣的人生故事。

推荐阅读:



一个学统计的程序员

喜欢Coding

喜欢硬件

喜欢树莓派

喜欢深度学习

喜欢你

原文地址:https://www.cnblogs.com/qiaohaoforever/p/10258271.html

时间: 2024-10-09 23:22:41

【爬虫】听故事的故事人的相关文章

【数据库】听故事的故事人

" 美好的故事,不仅要听,也要记!" 经过上次对<故事FM>进行爬虫[爬虫]听故事的故事人,我们得到了我们想要对评论数据,格式化的数据给人一种很舒心的感觉,但是,数据得到了,那我们总得保存它吧!用看的没法进行下一步的操作呀- 01 - 储存方式选择 在数据储存方式有很多种,我们需要根据数据的格式.类型.数据量和后期的数据处理设想来选择适合我们的储存方式.在数据量较小,数据后期可能直接提供给他人查看使用的情况下,通常使用便于非编程人员使用的csv.txt或者json等易于操作

Python爬虫实践 —— 7.秘密网鬼故事大全故事爬取(lxml xpath+requests)

因为教程的demo网站糗事百科已经gg(好像是涉及用户私人信息什么的原因),所以我就只好随便找了个网站练手. 前几天学习了部分lxml的用法,主要是etree,因为4.4.2版本的更新,etree现在在ElementInclude包内,直接引用是不行了,并且etree添加了新的parser,调用parse方法时要先实例化HTMLparse方法,当然我这个垃圾爬虫没有用爬取html和数据清洗两个步骤分离,而且demo么没有用多线程,导致爬200个鬼故事,几mb的txt,爬取写入时间真的不是很理想啊

3星|《东方启动点》:民营企业家们的故事,故事多分析概括少

浙江企业的40年发展史.分成上下两册,共567页. 上册比较有意思.讲1978年到1999年之间的民营企业家们的故事,有许多是没听过的或者已经淡出记忆的.绝大部分企业家是白手起家,文化程度不高,一路跌跌撞撞,有成功更多的是失败. 读后感觉浙江制造业最牛的一点是打火机之类的小产业的大规模集群,由此带来的价格优势和柔性制造优势领先于全世界. 另外一点印象深刻的是,改革开放初期,浙江人就走遍全国,推销本地的小商品. 下册相对比较枯燥无趣,资料堆砌较多. 作者是新闻记者与编辑出身.采访过部分书中的企业家

问我故事故事的故事格式的似的

 http://weheartit.com/zhantangweng/collections/60137854-2014-12-19 http://weheartit.com/zhantangweng/collections/60137846-2014-12-19 http://weheartit.com/zhantangweng/collections/60137838-2014-12-19 http://weheartit.com/zhantangweng/collections/601

数学故事

发信人: ukim (我没有理想), 信区: Mathematics 标 题: Heroes in My Heart ( 序 ) 发信站: 北大未名站 (2002年04月06日14:23:24 星期六), 转信 --------------------------------- To Music For the Encouragement and Smiles She Gave Me --------------------------------- 序 废话几句. 多年以前,我有一个很宏伟的计

敏捷开发(三)- 估算故事

前两篇文章介绍的是 搜集故事和编写估算,本篇文章接着前面的文章往下说,有了story(故事)之后如果对故事进行估算 下面主要是进行估算的大体checkLists 对与一个故事的估算方法应该具有如下特点       1.运行改变估算结果       2.适用于所有的故事       3.很容易很简单的进行估算,不需要花费太多时间       4.提供进度和剩余工作的主要信息       5.计算不准确也不会有大问题       6.估算的结果可以用来指定发布计划一.以故事点的形式进行估算 故事点估

我对天津化学品爆炸的说法和一些专业故事

一天前夜里的几声巨响把天津变成了热门词汇,网络上的祈福,默哀,致敬,自保技巧硬生生的把这世界级的骇人事件变得更像说资,事件过后当事人受到的伤害一点也没有减少,幸存者承受的却是残酷的 "自我认识和自我提高",该负责的,该反省的,就这样潜移默化的自行解散了. 事情不应该是这样的逻辑,也不能是这样的逻辑,尤其是如此恶性的事件. 我没有做大数据分析,也没有调查历史,其实心也已经麻木了,躲在美帝多年,以为可以自清,可每每发生此类事件,还是痛心疾首.尤其这次,对我这个在化学领域摸爬滚打13年之多的

故事,让你的产品狂卖的秘诀!

故事,让你的产品狂卖的秘诀! 故事是一种说服的艺术.在今天产品品牌选择过多,广告信息资讯泛滥,消费者对传统的广告信任下降甚至是抵触的情况下,变革时代新媒体下的品牌营销和产品销售故事营销之道! 故事,让你的产品狂销! 你知道世界最畅销的书是什么书吗? 答案是<圣经>! <圣经>每年狂卖千万甚至上亿册,而且年年如此,年年畅销,而他的秘诀就是,这本书里面全是故事.你以为他是卖的是书,他卖的故事. 你知道美国有一位互联网营销大师Sethgodin,他写过一本畅销书<AllMarket

商业分析师应如何构建一个商业故事

在之前的如何修炼成一个合格的商业分析师中我们提到一个好的分析师最重要的特点就是会讲故事.今天的文章里我们不讲技术,我们来谈谈如何讲故事.* 一个好的商业故事是可以很有力量的,可以很抓人心的,但往往很多故事都会忽略大的远景.一个好的引人入胜的故事关键在于故事中的主人公在经历了严重的灾难或者一些比较严重的问题后有所改变(屌丝变男/女神的逆袭),而这个改变的过程就是故事的主线.而许多不成功的商业故事的问题在于故事中任何人都没能超越自己,故事到结尾主人公什么也没有改变.所以我们要讲什么样的故事呢?要想讲