【数据库】听故事的故事人


 美好的故事,不仅要听,也要记!

经过上次对《故事FM》进行爬虫【爬虫】听故事的故事人,我们得到了我们想要对评论数据,格式化的数据给人一种很舒心的感觉,但是,数据得到了,那我们总得保存它吧!用看的没法进行下一步的操作呀~


01

储存方式选择

在数据储存方式有很多种,我们需要根据数据的格式、类型、数据量和后期的数据处理设想来选择适合我们的储存方式。在数据量较小,数据后期可能直接提供给他人查看使用的情况下,通常使用便于非编程人员使用的csv、txt或者json等易于操作的储存格式;在数据结构化,且数据量一般的情况下,可使用数据库储存;如最常用的mysql、轻量级数据库sqlite、文本型数据库mongoDB等;数据量太大的话,可以考虑hdfs分布式储存使用。

这里由于评论数据文本短、数据量不大、后期需要数据处理的缘故,我们选择轻量级数据库SQLite储存评论数据。

SQLite是一个进程内的库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。它是一个零配置的数据库,这意味着与其他数据库一样,您不需要在系统中配置。


02

那就干!

设计数据库:

根据爬虫所得数据,我们可以建立两个数据库:歌名--ID映射的菜单数据库和评论爬虫的格式化数据库。


数据库语句:

123456789101112
-- 注:语句为python执行语句-- 创建菜单数据库CREATE TABLE music_dic (music_id real, music_name text, time text);

-- 菜单信息,有则更新,无则插入REPLACE INTO music_dic VALUES(?,?,?);

-- 新建评论数据库CREATE TABLE IF NOT EXISTS music + str(music_id) + (music_name text, comment_id real ,user_id text,user_name text,avatar_url text,comment_time real,liked_count real,comment text);

-- 插入爬虫数据INSERT INTO music"+str(music_id)+" VALUES(?,?,?,?,?,?,?,?);

这样我们想要的评论爬虫数据就被我们收入囊中了,嘻嘻~

关注微信公众号:正版乔,一起和我探索Coding的乐趣~

推荐阅读:



一个学统计的程序员

喜欢Coding

喜欢硬件

喜欢树莓派

喜欢深度学习

喜欢你

原文地址:https://www.cnblogs.com/qiaohaoforever/p/10264855.html

时间: 2024-10-11 08:16:24

【数据库】听故事的故事人的相关文章

【爬虫】听故事的故事人

" 我每天上班都会经过一个地铁出站口,这个出口平常人不多,有一台长长的扶梯,扶梯下面经常站着一个地铁站务员,她的任务就是看着这列扶梯.每天经过的时候,我都看到她满脸的无聊和困惑,可能她自己也搞不清楚到底为什么要站在这里." --故事FM 昨天看支付宝年度账单,全年出行次数至少335次.来北京两年半,已经不知道多少次走过同一个地铁站,同一个人挤人的地下通道,经过同一个忙碌的人潮. 有时候,疲劳的抬起头可以看到电梯扶手旁的站务员也在满脸疲惫的看着你,眼神中透露出不可言喻的感情,迷惘的人要么

3星|《东方启动点》:民营企业家们的故事,故事多分析概括少

浙江企业的40年发展史.分成上下两册,共567页. 上册比较有意思.讲1978年到1999年之间的民营企业家们的故事,有许多是没听过的或者已经淡出记忆的.绝大部分企业家是白手起家,文化程度不高,一路跌跌撞撞,有成功更多的是失败. 读后感觉浙江制造业最牛的一点是打火机之类的小产业的大规模集群,由此带来的价格优势和柔性制造优势领先于全世界. 另外一点印象深刻的是,改革开放初期,浙江人就走遍全国,推销本地的小商品. 下册相对比较枯燥无趣,资料堆砌较多. 作者是新闻记者与编辑出身.采访过部分书中的企业家

Python爬虫实践 —— 7.秘密网鬼故事大全故事爬取(lxml xpath+requests)

因为教程的demo网站糗事百科已经gg(好像是涉及用户私人信息什么的原因),所以我就只好随便找了个网站练手. 前几天学习了部分lxml的用法,主要是etree,因为4.4.2版本的更新,etree现在在ElementInclude包内,直接引用是不行了,并且etree添加了新的parser,调用parse方法时要先实例化HTMLparse方法,当然我这个垃圾爬虫没有用爬取html和数据清洗两个步骤分离,而且demo么没有用多线程,导致爬200个鬼故事,几mb的txt,爬取写入时间真的不是很理想啊

问我故事故事的故事格式的似的

 http://weheartit.com/zhantangweng/collections/60137854-2014-12-19 http://weheartit.com/zhantangweng/collections/60137846-2014-12-19 http://weheartit.com/zhantangweng/collections/60137838-2014-12-19 http://weheartit.com/zhantangweng/collections/601

数学故事

发信人: ukim (我没有理想), 信区: Mathematics 标 题: Heroes in My Heart ( 序 ) 发信站: 北大未名站 (2002年04月06日14:23:24 星期六), 转信 --------------------------------- To Music For the Encouragement and Smiles She Gave Me --------------------------------- 序 废话几句. 多年以前,我有一个很宏伟的计

蓝的成长记——追逐DBA(13):协调硬件厂商,六个故事:所见所感的“服务器、存储、交换机”

原创作品,出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明出处,否则追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/43989939 [简介] 个人在oracle路上的成长记录,其中以蓝自喻,分享成长中的情感.眼界与技术的变化与成长.敏感信息均以英文形式代替,不会泄露任何企业机密,纯为技术分享. 创作灵感源于对自己的自省和记录.若能对刚刚起步的库友起到些许的帮助或共鸣,欣慰不已. 欢迎拍砖

敏捷开发(三)- 估算故事

前两篇文章介绍的是 搜集故事和编写估算,本篇文章接着前面的文章往下说,有了story(故事)之后如果对故事进行估算 下面主要是进行估算的大体checkLists 对与一个故事的估算方法应该具有如下特点       1.运行改变估算结果       2.适用于所有的故事       3.很容易很简单的进行估算,不需要花费太多时间       4.提供进度和剩余工作的主要信息       5.计算不准确也不会有大问题       6.估算的结果可以用来指定发布计划一.以故事点的形式进行估算 故事点估

项目管理(十二)- 敏捷开发之编写故事

在本章我们将关注故事编写,为了更好的构造故事,我们关注六个特性,一个好的故事应该具有如下6个方面的特点 故事的6个特征 1.独立的 避免故事之间的相互依赖,在对故事排列优先级时,或者使用故事做计划时,故事间的相互依赖会导致一些问题 2.可讨论的 故事是可讨论的,他们不是签署好的合同或者软件中必须实现的需求,敏捷故事是功能的简短描述,细节将在客户团队和开发团队中讨论中产生,故事是提醒客户团队和开发团队以后要进行关于需求的对话,它并不是具体的需求本身,因而它不需要包含具体的细节.这些细节可以在后期例

我对天津化学品爆炸的说法和一些专业故事

一天前夜里的几声巨响把天津变成了热门词汇,网络上的祈福,默哀,致敬,自保技巧硬生生的把这世界级的骇人事件变得更像说资,事件过后当事人受到的伤害一点也没有减少,幸存者承受的却是残酷的 "自我认识和自我提高",该负责的,该反省的,就这样潜移默化的自行解散了. 事情不应该是这样的逻辑,也不能是这样的逻辑,尤其是如此恶性的事件. 我没有做大数据分析,也没有调查历史,其实心也已经麻木了,躲在美帝多年,以为可以自清,可每每发生此类事件,还是痛心疾首.尤其这次,对我这个在化学领域摸爬滚打13年之多的