解析数据存储MySQL

为了适应不同项目对不同感兴趣属性的解析存储,数据存储结构采用纵向的属性列表方式,即一个url页面多个属性存储多条记录方式,并且按照text,html,data,num几大典型类型分别对应存储。

  创建UTF-8字符集的nutch数据库,并执行表初始化脚本,参考DDL:

  CREATE TABLE `crawl_data` (

  `url` varchar(255) NOT NULL,

  `code` varchar(255) NOT NULL,

  `name` varchar(255) DEFAULT NULL,

  `category` varchar(255) DEFAULT NULL,

  `order_index` int(255) DEFAULT NULL,

  `fetch_time` datetime NOT NULL,

  `text_value` text, `html_value` text,

  `date_value` datetime DEFAULT NULL,

  `num_value` decimal(18,2) DEFAULT NULL

  ) ENGINE=InnoDB DEFAULT CHARSET=utf8;

  

  为了一般在业务系统获取同一个url的多个属性或友好查询显示,参考如下MySQL脚本实现把纵向的属性列表属性转换为横向的多列显示模式。网上有 相关参考脚本大多是基于数字字段sum汇总等模式的纵转横SQL脚本,本项目需求是单一的基于字符串信息转换,经过一段摸索最后找到基于 GROUP_CONCAT可以实现:

  SELECT url ,fetch_time,

  GROUP_CONCAT(CASE WHEN code = ‘domain‘ THEN text_value ELSE null END) AS `domain`,

  GROUP_CONCAT(CASE WHEN code = ‘name‘ THEN text_value ELSE null END) AS `name`,

  GROUP_CONCAT(CASE WHEN code = ‘brand‘ THEN text_value ELSE null END) AS `brand`,

  GROUP_CONCAT(CASE WHEN code = ‘category‘ THEN text_value ELSE null END) AS `category`,

  GROUP_CONCAT(CASE WHEN code = ‘purpose‘ THEN text_value ELSE null END) AS `purpose`,

  GROUP_CONCAT(CASE WHEN code = ‘price‘ THEN num_value ELSE null END) AS `price`,

  GROUP_CONCAT(CASE WHEN code = ‘refPrice‘ THEN num_value ELSE null END) AS `refPrice`,

  GROUP_CONCAT(CASE WHEN code = ‘primaryImage‘ THEN text_value ELSE null END) AS `primaryImage` FROM crawl_data GROUP BY url,fetch_time

  

时间: 2024-10-25 08:07:12

解析数据存储MySQL的相关文章

2.zookeeper原理解析-数据存储之Snapshot

=====================================斩秋|http://blog.csdn.net/quhongwei_zhanqiu======================================= Snapshot是datatree在内存中某一时刻的影像,zookeeper有一定的机制会定时生成datatree的snapshot.FileSnap实现了SnapShot接口负责将数据写入文件中,下面我们来看看snap相关内容. 2.1 snapshot文件格式

zookeeper原理解析-数据存储

Zookeeper内存结构 Zookeeper是怎么存储数据的,什么机制保证集群中数据是一致性,在网络异常,当机以及停电等异常情况下恢复数据的,我们知道数据库给我们提供了这些功能,其实zookeeper也实现了类似数据库的功能. 1.      Zookeeper内存结构 Zookeeper数据在内存中的结构类似于linux的目录结构 DataTree代表这个目录结构, DataNode代表一个节点 DataTree: 默认初始化三目录 1)"" 2) "/zookeeper

3.zookeeper原理解析-数据存储之TxnLog事务日志

=====================================斩秋|http://blog.csdn.net/quhongwei_zhanqiu======================================= 事务日志文件用来记录事物操作,每一个事务操作如添加,删除节点等等,都会在事务日志中记录一条记录,用来在zookeeper异常情况下,通过txnlog和snapshot文件来恢复数据,下面我们来看下txnLog事务日志文件的格式 打开一个事务日志文件看看 一个日志文

重新学习MySQL数据库3:Mysql存储引擎与数据存储原理

重新学习Mysql数据库3:Mysql存储引擎与数据存储原理 数据库的定义 很多开发者在最开始时其实都对数据库有一个比较模糊的认识,觉得数据库就是一堆数据的集合,但是实际却比这复杂的多,数据库领域中有两个词非常容易混淆,也就是数据库和实例: 数据库:物理操作文件系统或其他形式文件类型的集合: 实例:MySQL 数据库由后台线程以及一个共享内存区组成: 对于数据库和实例的定义都来自于 MySQL 技术内幕:InnoDB 存储引擎 一书,想要了解 InnoDB 存储引擎的读者可以阅读这本书籍. 数据

Python3网络爬虫实战-32、数据存储:关系型数据库存储:MySQL

关系型数据库基于关系模型的数据库,而关系模型是通过二维表来保存的,所以它的存储方式就是行列组成的表,每一列是一个字段,每一行是一条记录.表可以看作是某个实体的集合,而实体之间存在联系,这就需要表与表之间的关联关系来体现,如主键外键的关联关系,多个表组成一个数据库,也就是关系型数据库. 关系型数据库有多种,如 SQLite.MySQL.Oracle.SQL Server.DB2等等. 在本节我们主要介绍 Python3 下 MySQL 的存储. 在 Python2 中,连接 MySQL 的库大多是

MySQL 5.7:非结构化数据存储的新选择

本文转载自:http://www.innomysql.net/article/23959.html (只作转载, 不代表本站和博主同意文中观点或证实文中信息) 工作10余年,没有一个版本能像MySQL 5.7那样令我激动与期盼,10月MySQL 5.7 GA版本的发布,意味着MySQL数据库终于有能力在传统企业中向商业数据库发起挑战,开源的Linux操作系统干掉了封闭的Unix系统,MySQL会不会再一次逆袭商业产品?目前来看,或许很难,但是机会已经掌握在自己上手,后面的发展就看MySQL团队能

无废话Android之android下junit测试框架配置、保存文件到手机内存、android下文件访问的权限、保存文件到SD卡、获取SD卡大小、使用SharedPreferences进行数据存储、使用Pull解析器操作XML文件、android下操作sqlite数据库和事务(2)

1.android下junit测试框架配置 单元测试需要在手机中进行安装测试 (1).在清单文件中manifest节点下配置如下节点 <instrumentation android:name="android.test.InstrumentationTestRunner" android:targetPackage="com.example.demo1" /> 上面targetPackage指定的包要和应用的package相同. (2)在清单文件中ap

iOS狂暴之路---iOS中应用的数据存储方式解析

一.前言 前面一篇文章中已经介绍了iOS应用中的视图控制器知识点,而本文不会按照常理来介绍View的知识点,而是先介绍iOS中的数据存储知识点,因为关于View的知识点太多了,后面会连续详细介绍一下.这篇先来看一下iOS中的数据存储功能分析.每一个iOS应用和Android应用一样,都有其对应的沙盒存储自己的数据,但是iOS和Android有一个区别就在于没有SD卡的概念了,也就说在iOS中应用的数据只能保存到自己的沙盒中.这也可以看出来iOS为了应用的安全考虑. 在开发Android的时候都知

Unity3d数据存储 PlayerPrefs,XML,Json数据的存储与解析

今天来复习一下数据存储方面的基础知识,Unity3d中常用的数据存储方式有Unity自带的PlayerPrefs, XML文档, Json文档,还有常用的轻量级数据库SQL, 涉及的琐碎知识非常多,在这里自己归纳总结一下,方便日后温故而知新. PlayerPrefs存储数据 PlayerPrefs的存储方式非常简单,但可用性不强,一般只用于调试过程存储少量数据,很少大范围使用 适用设备:Mac OSX, Linux, Windows,Web Players 存储机制:Key-Value (类似于