爬虫代码实现四：采用Hbase存储爬虫数据(1)

3.Hbase表设计：

1.窄表：列少行多，表中的每一行尽可能保持唯一。

2.宽表：列多行少，通过时间戳版本来进行区分取值。

窄表：比如说，这个表，rowkey由userid+时间+bbsid假设bbsid为回帖的id。那么，对于同一个用于1001，假设我们需要查询1001用户某一天的数据，使用窄表，我们需要查询1001用户所有天数的rowkey数据，然后再一条条对比，最后找到我们需要查找的天数的数据。那如果是365天，我就是要查找第365天，一条条对比，这样效率很低。

那么，本项目该如何来设计Hbase表呢？

点击优酷的不同电视剧，发现url如下：

因此，我们可以采用网站来源+电视剧id作为rowkey，需要爬取的字段信息存于列簇，那么我们如何获取这些列字段比如一天24小时对应的值呢？

这里我们创建Hbase表，设置多个版本，create ‘tvcount‘,{NAME=>‘tvinfo‘,VERSIONS=>30}，这样对于同一个列，我们是存了多个时间段的相应的值，而不仅仅是一条。

具体操作：

1.首先打开hbase环境：

2.再输入$ clear

3.进入hbase shell命令：

4.查询list看有没有这个表

好像目前没有这个表任何信息

5.因此，这里需要创建一个表来存储优酷的电视剧的信息。创建tvcount表，列簇是tvinfo，记录30天的数据

6.再查list，发现有这个表了

7.查看下这个表

现在，我们这个表已经是创建成功了。

时间： 2024-08-10 19:30:00

爬虫代码实现四：采用Hbase存储爬虫数据(1)的相关文章

python爬虫入门（四）利用多线程爬虫

多线程爬虫先回顾前面学过的一些知识 1.一个cpu一次只能执行一个任务,多个cpu同时可以执行多个任务2.一个cpu一次只能执行一个进程,其它进程处于非运行状态3.进程里包含的执行单元叫线程,一个进程可以包含多个线程4.一个进程的内存空间是共享的,每个进程里的线程都可以使用这个共享空间5.一个线程在使用这个共享空间的时候,其它的线程必须等待(阻塞状态)6.互斥锁作用就是防止多个线程同时使用这块内存空间,先使用的线程会将空间上锁,其它的线程处于等待状态.等锁开了才能进7.进程:表示程序的一次执行

爬虫学习 11.scrapy框架持久化存储

爬虫学习 11.scrapy框架持久化存储基于终端指令的持久化存储基于管道的持久化存储今日详情 1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. 执行输出指定格式进行存储:将爬取到的数据写入不同格式的文件中进行存储 scrapy crawl 爬虫名称 -o xxx.json scrapy crawl 爬虫名称 -o xxx.xml scrapy crawl 爬虫名称

HBase存储时间相关多列数据的两种方案

所谓“时间相关多列数据”指的是同一个Key下具有多个属性数据,并且这些数据与时间具有相关性,多数场景是该Key对应在不同时间时刻的行为数据.在实际应用中,这类数据很多,例如电子商务网站上用户最近一段时间浏览的宝贝集合.访问的URL列表等. 使用HBase存储此类数据时,有以下两种常用的方案: 多行单列表结构设计 Row Key:用户标识ID + (Long.MAX_VALUE - timestamp) Column Family:’cf’ Column Qualifier:’’ Value:宝

分布式爬虫系统设计、实现与实战：爬取京东、苏宁易购全网手机商品数据+MySQL、HBase存储

[TOC] 1 概述在不用爬虫框架的情况,经过多方学习,尝试实现了一个分布式爬虫系统,并且可以将数据保存到不同地方,类似MySQL.HBase等. 基于面向接口的编码思想来开发,因此这个系统具有一定的扩展性,有兴趣的朋友直接看一下代码,就能理解其设计思想,虽然代码目前来说很多地方还是比较紧耦合,但只要花些时间和精力,很多都是可抽取出来并且可配置化的. 因为时间的关系,我只写了京东和苏宁易购两个网站的爬虫,但是完全可以实现不同网站爬虫的随机调度,基于其代码结构,再写国美.天猫等的商品爬取,难度不

爬虫技术（四）-- 简单爬虫抓取示例（附c#代码）

这是我的第一个爬虫代码...算是一份测试版的代码.大牛大神别喷... 通过给定一个初始的地址startPiont然后对网页进行捕捉,然后通过正则表达式对网址进行匹配. List<string> todo :进行抓取的网址的集合 List<string> visited :已经访问过的网址的集合下面实现的是,给定一个初始地址,然后进行爬虫,输出正在访问的网址和已经访问的网页的个数. 需要注意的是,下面代码实现的链接匹配页面的内容如图一.图二所示: 图一: 图二: 简单代码示范如下:

四十七 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索的自动补全功能

elasticsearch(搜索引擎)提供了自动补全接口官方说明:https://www.elastic.co/guide/en/elasticsearch/reference/current/search-suggesters-completion.html 1.创建搜索自动补全字段suggest 自动补全需要用到一个字段名称为suggest类型为Completion类型的一个字段所以我们需要用将前面的elasticsearch-dsl操作elasticsearch(搜索引擎)增加sugg

第三百二十四节，web爬虫，scrapy模块介绍与使用

第三百二十四节,web爬虫,scrapy模块介绍与使用 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy 使用了 Twisted异步网络库来处理网络通讯.

爬虫入门（四）：urllib2

主要使用python自带的urllib2进行爬虫实验. 写在前面的蠢事:本来新建了一个urllib2.py便于好认识这是urllib2的实验,结果始终编译不通过,错误错误.不能用Python的关键字(保留字)来命名py文件,改了就好了. 正则表达式与re Python 通过 re 模块提供对正则表达式的支持.使用 re 的一般步骤是:Step1:先将正则表达式的字符串形式编译为Pattern实例.Step2:然后使用Pattern实例处理文本并获得匹配结果(一个Match实例).Step3:最后

Node.js(十三)——Promise重构爬虫代码

在重构代码之前,先要了解下什么是https? https协议:基于ssl/tls的http协议,所有的数据都是在 ssl/tls协议的封装之上传输的,也就是说https协议是在http协议基础上添加了ssl/tls握手以及数据加密传输,因此这就是两者之间最大的区别. https模块专门处理加密访问的,区别在于搭建https服务器的时候需要有ssl证书. 模拟搭建https服务器 var https = require('https') var fs = require('fs')//文件系统模

猜你喜欢

运算符及题目（2017.1.8）

1.逻辑运算符:&:逻辑与,|:逻辑或,!:逻辑非,&&:短路与,||:短路或,^:逻辑异或. 注:两端都是boolean类型题13:class TestLogic{ Pub ...

java多线程实现简单队列

1.创建Queue.java public class Queue { private LinkedList<Object> list = new LinkedList<Object ...

term2,经常使用终端的同学肯定早就切换到这个东东上了,开源免费,和 zsh 搭配差不多已经取代 Terminal + bash 成了 Mac 上终端工具的标准配置. (iterm 2 快捷键) 标 ...

ZXing解析二维码

上一篇文件已经说过如何用ZXing进行生成二维码和带图片的二维码,下面说下如何解析二维码二维码的解析和生成类似,也可以参考google的一个操作类 BufferedImageLuminanceSou ...

HDU 1342 Lotto 【DFS】

Lotto Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total Subm ...

类图及类图中的关系

1.类图和对象图类图(Class Diagram)是显示出类.接口以及他们之间的静态结构与关系的图.其中最基本的单元是类或接口. 类图不但可以表示类(或者接口)之间的关系,也可以表示对象之间的关系 ...

MessFormat的简单使用

MessageFormat用法java.text.MessageFormat 作用:MessageFormat 获取一组对象,格式化这些对象,然后将格式化后的字符串插入到模式中的适当位置. Messa ...

ComboTree

Asp.net下拉树实现(Easy UI ComboTree) 场景描述:某个公司有多个部门并且部门存在子部门,通过一个下拉框选取多个部门,但是如果某个部门的子部门被全部选择,则只取该部门,而忽略子部 ...

Android--onItemClick

position———— 是adapter的某一项,如点击了listview第2项,而第2项对应的是adapter的第2个数值,那此时position的值就为1了. 如对应的是adapter的第3个数 ...

nginx实现读写分离

测试环境 OS: rhel6 A服务器: 配置nginx实现负载均衡和方向代理功能 B服务器: 简单的web服务器,没做其他配置,读服务器 C服务器: 简单的web服务器,没做其他配置,写服务器部署 ...

8款肉菜的做法集锦

关联关系的CRUD

关联关系中的CRUD_Cascade_Fetch 1. hibernate_1700_one2many_many2one_bi_crud 2. 设定 cascade 可以设定在持久化时对于关联对象的操 ...

HTMLCSS学习笔记（一）----代码初识、盒模型

---恢复内容开始--- html 超文本标记语言 ---- 结构 css 层叠样式表 ---- 样式 js javascript ---- 行为 HTML 超文本标记语言 < ...

上下文——webApplicationContext 与servletContext

1.WebApplicationContext的研究 ApplicationContext是spring的核心,Context通常解释为上下文环境,用"容器"来表述更容易理解一些, ...

bestcoder 47# wyh2000 and a string problem (水题)

wyh2000 and a string problem Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/65536 K ...

iOS项目工程添加.a文件遇到的Dsymutil Error

将.a文件加入工程,很多教程讲的都是: 右键选择Add->Existing Files…,选择.a文件和相应的.h头文件.或者将这两个文件拖入XCode工程目录结构中,在弹出的界面中勾选Copy ...

PAT 团体程序设计天梯赛-练习集 L1-015. 跟奥巴马一起画方块

美国总统奥巴马不仅呼吁所有人都学习编程,甚至以身作则编写代码,成为美国历史上首位编写计算机代码的总统.2014年底,为庆祝“计算机科学教育周”正式启动,奥巴马编写了很简单的计算机代码:在屏幕上画一个正 ...

z-index用法总结

一.定义: z-index 只适用于元素有定位的情况,表示层级数值越大层级越高展示的位置越靠前. 二.用法: 1.同级关系: z-index值较大的元素将叠加在z-index值较小的元素之上 ( ...

leetcode 85 Maximal Rectangle ----- java

Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing only 1's and ...

[AngularJS] Using $parse Service

$parse is useful when you want to parse an expression and the context is not defined yet. For exampl ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.