memsql filesystem pipeline 试用

一些功能类似drill ，比如s3，file 。。。

创建file pipeline

准备file

mkdir -p /opt/db/
touch books.txt
内容如下：
The Catcher in the Rye, J.D. Salinger, 1945
Pride and Prejudice, Jane Austen, 1813
Of Mice and Men, John Steinbeck, 1937
Frankenstein, Mary Shelley, 1818

创建表

memsql

CREATE DATABASE books;

USE books;

CREATE TABLE classic_books
(
title VARCHAR(255),
author VARCHAR(255),
date VARCHAR(255)
);

创建pipeline

CREATE PIPELINE library
AS LOAD DATA FS ‘/opt/db/*‘
INTO TABLE `classic_books`
FIELDS TERMINATED BY ‘,‘;

启用pipeline

启动

START PIPELINE library;

查看状态

SHOW PIPELINES;

测试结果

几个问题

Paused due to error. Run START PIPELINE or consider setting pipelines_stop_on_error to false

配置参数修改
SET GLOBAL pipelines_stop_on_error = false;

注意文件的权限，同时文件必须是每个节点的，不然一直看不到数据（我没注意一直在master，就有问题）
经常有以下提示

Data volume has significantly changed since the last time ANALYZE TABLE was run. Run <a target="_blank" href="https://docs.memsql.com/ops-redir/analyze/?utm_source=ops&amp;utm_medium=link&amp;utm_campaign=ref" data-reactid=".0.3.1.2.0.2.0.0.0.3" style="background:rgb(250, 250, 250);color:rgb(18, 135, 186);text-decoration:none;font-size:1.067rem;"><b data-reactid=".0.3.1.2.0.2.0.0.0.3.0">ANALYZE TABLE</b></a> on each table to improve query performance andrefresh schema.

解决方法

按照提示操作即可，这个可能和我的系统没有进行参数优化有关，具体的可以参考下面的资料的安装最佳实践

参考资料

https://docs.memsql.com/memsql-pipelines/v6.0/filesystem-pipelines-quickstart/
https://docs.memsql.com/memsql-pipelines/v6.0/filesystem-pipelines-overview/
https://docs.memsql.com/tutorials/v6.0/installation-best-practices/

原文地址：https://www.cnblogs.com/rongfengliang/p/9202879.html

时间： 2024-10-03 06:22:39

memsql filesystem pipeline 试用的相关文章

试用Jenkins 2 的 Pipeline 项目

目前Jenkins最新的版本是2.7,现在试用一下pipeline类型的项目,本来想构建一个1.651版本的Jenkins为例,无奈大陆的网络访问github不稳定,只好改为简单的工程. 目前有一个代码仓库地址: https://github.com/wangzy23/jenkins-pipeline.git 里面有一个代码文件 jenkins.c , 编译命令是:“gcc jenkins.c -o jenkins” , 运行编译的可执行文件./jenkins ,输出为:“Hello Jenk

flynn 开源paas 平台安装试用

flynn-host bootstrapflynn 是一个不错的开源paas 平台,基于git 以及容器技术,开发模型与 heroku 基本一样,同时构建方式就是基于heroku 的buildpacks 安装官方文档提示说明是ubuntu 操作系统16 以及14 ,所以安装就试用ubuntu了 shell sudo bash < <(curl -fsSL https://dl.flynn.io/install-flynn) 效果比较漫长,等待安装的组件 Install Flynn’s r

华为云ARM64服务器试用

公司同事弄了个华为云的ARM64服务器,让我帮忙部署我们的服务,所以先试用了一下. 总体感觉还行,使用的CentOS系统,yum也能用,epel源也可以用.但是SCL软件集用不了. uname -a Linux unispace-arm 4.14.0-115.8.1.el7a.aarch64 #1 SMP Wed Jun 5 15:01:21 UTC 2019 aarch64 aarch64 aarch64 GNU/Linux 服务器配置还行,内存又13G多,4核心的CPU,但是这里看不到CPU

Python深度学习自然语言处理工具Stanza试用！这也太强大了吧！

众所周知, 斯坦福大学自然语言处理组出品了一系列NLP工具包,但是大多数都是用Java写得,对于Python用户不是很友好.几年前我曾基于斯坦福Java工具包和NLTK写过一个简单的中文分词接口: Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器 ,不过用起来也不是很方便.深度学习自然语言处理时代,斯坦福大学自然语言处理组开发了一个纯Python版本的深度学习NLP工具包: Stanza - A Python NLP Library for Many Human Languag

试用时间序列数据库InfluxDB

Hadoop集群监控需要使用时间序列数据库,今天花了半天时间调研使用了一下最近比较火的InfluxDB,发现还真是不错,记录一下学习心得. Influx是用Go语言写的,专为时间序列数据持久化所开发的,由于使用Go语言,所以各平台基本都支持.类似的时间序列数据库还有OpenTSDB,Prometheus等. OpenTSDB很有名,性能也不错,但是基于HBase,要用那个还得先搭一套HBase,有点为了吃红烧肉自己得先去杀猪,烫皮,拔毛的感觉.Prometheus相关文档和讨论太少,而Influ

尝试用filter()函数删除1~100的素数

题目来自"廖雪峰的官方网站--Python教程",尝试用filter()函数删除1~100的素数: def is_prime(n): if n <= 1: return False for s in range(2,n): if n % s == 0: return False return True print filter(is_prime,range(1,101) 素数的定义: 质数(

tolua++ 试用demo

一直知道cocos2dx lua是通过tolua++导出lua接口的,但一直没自己去导过,最近比较闲,试了下. 我的环境是:ubuntu ,安装好tolua++后就可以在命令行下试用 tolua++ 工具导出. MyClass.cpp文件: #include <iostream> #include "tolua++.h" class MyClass { public: void say() { std::cout << "

Elasticsearch Kibana试用

Kibana是一个用于ElasticSearch分析和查询的仪表盘,关于Kibana的介绍原文如此.值得注意的是Kibana把分析放在了查询的前面,这大概是Kibana区分于其它客户端的地方. 关于Kibana的介绍和文档请参考这里. 除此以外我还是用了了head和bigdesk,当然他们的定位几乎是不同的.head用于数据的浏览和查询相当简介好用,bigdesk用于ElasticSearch的集群状态监控,Kibana呢?具备查询功能,但是最吸引人的应该是它牛逼的图标和表现能力吧.至少在深入之

腾讯通RTX 手机安卓版试用

提到腾讯通RTX,很多朋友都耳熟能详,因为这是每天工作联络的必须品,同事间交流及传送文件都需要用到的工具.但提到RTX腾讯通手机版,不免会产生很多疑问.RTX还有手机版?带着这样的疑问,接下来就由昆明国防路百信手机大全为大家分享. 首先安装到手机.RTX手机版也延续了腾讯众多手机产品的特点,体积小权限多.安装完毕之后首次打开会看到"企业通讯录"的大Logo. 进行登录了,由于是需要"总机号",而非PC端的服务器地址,不清楚总机号的同学请询问本公司网管.登录后会看到底