爬虫数据存储——安装docker和ElasticSearch(基于Centos7)

先决条件

操作系统要求

要安装Docker Engine-Community，您需要一个CentOS 7的维护版本。不支持或未测试存档版本。
该centos-extras库必须启用。默认情况下，此存储库是启用的，但是如果已禁用它，则需要重新启用它。
overlay2建议使用存储驱动程序。

卸载旧版本

较旧的Docker版本称为docker或docker-engine。如果已安装这些程序，请卸载它们以及相关的依赖项。

$ sudo yum remove docker                   docker-client                   docker-client-latest                   docker-common                   docker-latest                   docker-latest-logrotate                   docker-logrotate                   docker-engine

如果yum报告未安装这些软件包，则可以。
的内容（/var/lib/docker/包括图像，容器，卷和网络）被保留。现在称为Docker Engine-Community软件包docker-ce。

使用存储库安装docker

设置存储库

1.安装所需的软件包。yum-utils提供了yum-config-manager 效用，并device-mapper-persistent-data和lvm2由需要 devicemapper存储驱动程序。

$ sudo yum install -y yum-utils   device-mapper-persistent-data   lvm2

2.使用以下命令来设置稳定的存储库。

$ sudo yum-config-manager     --add-repo     https://download.docker.com/linux/centos/docker-ce.repo

安装DOCKER ENGINE-社区

1.安装最新版本的Docker Engine-Community和containerd，或者转到下一步安装特定版本：

$ sudo yum install docker-ce docker-ce-cli containerd.io

2.要安装特定版本的Docker Engine-Community，请在存储库中列出可用版本，然后选择并安装：

$ yum list docker-ce --showduplicates | sort -r

docker-ce.x86_64  3:18.09.1-3.el7                     docker-ce-stable
docker-ce.x86_64  3:18.09.0-3.el7                     docker-ce-stable
docker-ce.x86_64  18.06.1.ce-3.el7                    docker-ce-stable
docker-ce.x86_64  18.06.0.ce-3.el7                    docker-ce-stable

$ sudo yum install docker-ce-<VERSION_STRING> docker-ce-cli-<VERSION_STRING> containerd.io

3.启动Docker。

$ sudo systemctl start docker
$ sudo systemctl enable docker

4.通过运行hello-world 映像来验证是否正确安装了Docker Engine-Community 。

$ sudo docker run hello-world

卸载Docker Engine-社区

1.卸载Docker软件包：

$ sudo yum remove docker-ce

2.主机上的映像，容器，卷或自定义配置文件不会自动删除。要删除所有图像，容器和卷：

$ sudo rm -rf /var/lib/docker

您必须手动删除所有已编辑的配置文件。

配置docker加速器

1.登录http://get.daocloud.io/ 选择Docker Hub加速器

curl -sSL https://get.daocloud.io/daotools/set_mirror.sh | sh -s http://f1361db2.m.daocloud.io

注意: 该脚本可以将 --registry-mirror 加入到你的 Docker 配置文件 /etc/docker/daemon.json 中。适用于 Ubuntu14.04、Debian、CentOS6 、CentOS7、Fedora、Arch Linux、openSUSE Leap 42.1，其他版本可能有细微不同。

安装elasticsearch

docker pull elasticsearch //下载最新版
docker run -d -p 9200:9200 elasticsearch //elasticsearch在9200端口运行
docker ps //列出所有在运行的容器信息
docker logs [OPTIONS] CONTAINER //获取容器日志
注意: 日志报错 OpenJDK 64-Bit Server VM warning: INFO: os::commit_memory(0x0000000085330000, 2060255232, 0) failed; error='Cannot allocate memory' (errno=12)
#
# There is insufficient memory for the Java Runtime Environment to continue.
说明你的内存不够运行elasticsearch,elasticsearch运行需要2G内存

原文地址：https://www.cnblogs.com/chenwenyin/p/12361369.html

时间： 2024-10-07 11:46:09

爬虫数据存储——安装docker和ElasticSearch(基于Centos7)的相关文章

python3下scrapy爬虫(第十一卷:scrapy数据存储进mongodb）

说起python爬虫数据存储就不得不说到mongodb,现在我们来试一下scrapy操作mongodb 首先开启mongodb mongod --dbpath=D:\mongodb\db 开启服务后就可以进行使用, 还是接着上一卷在上进行修改: 来看下结果: 看到没有爬虫的完善就像个公式,不断嵌套原文地址:https://www.cnblogs.com/woshiruge/p/8407057.html

客户端(浏览器端)数据存储技术概览

客户端(浏览器端)存储数据有诸多益处,最主要的一点是能快速访问(网页)数据.目前常见的浏览器端数据存储方法有:Cookies,Local Storage,Session Storage,IndexedDB. Cookies Cookies 是一种在文档内存储字符串数据最典型的方式.一般而言,cookies 会由服务端发送给客户端,客户端存储下来,然后在随后让请求中再发回给服务端.这可以用于诸如管理用户会话,追踪用户信息等事情. 此外,客户端也用使用 cookies 存储数据.因而,cookies

Android成长日记-数据存储之SharedPreferences

数据篇-SharedPreferences Android的四种存储方式 1. SharedPreferences 2. SQLite 3. Content Provider 4. File ------------------------------华丽分割线---------------------------- SharedPreference: 1. 是一种轻型的数据存储方式 2. 本质是基于XML文件存储Key-Value键值对数据 3. 通常用来存储一些简单的配置信息 -------

Python3网络爬虫实战-32、数据存储：关系型数据库存储:MySQL

关系型数据库基于关系模型的数据库,而关系模型是通过二维表来保存的,所以它的存储方式就是行列组成的表,每一列是一个字段,每一行是一条记录.表可以看作是某个实体的集合,而实体之间存在联系,这就需要表与表之间的关联关系来体现,如主键外键的关联关系,多个表组成一个数据库,也就是关系型数据库. 关系型数据库有多种,如 SQLite.MySQL.Oracle.SQL Server.DB2等等. 在本节我们主要介绍 Python3 下 MySQL 的存储. 在 Python2 中,连接 MySQL 的库大多是

Python3网络爬虫实战-33、数据存储：非关系型数据库存储:MongoDB

NoSQL,全称 Not Only SQL,意为不仅仅是 SQL,泛指非关系型的数据库.NoSQL 是基于键值对的,而且不需要经过 SQL 层的解析,数据之间没有耦合性,性能非常高. 非关系型数据库又可以细分如下: 键值存储数据库,代表有 Redis, Voldemort, Oracle BDB 等. 列存储数据库,代表有 Cassandra, HBase, Riak 等. 文档型数据库,代表有 CouchDB, MongoDB 等. 图形数据库,代表有 Neo4J, InfoGrid, Inf

docker解决数据存储问题的方案

如今docker在云计算领域发展的势头非常猛,各个公司不论大小都開始研究这个开源工具和技术.环绕docker的开源项目和创业公司也多如牛毛,就是一个简单管理container的web ui都有非常多开源项目.只是还是一个人说的好.docker必须要是集群才好玩.并且越大越好玩. 当然这是从玩技术的人眼中看待的问题,假设要真正用于生产还是有非常多问题须要解决,非常多方案须要设计,非常多容错须要处理. 今天看资料学习到了docker是如何解决容器里面数据存储的问题的方案,曾经做PAAS遇到过这样的问

2017.08.04 Python网络爬虫之Scrapy爬虫实战二天气预报的数据存储问题

1.数据存储到JSon:程序阅读一般都是使用更方便的Json或者cvs等待格式,继续讲解Scrapy爬虫的保存方式,也就是继续对pipelines.py文件动手脚 (1)创建pipelines2json.py文件: import timeimport jsonimport codecs class WeatherPipeline(object): def process_item(self, item, spider): today=time.strftime('%Y%m%d',time.loc

大快搜索数据爬虫技术实例安装教学篇

大快搜索数据爬虫技术实例安装教学篇爬虫安装前准备工作:大快大数据平台安装完成.zookeeper.redis.elasticsearch.mysql等组件安装启动成功. 1.修改爬虫安装配置文件(最好在线下修改好后再上传平台) 2.修改crawler\dkcrw\jdbc.properties配置文件(只修改图片里的内容其他内容默认即可) Hbase.zookeeper.quorum所填地址应在DKM监控平台查看: Redis相关配置看如下界面: 3.把已修改的crawler\dkcrw\下的

java调用Linux执行Python爬虫，并将数据存储到elasticsearch--（环境脚本搭建）

java调用Linux执行Python爬虫,并将数据存储到elasticsearch中一.以下博客代码使用的开发工具及环境如下: 1.idea: 2.jdk:1.8 3.elasticsearch:5.2.0 4.Linux 5.Python 6.maven 二.maven坐标:  <dependency> <groupId>ch.ethz.ganymed</groupId> <artifactId>