MongoDB数据量较大时如何构建索引--减少业务最少影响

在数据量较大或请求量较大,直接建立索引对性能有显著影响时,可以利用复制集(数据量较大时一般为线上环境,使用复制集为必然选择或者使用分片.)中部分机器宕机不影响复制集工作的特性,继而建立索引。

备注:添加索引的表使用WT引擎,数据量有1.5亿左右。

1. 副本集配置参数

节点1:

$ more shard1.conf

dbpath=/data/users/mgousr01/mongodb/dbdata/shard1_1

logpath=/data/users/mgousr01/mongodb/logs/shard1_1.log

pidfilepath=/data/users/mgousr01/mongodb/dbdata/shard1_1/shard1-1.pid

directoryperdb=true

logappend=true

replSet=shard1

shardsvr=true

bind_ip=127.0.0.1,x.x.x.x

port=37017

oplogSize=9024

fork=true

#noprealloc=true

#auth=true

journal=true

profile=1

slowms=10

maxConns=12000

storageEngine = wiredTiger

wiredTigerCacheSizeGB=96

#clusterAuthMode=keyFile

keyFile=/data/users/mgousr01/mongodb/etc/keyFilers0.key

wiredTigerDirectoryForIndexes=on

wiredTigerCollectionBlockCompressor=zlib

wiredTigerJournalCompressor=zlib

节点2:

$ more shard2.conf

dbpath=/data/users/mgousr01/mongodb/dbdata/shard2_1

logpath=/data/users/mgousr01/mongodb/logs/shard2_1.log

pidfilepath=/data/users/mgousr01/mongodb/dbdata/shard2_1/shard2-1.pid

directoryperdb=true

logappend=true

replSet=shard1

shardsvr=true

bind_ip=127.0.0.1,x.x.x.x

port=37017

oplogSize=9024

fork=true

#noprealloc=true

#auth=true

journal=true

profile=1

slowms=10

maxConns=12000

storageEngine = wiredTiger

wiredTigerCacheSizeGB=96

#clusterAuthMode=keyFile

keyFile=/data/users/mgousr01/mongodb/etc/keyFilers0.key

wiredTigerDirectoryForIndexes=on

wiredTigerCollectionBlockCompressor=zlib

wiredTigerJournalCompressor=zlib

节点3:

[[email protected] etc]$ more shard3.conf

dbpath=/data/users/mgousr01/mongodb/dbdata/shard3_1

logpath=/data/users/mgousr01/mongodb/logs/shard3_1.log

pidfilepath=/data/users/mgousr01/mongodb/dbdata/shard3_1/shard3-1.pid

directoryperdb=true

logappend=true

replSet=shard1

shardsvr=true

bind_ip=127.0.0.1,x.x.x.x

port=37017

oplogSize=9024

fork=true

#noprealloc=true

#auth=true

journal=true

profile=1

slowms=10

maxConns=12000

storageEngine = wiredTiger

wiredTigerCacheSizeGB=96

#clusterAuthMode=keyFile

keyFile=/data/users/mgousr01/mongodb/etc/keyFilers0.key

wiredTigerDirectoryForIndexes=on

wiredTigerCollectionBlockCompressor=zlib

wiredTigerJournalCompressor=zlib

2. 启动mongodb

mongod -f <参数名称>  启动

3. 配置副本集命令(登陆任意一台主机)

config={_id:‘shard1‘,members:[{_id:0,host:‘x.x.x.x:37017‘,priority:1,tags:{‘use‘:‘xxx‘}},{_id:1,host:‘x.x.x.x:37017‘,priority:1,tags:{‘use‘:‘xxx‘}},{_id:2,host:‘x.x.x.x:37017‘,priority:1,tags:{‘use‘:‘xxx‘}}]}

rs.initiate(config)

4. 在primary库进行写操作  模拟线上

for(i=0;i<100000;i++){ db.users.insert( { "username":"user"+i, "age":Math.floor(Math.random()*120), "created":new Date() })}

比如,用户信息增长比较快,超过了1亿多数据量等状况……

5. 数据量较大时创建索引的通用方法说明

创建索引不能再secondary节点创建,只能在主上创建索引。

为了尽量降低建立索引对 MongoDB Server 的影响,有一种方法是把 MongoDB Server 转换成standalone模式后建立。具体做法如下:

(1)首先把 secondary server 停止,在取消 --replSet 参数,并且更改 MongoDB port 之后重新启动 MongoDB,这时候 MongoDB 将进入 standalone 模式;

(2).在 standalone 模式下运行命令 ensureIndex 建立索引,使用 foreground 方式运行也可以,建议使用background方式运行;

(3)建立索引完毕之后关闭 secondary server 按正常方式启动;

4.根据上述 1~3 的步骤轮流为 secondary 建立索引,最后把 primary server 临时转换为 secondary server,同样按 1~3 的方法建立索引,再把其转换为 primary server。

这种方式还是比较麻烦的,但可以把建立索引操作对 MongoDB 的影响降到最低,在有些情况下还是值得做的。

6. 具体做法

(1)停其中一台Secondary节点

上述副本集是三节点:节点1是primary节点,节点2和节点3是secondary节点。

以节点3第二个secondary为例操作:

$ pwd

/data/users/mgousr01/mongodb/etc

$ mongod -f shard3.conf --shutdown   关闭mongod进程

(2)将shard3.conf配置文件的replSet=shard1注释掉

$ vim shard3.conf

……

#replSet=shard1

……

(3)然后启动

mongod -f shard3.conf

(4)登陆进去创建索引

mongo x.x.x.x:37017/admin

> use chicago

Build the Index

> db.users.ensureIndex({username:1,created:1},{unique:true},{name:"username_created_unique"},{background:true})

【建议以后创建索引 要有命名规范】

(5)查看索引信息

> db.users.getIndexes()

[

{

"v" : 1,

"key" : {

"_id" : 1

},

"name" : "_id_",

"ns" : "chicago.users"

},

{

"v" : 1,

"unique" : true,

"key" : {

"username" : 1,

"created" : 1

},

"name" : "username_1_created_1",

"ns" : "chicago.users"

}

]

(6)再次停掉副本集的mongod进程

$ pwd

/data/users/mgousr01/mongodb/etc

$ mongod -f shard3.conf --shutdown

(7)启动mongod进程

将shard3.conf配置文件的replSet=shard1注释去掉;然后启动

mongod -f shard3.conf

mongo ip:37017/admin

启动后,会将节点加入到副本集中,然后同步primary数据,secondary上的索引不会对主造成影响导致主从不一致状况发生。

7.对第二个secondary副本操作--节点2

重复第6步即可。

8.构建所有secondarys索引大致步骤

For each secondary in the set, build an index according to the following steps:

(1)Stop One Secondary

(2)Build the Index

(3)Restart the Program mongod

9.构建primary节点索引

(1)登陆到主节点

mongo ip:37017/admin

(2) 将主节点降级

shard1:PRIMARY> rs.stepDown(30)

2016-04-19T12:49:44.423+0800 I NETWORK  DBClientCursor::init call() failed

2016-04-19T12:49:44.426+0800 E QUERY    Error: error doing query: failed

at DBQuery._exec (src/mongo/shell/query.js:83:36)

at DBQuery.hasNext (src/mongo/shell/query.js:240:10)

at DBCollection.findOne (src/mongo/shell/collection.js:187:19)

at DB.runCommand (src/mongo/shell/db.js:58:41)

at DB.adminCommand (src/mongo/shell/db.js:66:41)

at Function.rs.stepDown (src/mongo/shell/utils.js:1006:15)

at (shell):1:4 at src/mongo/shell/query.js:83

2016-04-19T12:49:44.427+0800 I NETWORK  trying reconnect to xxxx failed

2016-04-19T12:49:44.428+0800 I NETWORK  reconnect xxxx ok

shard1:SECONDARY>

降级命令执行后,会主动变成secondary节点。上述两个secondary节点会有一个节点选举成为primary节点。

(3)后续构建索引的方法和第6步一样。

说明:

让primary降级:rs.stepDown(downseconds=60),primary降级期间,它不会参与选举,如果降级时限过后,副本集还是没有primary,它会参与选举。

Preventing Electoins

让secondaries保持状态:rs.freeze(seconds),这样就可以在这个时间内对primary做处理,而不用担心除非选举。

解除状态锁定:rs.freeze(0)。

时间: 2024-10-18 08:39:51

MongoDB数据量较大时如何构建索引--减少业务最少影响的相关文章

斯坦福大学公开课机器学习:machine learning system design | data for machine learning(数据量很大时,学习算法表现比较好的原理)

下图为四种不同算法应用在不同大小数据量时的表现,可以看出,随着数据量的增大,算法的表现趋于接近.即不管多么糟糕的算法,数据量非常大的时候,算法表现也可以很好. 数据量很大时,学习算法表现比较好的原理: 使用比较大的训练集(意味着不可能过拟合),此时方差会比较低:此时,如果在逻辑回归或者线性回归模型中加入很多参数以及层数的话,则偏差会很低.综合起来,这会是一个很好的高性能的学习算法. 原文地址:https://www.cnblogs.com/chenwenyan/p/8326027.html

Java模拟数据量过大时批量处理数据实现

代码: import java.util.ArrayList; import java.util.List; /** * 模拟批量处理数据 * 当数据量过大过多导致超时等问题可以将数据进行分批处理 * @author [] * */ public class BatchUtil { public static void listBatchUtil(List<Integer> lists) { System.out.println(lists); // 定义批处理的数据数量(即批处理条件) in

针对数据量较大的表,需要进行跨库复制,采用navcat 实现sqlite数据库跨数据库的数据表迁移 [转载]

2014年12月13日 14:36 新浪博客 (转自http://www.cnblogs.com/nmj1986/archive/2012/09/17/2688827.html) 需求: 有两个不同的SQLite数据库 A.B,需要将B数据库中的表复制到A数据库中去,数据量较小的时候,可以在数据库可视化工具Navicat中直接将表导成.sql文件,然后将sql文件在另一个数据库运行即可.但是当数据量较大时,这样操作会丢失一部分数据.因此针对这种情况可采用下述方法: 解决办法: (1)使用软件:S

第9条:用生成器表达式来改写数据量较大的列表推导式

核心知识点: (1)当输入的数据量较大时,列表推导可能会因为占用太多内存而出问题. (2)由生成器表达式所返回的迭代器,可以逐次产生输出值,从而避免内存用量问题. (3)把某个生成器表达式所返回的迭代器,放在另一个生成器表达式的for子表达式中,即可将二者结合起来. (4)串在一起的生成器表达式执行速度很快. 列表推导式的缺点是:在推导过程中,对于输入序列中的每个值来说,可能都要创建仅含一项元素的全新列表. 当输入的数据比较少时,不会出任何问题,但如果输入的数据非常多,那么可能会消耗大量内存,并

sql查询未走索引问题分析之查询数据量过大

前因: 客户咨询,有一个业务sql(代表经常被执行且重要),全表扫描在系统占用资源很高(通过ash报告查询得到信息) 思路: 1.找到sql_text,sql_id 2.查看执行计划 3.查询sql涉及对象的对象数据量,段大小,行数量,where条件列,是否存在索引,列的选择读情况如何 4.总结,优化整改 1.找到sql_text,sql_id 094cmrxrahdy2 SELECT 8~10个列名称(由于设计用户信息,因此部分信息不再详细说明) FROM Prescription WHERE

Web传输,前台的参数数据量过大[json格式的字符串],可能达到几M,ajax调用后台方法时

eb传输,前台的参数数据量过大[json格式的字符串],可能达到几M,ajax调用后台方法时,无法传递问题分析:tomcat上默认post提交大小为2M,左右,超过这个大小了,就会传值不成功解决方法:修改post提交大小的限制大小,在server.xml上修改,如下:<Connector port="8080" protocol="HTTP/1.1" connectionTimeout="2000" redirectPort="8

关于android中gridview数据量很大的时候,在加载gridview时会出现卡顿的现象

好的解决办法就是先加载一定数量的数据,然后在最下方提示正在加载! 动态加载就是把放入adapter中的数据分好几次加载.在用户拖动gridview时再加载一定的数据,和sina微博的客户端类似. 给gridview添加OnScrollListener监听事件默认会覆盖下面两个方法: 下面列举个列子: <com.ui.widget.LazyGridView xmlns:android="http://schemas.android.com/apk/res/android" andr

WCF入门(一)--Request Entity Too large 传输的数据量过大

通过WCF进行数据的查询或者添加的时候,如果数据量过大,一般会报出如下的错误: 1.已超过传入消息(65536)的最大消息大小配额.若要增加配额,请使用相应绑定元素上的MaxReceivedMessageSize 属性. 2.远程服务器返回了意外反应(413)Request Entity too large. 3.远程服务器返回了意外反应(400)Bad Request. 具体的解决方案: 服务端返回数据给客户端报错 在客户端的配置文件中,主要修改maxReceivedMessageSize <

关于数据量很大的题目

这段时间写多校,碰到很多数据量很大的题目,有的有规律,有的需要一定的预处理以及一些好玩的算法.那么怎么区分呢?首先看下题目给的限时,如果比较多,那么就需要一定预处理啦:再就是看下rank,如果一道题目突然很多人短时间写出来,一定是规律题,而且是巧妙的规律题.在说一下关于贡献这个东西,有些题目需要枚举,我们在枚举的时候,通常题目表面信息给的枚举是满足不了时间复杂度的,所以我们需要选取合适的枚举对象..这个也很重要.