Nsd宕机报告分析实例

1. 背景

作为domino从业人员，经常会遇到系统宕机的问题，可是对于很多domino者，看到nsd报告的一大堆信息，就像天书一样无从下手。

本人通过下面两种方式进行说明：手动分析、NSD工具分析。Nsd报告是技术群一朋友提供，我就结合此实例分析。

2. 手动分析

2.1.
搜索fatal关键字

打开NSD报告，输入关键字：fatal，如下图：

2.2.
搜索线程号

从上图中，可以看到系统出错的线程号为：nchronos: 1084: 2388，搜索此线程如下图：

看上图会发现，宕机时打开的数据库93014.nsf。

2.3.
IBM官网搜索关键字

IBM官网地址：http://www.ibm.com/us/en/

搜索关键字为：CstrhashImproved，如图：

部分问题可能是domino服务器自身的问题，并且IBM官方会有相应的补丁/最新的版本修复。如图：

2.4.
搜索关闭问题号

搜索地址：http://www-10.lotus.com/ldd/fixlist.nsf/public

输入搜索关键字：LVAE6KWK2Q，如图：

会发现此问题在7.0.4以及8.0.1以上版本得到了修复，如图：

3. NSD工具分析

3.1.
安装NSD工具

NSD工具下载地址：http://download.csdn.net/detail/gavid0124/8397899

安装nsd工具，点击LND_2.7_Setup.exe安装程序，然后一直点击下一步就好。

3.2.
导入NSD报告

Notes客户端，在本地打开lnd.nsf数据库：

点击Open & Processa file选择nsd报告，如下图：

会发现NSD工具与上述手动分析的结果是一样。其余的步骤与上述一致不再赘述。

如果图片看不清，可以下载pdf附件：点击打开链接

时间： 2024-10-07 13:32:33

Nsd宕机报告分析实例的相关文章

Solr4.8.0源码分析(26)之Recovery失败造成的宕机原因分析

最近在公司做SolrCloud的容灾测试,刚好碰到了一个比较蛋疼的问题,跟SolrCloud的Recovery和leader选举有关,正好拿出来分析下. 现象是这样的:比如我有一台3个shard的SolrCloud,每一个shard又有一个leader和replica.由于SolrCloud的leader选举策略,造成了IP1中同时出现了shard1和shard2的leader. 这个时候往collection update数据进去,以shard1为例,数据转发过程,IP1_leader –>

MySQL Bug导致异常宕机的分析流程

原文链接:http://click.aliyun.com/m/42521/ 摘要: 本文主要通过一个bug来记录一下如何分析一个MySQL bug的崩溃信息. 版本:Percona 5.7.17-11 一.数据库重启日志分析 terminate called after throwing an instance of 'std::out_of_range' what(): ... 本文主要通过一个bug来记录一下如何分析一个MySQL bug的崩溃信息. 版本:Percona 5.7.17-11

云平台数据库主机意外宕机问题

问题引入: 很多公司在使用自己的私有云环境时,会选择划分主机集合,像这种很好,做得很好,但是新建主机集合的精髓在于:区分对待,每个zone内包含物理节点拥有不同的物理配置比方说: 1.zone1用来新建cpu密集型云主机 2.zone2用来新建内存要求较高的云主机 3.zone3用来新建硬盘io要求较高云主机如果不区分对待,那划分什么主机集合. 下列就是发生在我们公司的一个案例: 一:问题:生产环境DB主机主节点在19号中午突然宕机,导致公司某业务中断. 二:问题解决: 生产以第一时间恢复

深入解析和反思携程宕机事件【转自https://www.infoq.cn/】

宕机时间 2015 年 5 月 28 日携程网宕机事件还在持续,截止 28 号晚上 8 点,携程首页还是指向一个静态页面,所有动态网页都访问不了.关于事故根源,网上众说纷纭.作为互联网运维老兵,尝试分析原因,谈谈我的看法. 宕机原因分析网上有各种说法,有说是数据库数据和备份数据被物理删除的.也有说是各个节点的业务代码被删除,现在重新在部署.也有说是误操作,导致业务不可用,还有说是黑客攻击甚至是内部员工恶意破坏的. 先说一下最早传出来的"数据库物理删除",其实这个提法就很不专业,应该

clickhouse高可用及节点宕机数据一致性方案

1. 集群节点及服务分配说明: 1.1. 在每个节点上启动两个clickhouse服务(后面会详细介绍如何操作这一步),一个数据分片,一个数据备份,为了确保宕机数据一致性,数据分片和数据备份不能同一节点,比如gawh201上的shard不能备份在gawh201的replica,如果这样做,当gawh201宕机了,该节点shard的数据是找不到的. 1.2. 基于a所以shard和replica必须错开,但不是随意错开就可以了.按照上图给的规律错开(后面会详细介绍超大节点的集群的shard和re

网络流量分析——NPMD关注IT运维、识别宕机和运行不佳进行性能优化。智能化分析是关键-主动发现业务运行异常。

科来做流量分析,同时也做了一些安全分析(偏APT)--参考其官网:http://www.colasoft.com.cn/cases-and-application/network-security-analysis.php 作为安全工程师的你,想发现有谁在攻击我,还原攻击过程并且取证么? 作为立志成为网络技术大拿的你,想在学习理论知识的同时,了解实战中会遇到的哪些问题,这些问题用什么样的思路去解决么?如果以上答案为Yes,那么<CSNA网络分析经典实战案例>就是你的菜,以下内容全是网络安全真

Oracle_RAC宕机和hang分析处理流程

目的:分享一下公司的db故障处理流程,主要是思想.事件描述及影响:2018年9月30日04:43点,zabbix告警odsdb2数据库疑似宕机,机房值班人员通过堡垒机无法登录数据库服务器,从其他机器也无法ssh登录该机器,同时odsdb1数据库也HANG住,通过命令无法登录数据库.根据数据库业务流程图初步分析影响的各业务.(涉及公司业务可忽略) 事件排查:4:46,机房值班人员通知DBA及亦庄值班人员分析情况4:57,按照公司流程在相关群通告故障5:23,值班人员反应数据库服务器已自动重启,但一

几台WEB经常宕机，求分析原因

几台WEB服务器经常宕机,平时运行得好好的,负载也都在2以下,偶尔会突然负高上去就宕机,init 6也无法重启成功只能echo 'b'>/proc/sysrq-trigger 硬重启才行,dmesg 没发现硬件方面有问题. 从top相关信息来看,每次宕机现象都是系统内核态占用非常高,相关nginx,php-cgi进程虽然不僵死但无法kill 每次宕机都会有kswaped0进程出现,但是从free上来看,内存还是有空闲,swap用得也并不多 top - 22:26:02 up 3 days,

技术培训 | RAC 宕机罪犯案情探析之子游标

大家好,我是云和恩墨的李轶楠,不过网上的朋友更习惯叫我600,所以我也慢慢熟悉了这个称呼,其实这个称呼来自于ITPUB论坛上当时我注册的论坛ID"ORA-600",因为这个ID跟Oracle的著名错误号一样,很容易给大家留下深刻印象,所以被我借用了过来,呵呵.这些年通过论坛上认识了很多朋友,也结识了现在与我一起奋战的恩墨小伙伴们. 闲话不多说,我们来看看我们今天要分享的主题吧,这些年我们积累了大量的客户群体,也意味着我们面对着各种复杂的环境与事件,后续我会把我们小伙伴们所遭遇到的各种或

Nsd宕机报告分析实例

1. 背景

2. 手动分析

2.1. 搜索fatal关键字

2.2. 搜索线程号

2.3. IBM官网搜索关键字

2.4. 搜索关闭问题号