大型互联网产品/应用运维职责

一、    代码风险控制和线上服务配置安全控制。

1、 通过我们的AOS系统对代码上线进行合理的审核,从研发、测试、产品、总监、运维各个环节增加管控,来实现代码安全性。
2、 通过我们的puppet管控对线上需要修改文件或修改系统配置,需要相关人员审核以便增加线上的安全性。
3、通过我们的puppet管控对线上需要安装软件等,需要相关人员审核以便增加线上的安全性。

二、    发现问题

1、    通过zabbix收集服务器上各个指标,比如系统负载、业务宕机,业务状态是否良好通过短信和邮件方式进行报警。(第一种报警方式)
2、    通过grafana+ influxdb展现出各个业务的状态是否良好、程序是否宕机、系统负载属于正常等,通过NOC组24小时人员监控进行电话报警。(第二种报警方式)
3、    通过kibana+spark+es收集日志信息,通过日志筛选和过滤展现出出问题的接口以及慢接口。比如5分钟内出现5XX的错误top10的url。通过noc组24小时人员监控进行电话报警。(第三种报警方式)
4、    通过我们的smokeping网络监控,可以检测出公司使用各个机房的网络连接情况。能够判断出是否网络问题导致业务有影响。

三、    分析问题

1、    通过kibana+es收集日志信息,通过日志的筛选和过滤找出慢接口和关联性以及通过大量数据找出可能将要出现的问题,进行分析问题。
2、    通过kibana+es大量的日志信息以及对整体业务的架构把控,做出合理的业务架构方案。使业务更合理和优越。

四、    处理问题

1、    收到短信和电话报警后,通过grafana+ influxdb找出问题具体事项,并通过kibana+es快速的查找问题接口以及出现问题的根本原因。
2、    接受到报警后,通过grafana+ influxdb、kibana+spark+es、smokeping、kibana+es综合性的快速查找问题根本原因。
3、    通过grafana+ influxdb观察确定依赖资源是否有问题。

五、    事后总结问题

1、    做出容灾和应急方案,出现问题能第一时刻恢复业务,保障业务的稳定运行。
2、    针对每次出现的问题进行问题分析、改进。便于下次同样类型的问题不会再次发生。

六、    运维自动化

1、    通过我们的puppet进行自动化配置,减少人工的手动操作避免人员的误操作同时增加人员的管控,增加了线上服务器安全性。
2、    通过我们的cmdb能够快速的查询服务器硬件配置、域名归属、服务器管理员等。
3、    通过我们的rt事务追踪管理能够快度的定位最近服务器上进行了那些重要操作信息。
4、    通过我们的sip系统够查看当前管理员负责当前业务下的所有服务器、域名等便于批量授权用户。
5、    通过我们的AOS代码上线,减少人员的操作避免人员的误操作。
6、    通过我们的docker平台,更好的合理运用服务器硬件资源,减少产品成本运算

时间: 2024-10-08 07:17:34

大型互联网产品/应用运维职责的相关文章

如何做好大型数据中心的运维

什么叫数据中心?维基百科给出的定义是"数据中心是一整套复杂的设施.它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含冗余的数据通信连接.环境控制设备.监控设备以及各种安全装置".在云大行其道的今天,随着数据中心建设规模的不断扩大,新技术的层出不穷,数据中心变得越来越复杂.大型数据中心往往是由很多规模庞大的集群系统组成,其运维工作需要具备方方面面的知识,包括硬件.网络.服务器.存储.安全以及业务上的东西,需要上下打通地去做运维工作. 当一个数据中心的规模非常大,面临

运维职责,buffer和cache什么区别?机房防止服务器断电,远程控制卡

1.运维职责·数据不能丢·网站7*24小时运行·用户体验要好2.buffer和cache什么区别?buffeer 缓冲区 数据写入到内存的buffer区域 写buffer' 写缓冲cache 缓存区 从内存中的cache区域进行读取 读cache 读缓存 机房防止服务器断电A. 双电源AB路(使用不同的变压器).B. UPS(不间断电源)蓄电池组 30分钟 最多一小时C. 柴油发电机+油罐D. 附近的加油站签订紧急供油协议4.远程控制卡dell iDrac作用:A. 远程控制与管理服务器B. 远

互联网产品经理的工作职责

这几天我梳理了1年以来的工作内容,并将产品经理的工作职责整理出来.按照产品阶段划分,可分为5个方面: 一.市场及用户研究 1.1.市场分析: 发现并掌握目标市场和用户需求的变化趋势,对未来几年市场上需要什么样的产品和服务做出预测: 1.2.竞品分析: 收集竞争对手的资料.试用竞争对手的产品,从而了解竞争对手产品: 1.3.用户研究: 通过定性(用户访谈).定量(调查问卷)等分析方法对用户需求进行挖掘和分析: 二.产品规划及设计 2.1.产品规划: 确定目标市场.产品定位.发展规划及路线图: 2.

互联网产品经理职能与职责

由于每次都会被人问,"产品经理是什么岗位 ?","产品经理都做什么东西?"之类的问题.于是,我决定写一篇大体说得过去的,关于互联网产品人的职能与职责概述.如果有些的不对的或者需要补充的,欢迎来"搞". 首先我们先列一个提纲吧,由浅入深. 1. 产品经理在公司中是什么岗位 2. 产品经理在项目中担任什么角色 3. 产品经理都需要储备哪些专业知识 4. 产品经理需要把控什么 5. 产品经理作业流程是什么 列出这么浅显易懂的问题之后,再来一一作答就感觉

大型运维知识体系与Python高效自动化运维免费沙龙活动

2015-10-17(周六 下午13:30)大型运维架构运维知识体系讲座 2015-10-18(周日下午13:30)Python运维自动化讲座 以上内容全免费,回馈网友!极其难得的饕餮盛宴! ================================ 大型电商平台架构演变及大型运维知识体系免费讲座 2015-10-17(周六 下午13:30) 主题1:大型电商平台架构演变及大型运维体系知识讲解 内容简介: 通过一个电商网站的架构演变来阐述一个相对完整的<大型运维架构知识体系>.该运维体系

只能运维主要职责

目录 主要职责 运维产品在产品研发的生命周期的主要职责 主要职责 运维的主要职责是在产品生命周期的各个阶段,维护的稳定性. 运维的职责覆盖了产品从设计到发布.运行维护.变更升级及下线的生命周期,在产品生产环境各个阶段的职责也不同. 运维产品在产品研发的生命周期的主要职责 产品阶段 运维职责 设计阶段 稳定性评估: 主要是针对系统架构的合理性进行评估, 资源评估: <br> 包括对所系要的服务器资源, 资源申请和准备: | 开发阶段 | | 测试阶段 | 姓名 爱好 张三 足球篮球 李四 羽毛球

01-智能运维简介

要想了解智能运维,首先需要知道几点: 运维是什么? 运维干什么? 为什么重视运维? 运维是什么? 要说运维,我先说说目前中国互联网的发展. 中国互联网的发展 第一阶段: 新浪.搜狐.网易等门户网站,解决了新闻信息的传播问题 第二阶段: 腾讯.阿里.百度等科技型,解决了社交.信息获取及电商等需求问题 第三阶段: 需要解决心理需求问题,直播.短视频.综艺.电视剧等 第四阶段: 区块链.自动驾驶.智能机器人等 我自己心里认为,运维的水平可以成为衡量一个公司(IT公司)技术实力的标准.(因为不管是系统还

运维工程师的职责和前景

运维工程师的职责和前景 运维中关键技术点解剖:1 大量高并发网站的设计方案 :2 高可靠.高可伸缩性网络架构设计:3 网站安全问题,如何避免被黑?4 南北互联问题,动态CDN解决方案:5 海量数据存储架构 一.什么是大型网站运维?首先明确一下,全文所讲的”运维“是指:大型网站运维,与其它运维的区别还是蛮大的:然后我们再对大型网站与小型网站进行范围定义,此定义主要从运维复杂性角度考虑,如网站规范.知名度.服务器量级.pv量等考虑,其它因素不是重点:因此,我们先定义服务器规模大于1000台,pv每天

运维是做什么的?史上最全互联网Linux工作规划!十分钟找到linux运维工程师职业方向!

首先祝贺你选择学习Linux,你可能即将踏上Linux的工作之旅,出发之前,让我带你来看一看关于Linux和Linux运维的一切. Linux因其高效率.易于裁剪.应用广等优势,成为了当今中高端服务器的主要操作系统,并且处于一个不可替代的地位.Linux可安装在各种计算机硬件设备中,比如手机.平板电脑.路由器.视频游戏控制台.台式计算机.大型机和超级计算机.随着Linux在中国市场迅猛发展,国内Linux人才缺口逐渐凸显.Linux人才招聘也成了当前最热门的招聘之一. 首先linux是一个非常非