职位描述
该职位还未进行加V认证,请仔细了解后再进行投递!
岗位职责
1、负责值班运营管理,对当班生产系统的稳定运营负总责;
2、负责处理重大故障,指挥协调资源,推动故障快速解决;
3、驱动问题跟进修复,促进团队合作,跟踪控制处理进度;
4、指挥发布变更流程,控制线上风险,保障系统正常运行;
5、优化服务管理流程,包括故障管理、问题管理流程和质量指标等;
6、制定各类故障演练计划,推动故障演练执行和问题跟踪。
岗位要求
1、5年以上IT运维支持经验,熟悉常见大型互联网系统架构;
2、熟悉质量管理流程,有大型互联网工作经验者优先;
3、具有系统管理等工作经验,熟悉Linux操作系统管理、维护和使用;
4、具有系统中间件管理等工作经验,熟悉MQ、redis管理、维护和使用;
5、具有网络管理等工作经验,熟悉TCP/IP协议、负载均衡、存储等技术;
6、掌握 prometheus 联邦模式原理;promeQL 规则文件编写;consul/kafka等组件API使用等,熟悉CAT监控工具者优先;
7、具有WEB服务管理的工作经验,熟悉Nginx/Apache/Tomcat等web服务;
8、熟悉SQL语言,有MySQL性能优化、MySQL高可用、备份恢复经验优先;
9、具有良好文档编写和文字表达能力;
10、优秀的学习钻研能力,良好的问题分析与解决能力;
11、良好的危机管理和事件管理技能,以及跨职能团队的沟通领导能力;
12、有python、go、java语言编程经验者优先;
13、精通各类排障工具来分析、定位系统、网络等问题。