运维日常工作内容:
(1)上线保障;
对系统各项技术指标进行监测、定期检查;
对系统实现的业务功能点进行检查,业务功能指标进行检查;
(2)巡检保障;
对常规技术指标进行检查,例如 内存、磁盘和CPU使用率,进程状态等信息
人工定时巡检业务功能点,比如交易数量,订单响应数量,订单积压数量,订单拒绝数量
(3)日常监控;
应用层面监控,系统日志监控,数据库的数据信息监控
主机层面监控,内存、磁盘和CPU使用率等信息进行监控
(4)应用工单支持;
实现工作台,根据业务人员ERP工单,技术人员的ITSM,EQOPS工单,由开发提供手册,测试完成后,运维根据手册完成生产操作
(5)常规版本上线;
参与需求评审
开发设计评审
版本上线评审(整体)
开发:本次的变更点,版本发布内容。需求文档、接口文档是否进行了更新。升级手册是否规范,架构设计是否合理。上下游系统是否就绪,是否存在影响核心系统的风险点。系统性能、容量是否满足要求或能够支持大请求的情况。
测试:准入测试、针对性测试、功能性测试、性能测试、回归测试、联调测试、安全测试
运维:环境是否就绪。业务流程是否涉及到特殊保障。
根据jira、ITSM软件发布流程完成版本上线工作
(6)事件处置;
牵头完成生产事件的处置,根据应急预案和应急测试完成的手册进行生产处置
例如:存储网关文件处理异常;实例僵死,初步排查原因、进行重启等
完成事件进展通报,事件总结,事件管理,事件转问题管理
(6)系统可用性排查
定期回顾系统存在的风险,可用性是否满足要求,是否需要进行优化,如优化架构,进行性能扩展
(7)应急演练;
根据事件定期回顾,完善应急预案,进行生产环境的应急演练,生产环境无法复现的,进行沙盘推演。
运维(Operation)指的是负责维护和支持软硬件服务的一系列过程。运维工作包括但不限于建立操作标准和流程、构建和维护网络和服务、管理服务器和存储设备、维护计算元件和电子化系统、监控网站和其他应用的安全性和可用性。运维还需要发现潜在的流量和HDD空间问题、修复故障系统、提供咨询服务、提出解决方案、安装和更新软硬件、编写程序、制定及实施备份和恢复计划,以及管理客户服务及支持。运维工程师的职责是确保系统的稳定性和可用性。
如还有其他困惑,可在线联系学业顾问>>>了解IT培训>>>