崗位職責(zé):
1.負責(zé)生產(chǎn)環(huán)境的穩(wěn)定性保障,主導(dǎo)高可用架構(gòu)設(shè)計、容量規(guī)劃、服務(wù)治理、故障演練與故障預(yù)案制定。
2.建立統(tǒng)一的監(jiān)控、告警、日志平臺,提升可觀測性,降低 MTTR。
3.推動自動化運維體系建設(shè),實現(xiàn) CI/CD 流水線優(yōu)化、部署系統(tǒng)、混沌工程、配置管理等自動化能力。
4.主導(dǎo)復(fù)雜事故的應(yīng)急響應(yīng)、Root Cause Analysis 和事后復(fù)盤機制,形成知識沉淀。
5.深入分析系統(tǒng)瓶頸,推動性能調(diào)優(yōu)與架構(gòu)演進。
6.參與 SLI/SLO/SLA 指標體系設(shè)計,量化服務(wù)可靠性。
7.參與 DevOps/SRE 技術(shù)方案制定與團隊規(guī)范建設(shè),指導(dǎo)并賦能初中級工程師。
任職要求:
1.本科及以上學(xué)歷,計算機、通信、軟件工程等相關(guān)專業(yè)。
2.必須具有5 年以上互聯(lián)網(wǎng)公司SRE工作經(jīng)驗、良好的架構(gòu)經(jīng)驗。
3.精通 Linux 系統(tǒng)、網(wǎng)絡(luò)協(xié)議、操作系統(tǒng)原理,有大規(guī)模分布式系統(tǒng)運維經(jīng)驗。
4.熟悉Kubernetes、服務(wù)網(wǎng)格 等云原生技術(shù)棧,有Golang開發(fā)能力,有K8S控制器開發(fā)原理經(jīng)驗者優(yōu)先。
5.熟悉至少一種主流語言(Go / Python),具備腳本開發(fā)與自動化能力。
6.有 IaC 經(jīng)驗。
7.熟練掌握主流監(jiān)控告警工具。
加分項:
?有 AI Infra / OpenClaw相關(guān)經(jīng)驗
更新于 2026-03-02
查看更多崗位職責(zé)