崗位職責(zé):
1.負(fù)責(zé)生產(chǎn)環(huán)境的穩(wěn)定性保障,主導(dǎo)高可用架構(gòu)設(shè)計(jì)、容量規(guī)劃、服務(wù)治理、故障演練與故障預(yù)案制定。
2.建立統(tǒng)一的監(jiān)控、告警、日志平臺(tái),提升可觀測(cè)性,降低 MTTR。
3.推動(dòng)自動(dòng)化運(yùn)維體系建設(shè),實(shí)現(xiàn) CI/CD 流水線優(yōu)化、部署系統(tǒng)、混沌工程、配置管理等自動(dòng)化能力。
4.主導(dǎo)復(fù)雜事故的應(yīng)急響應(yīng)、Root Cause Analysis 和事后復(fù)盤機(jī)制,形成知識(shí)沉淀。
5.深入分析系統(tǒng)瓶頸,推動(dòng)性能調(diào)優(yōu)與架構(gòu)演進(jìn)。
6.參與 SLI/SLO/SLA 指標(biāo)體系設(shè)計(jì),量化服務(wù)可靠性。
7.參與 DevOps/SRE 技術(shù)方案制定與團(tuán)隊(duì)規(guī)范建設(shè),指導(dǎo)并賦能初中級(jí)工程師。
任職要求:
1.本科及以上學(xué)歷,計(jì)算機(jī)、通信、軟件工程等相關(guān)專業(yè)。
2.必須具有5 年以上互聯(lián)網(wǎng)公司SRE工作經(jīng)驗(yàn)、良好的架構(gòu)經(jīng)驗(yàn)。
3.精通 Linux 系統(tǒng)、網(wǎng)絡(luò)協(xié)議、操作系統(tǒng)原理,有大規(guī)模分布式系統(tǒng)運(yùn)維經(jīng)驗(yàn)。
4.熟悉Kubernetes、服務(wù)網(wǎng)格 等云原生技術(shù)棧,有Golang開發(fā)能力,有K8S控制器開發(fā)原理經(jīng)驗(yàn)者優(yōu)先。
5.熟悉至少一種主流語言(Go / Python),具備腳本開發(fā)與自動(dòng)化能力。
6.有 IaC 經(jīng)驗(yàn)。
7.熟練掌握主流監(jiān)控告警工具。
加分項(xiàng):
?有 AI Infra / OpenClaw相關(guān)經(jīng)驗(yàn)
更新于 2026-03-02
查看更多崗位職責(zé)