工作職責(zé)
1、負(fù)責(zé)首云硬件服務(wù)器(計算、存儲、推理、訓(xùn)練)的統(tǒng)一選型
2、負(fù)責(zé)服務(wù)器硬件的測試和評估以及硬件相關(guān)技術(shù)的研究推廣工作
3、能夠參與制訂硬件評估方案,并完成硬件評估、調(diào)試工作,構(gòu)筑相關(guān)產(chǎn)品硬件平臺,規(guī)劃硬件平臺及發(fā)展
4、研究并開發(fā)硬件相關(guān)新型技術(shù)在應(yīng)用層的整合與實現(xiàn)、解決硬件與操作系統(tǒng)相關(guān)聯(lián)的疑難問題。
5、主導(dǎo)和供應(yīng)商的溝通交流
6、負(fù)責(zé)GPU部件和技術(shù)趨勢追蹤、選型、定制、引入驗證、產(chǎn)品化上線等工作;
7、負(fù)責(zé)GPU/異構(gòu)計算服務(wù)器單機與集群的性能評測及調(diào)優(yōu),分析和優(yōu)化性能瓶頸;
8、參與分布式計算通信組件MPI/NCCL/UCX等的研究與實現(xiàn);
9、參與GPU/異構(gòu)計算故障在數(shù)據(jù)中心的監(jiān)控、診斷與處理。
任職資格
1、本科以上學(xué)歷,熟悉X86平臺架構(gòu),有良好、全面的計算機軟硬件知識,對CPU、GPU、網(wǎng)卡、內(nèi)存、RAID、盤陣、SSD、儲存等相關(guān)技術(shù)有較深入的研究,深入了解整機柜服務(wù)器
2、熟悉互聯(lián)網(wǎng)領(lǐng)域主流硬件廠商的主要產(chǎn)品、對服務(wù)器硬件的以及周邊配置有濃厚的興趣;
3、良好的溝通能力,團隊協(xié)作能力,責(zé)任心強,具備一定的抗壓能力
4、掌握GPU測試方法及原理,掌握了解P2P、GDR、NCCL等技術(shù)原理及測試評估方法
5、精通英偉達GPU芯片原理,精通GPU軟硬件協(xié)同調(diào)優(yōu)經(jīng)驗,有國產(chǎn)GPU經(jīng)驗者優(yōu)先。
6、有團隊管理經(jīng)驗更佳
更新于 2026-03-22
查看更多崗位職責(zé)