Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 การใช้งานสวิตช์ InfiniBand
January 6, 2026
สถานการณ์และความท้าทาย: ความขัดแย้งทางเครือข่ายในคอมพิวเตอร์สมัยใหม่
ในการแข่งขันเพื่อการค้นพบทางวิทยาศาสตร์ และความก้าวหน้าของ AI ความสามารถในการคํานวณของสถาบันวิจัยชั้นนํา ถูกกดดันไม่ได้ด้วยการขาดพลังงานในการประมวลผลแต่ด้วยเนื้อเยื่อเครือข่ายของพวกเขาโครงสร้างพื้นฐาน HDR InfiniBand ที่มีอยู่ในขณะนี้ แม้จะมีความสามารถความต้องการการสื่อสารที่ร่วมกันของคลาสเตอร์ NVIDIA DGX ที่นํามาใช้ใหม่ และภาระงาน HPC แบบดั้งเดิมนักวิจัยเผชิญกับการช้าช้าอย่างมากในเวลาในการเสร็จสิ้นงาน โดยความช้าของเครือข่ายและความจุกจูงในช่วงรูปแบบการสื่อสารทั้งหมดเป็นข้อขัดขวางหลัก
ความท้าทายมีอยู่สองประการ: อันดับแรกคือการลดความช้าในการดําเนินงาน Remote Direct Memory Access (RDMA) ที่สําคัญสําหรับการจําลอง HPC ที่ใช้ MPIเนื้อผ้าที่ไม่ปิดสําหรับงานฝึกอบรม AI ที่ต้องการการปรับปรุงปริมาตรฐานที่คงที่ผ่าน GPUs หลายร้อยสถาบันต้องการการแก้ไขในอนาคตที่สามารถจัดการ NDR ความเร็ว 400Gb / sรองรับได้กับระบบนิเวศที่มีอยู่ โดยการรับประกันเส้นทางการปรับปรุงที่คุ้มค่าโดยไม่ต้องปรับปรุงอย่างสมบูรณ์แบบ
การแก้ไขและการใช้งาน: การนํา 920-9B210-00FN-0D0 Fabric มาใช้
หลังจากการประเมินอย่างละเอียด สถาบันได้เลือกNVIDIA Mellanox 920-9B210-00FN-0D0เป็นหินมุมของผ้าที่มีประสิทธิภาพสูงใหม่ของพวกเขา920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDRสวิทช์เพื่อสร้างชั้นกระดูกสันหลังความยืดหยุ่นและความยืดหยุ่นสูง เชื่อมต่อทุกหน่วยคอมพิวเตอร์และหน่วยเก็บข้อมูล
การจัดจําหน่ายถูกจัดทําเป็นทอปโลยีก้อนไขมันสองชั้นแบบไฮบริด เพื่อเพิ่มความกว้างแบนด์วิทของส่วนสองให้มากที่สุดและลดจํานวนฮอปให้น้อยที่สุด ด้านสําคัญของการนําไปใช้งานประกอบด้วย:
- เนื้อเยื่อแกน:ชั้นกระดูกสันหลังที่สร้างขึ้นโดยสิ้นเชิงด้วย920-9B210-00FN-0D0สวิทช์ที่ให้บริการ NDR 400Gb/s backbone
- การบูรณาการอย่างต่อเนื่องโดยใช้ประโยชน์จากความเข้ากันแบบย้อนหลังของสวิตช์ สวิตช์ใบ HDR และ NICs ที่มีอยู่ได้ถูกเชื่อมต่อกัน เพื่อปกป้องการลงทุนก่อนหน้านี้ในขณะที่อนุญาตให้มีการปรับปรุงโน้ดเพิ่มขึ้นเป็น NDR
- การจัดการระดับสูง:เนื้อผ้าทั้งหมด รวมทั้งผ้าใหม่920-9B210-00FN-0D0 InfiniBand สวิตช์ OPNหน่วย, ได้รับการบริหารภายใต้แผ่นกระจกเดียวโดยใช้ NVIDIA UFM®, ทําให้สามารถตรวจสอบการทํางานแม่นยํา, การจัดหาผ้าอัตโนมัติ, และการแยกความผิดพลาดอย่างรวดเร็ว.
- การรับรอง:ทีมงานไอทีได้ปรึกษาเจ้าหน้าที่อย่างละเอียดใบข้อมูล 920-9B210-00FN-0D0และรายละเอียดเพื่อยืนยันความต้องการในด้านความกว้างของเคเบิล, พลังงานและความเย็นในศูนย์ข้อมูลของพวกเขา เพื่อให้การทํางานได้เป็นอย่างดีที่สุด
สถาปัตยกรรมนี้สร้างระบบ920-9B210-00FN-0D0 โซลูชั่น OPN สวิตช์ InfiniBand, ให้บริการทั้ง HPC คลาสสิกของสถาบันและภาระงาน AI ที่กําลังเกิดขึ้นบนเครือข่ายเดียวที่มีความสามารถ
ผลและประโยชน์: การเพิ่มประสิทธิภาพและประสิทธิภาพ
ผลของการใช้920-9B210-00FN-0D0ได้รับการวัดทันที และเปลี่ยนไปในหลายมิติของการดําเนินงานของพวกเขา
| เมทริก | ก่อน การ ลงทุน | หลังจาก 920-9B210-00FN-0D0 การจัดจําหน่าย |
|---|---|---|
| ความช้า MPI กลาง (ไป-กลับ) | ~0.7 ไมโครวินาที | ~0.5 ไมโครวินาที |
| ระยะเวลาในการเสร็จสิ้นงานฝึกอบรม AI (รุ่นใหญ่) | 5.2 วัน | 3.8 วัน(ลดลง 27%) |
| การใช้ผ้าในช่วงที่สูงสุด | บ่อยครั้งเกิน 85% ส่งผลให้เกิดการจราจร | เสมอต่ํากว่า 60% ในความเร็ว NDR |
| งานบริหาร (การปรับปรุงรูปแบบของโรงงาน) | กระบวนการมือ ที่ใช้เวลามาก | อัตโนมัติผ่านการบูรณาการ UFM® |
ประโยชน์ที่สําคัญที่สุดคือการลดเวลาทํางานของแอปพลิเคชั่นเห็นการปรับปรุง 20-30% เนื่องจาก MPI ต่ําและคงที่สําหรับทีมงาน AI การทํางานของ RDMA ที่เกือบเป็นทฤษฎี มากกว่าผ้าใหม่ หมายความว่าทรัพยากร GPU ได้เต็มไปด้วยการคํานวณ ไม่หยุดรอการโอนเครือข่ายในขณะที่การประเมิน920-9B210-00FN-0D0 ราคาเป็นส่วนหนึ่งของการจัดซื้อจัดจ้าง ผลลัพธ์การวิจัยที่เร่งเร่งขึ้นได้ผลิต ROI ที่น่าเชื่อถือ
สรุปและทัศนะ: แผนผังโครงสร้างพื้นฐานที่ต้านทานอนาคต
การนํามาใช้อย่างสําเร็จNVIDIA Mellanox 920-9B210-00FN-0D0ในสภาพแวดล้อมการวิจัยนี้เป็นแบบแผนที่มีพลังสําหรับองค์กรใด ๆ ที่เผชิญกับปัญหาความเชื่อมโยงที่คล้ายกันมันแสดงให้เห็นว่าการลงทุนในเครือข่ายชั้นนํา ไม่เป็นต้นทุนเสริม แต่เป็นตัวคูณยุทธศาสตร์สําหรับการลงทุนในการคํานวณ.
การจัดตั้งของสถาบันนี้พิสูจน์ว่า920-9B210-00FN-0D0มันมากกว่าแค่สวิตช์ มันเป็นแพลตฟอร์มที่ทําให้การรวมตัวกันเป็นไปได้ มันรวมโหลดงาน HPC และ AI ที่ขับเคลื่อนด้วย RDMA ในเครือข่ายเดียวที่ตอบสนองได้อย่างรวดเร็วการปรับปรุงความสะดวกในขณะที่เทคโนโลยีนี้มีให้บริการมากขึ้นสําหรับขาย, มันตั้งมาตรฐานใหม่สําหรับสิ่งที่เป็นไปได้ในการจัดกลุ่มที่มีประสิทธิภาพสูง
มองไปข้างหน้า ความสามารถในการปรับขนาดและความสามารถในการทํางานของ NDR 400Gb / s หมายถึงสถาบันมีตําแหน่งที่ดีในการบูรณาการทรัพยากรคอมพิวเตอร์ที่แข็งแรงมากขึ้นในอนาคตรายการ920-9B210-00FN-0D0ได้กําจัดเครือข่ายได้อย่างมีประสิทธิภาพ ในฐานะอุปสรรค ทําให้นักวิจัยสามารถมุ่งเน้นเฉพาะกับข้อจํากัดของอัลการิทึมและจินตนาการของพวกเขา

