โซลูชันทางเทคนิคของสวิตช์ InfiniBand Mellanox (NVIDIA) 920-9B110-00FH-0D0|การปรับปรุงการเชื่อมต่อความหน่วงต่ำ
January 5, 2026
1. สถานการณ์โครงการและการวิเคราะห์ความต้องการ
การจัดจําหน่ายและปรับขนาดคลาสเตอร์คอมพิวเตอร์เร่งรัดที่ทันสมัยสําหรับการฝึกอบรม AI และภาระงาน HPC นําเสนอปัญหาเครือข่ายที่เป็นเอกลักษณ์เครือข่ายพื้นฐาน TCP/IP แบบดั้งเดิม นํามาซึ่งความช้าและค่าใช้จ่าย CPU ที่สําคัญความต้องการหลักสําหรับการแก้ไขการเชื่อมต่อรุ่นต่อไปประกอบด้วย: ความยืดหยุ่นที่กําหนดได้ในช่วงใต้ไมโครเซกอนด์เพื่อป้องกันการหยุด GPUความกว้างแบนด์เบด bisectional สูงสําหรับรูปแบบการสื่อสารทั้งหมด, คอมพิวเตอร์ในเครือข่ายที่สามารถปรับขนาดได้ เพื่อลดภาระการดําเนินงานร่วมกัน และการจัดการเนื้อหาที่แข็งแกร่งเพื่อความเรียบง่ายในการปฏิบัติงาน
รายการNVIDIA Mellanox 920-9B110-00FH-0D0ได้ถูกออกแบบมาเพื่อตอบสนองความต้องการเหล่านี้อย่างแม่นยํา920-9B110-00FH-0D0 InfiniBand สวิตช์ OPN โซลชั่นเอกสารนี้อ้างอิงแผนงานทางเทคนิคที่ครบวงจรสําหรับการใช้งาน
2. การออกแบบระบบระบบ/เครือข่ายทั่วไป
สถาปัตยกรรมที่เสนอคือทอปโลยีต้นไม้ไขมันที่ไม่กักขัด ซึ่งเป็นมาตรฐานจริงสําหรับการสร้างคลาสเตอร์ HPC และ AI ที่สามารถคาดการณ์ได้และมีความกว้างขวางความถี่สูงการออกแบบนี้ทําให้การนับ hop และความช้าที่คงที่ระหว่าง 2 node, การกําจัดการสมัครสมาชิกเกินและจุดร้อน อาร์คิทคัตช์ถูกสร้างขึ้นบนระบบนิเวเดียที่สมบูรณ์แบบ
- ชั้นคํานวณ:ระบบ NVIDIA DGX หรือ HGX หรือเซอร์เวอร์ GPU ที่เทียบเท่าพร้อม NVIDIA ConnectX-7 NICs
- ชั้นเชื่อมต่อ:เนื้อเยื่อ homogeneous ของ920-9B110-00FH-0D0สวิทช์ที่ทําหน้าที่เป็นทั้งสวิทช์ใบ (Top-of-Rack) และสวิทช์กระดูกสันหลัง
- ระดับการจัดการและการประกอบเสียง:NVIDIA UFM® สําหรับการบริหารงาน Fabric, ผสมรวมกับโปรแกรมการวางแผนคลาสเตอร์ เช่น Slurm หรือ Kubernetes ผ่าน NVIDIA Magnum IO stack
สถาปัตยกรรมปลายสู่ปลายนี้รับประกันผลงานที่ดีที่สุดสําหรับการสื่อสาร RDMA และ GPUDirect โดยสร้าง "ผ้าเป็นทรัพยากรการคํานวณ" ที่รวมกัน
3.บทบาทของ 920-9B110-00FH-0D0 และลักษณะทางเทคนิคหลัก
ภายในโครงสร้างนี้920-9B110-00FH-0D0เป็นหน่วยพื้นฐานของระดับข้อมูล บทบาทของมันยืดไปนอกเหนือการส่งต่อแพ็คเก็ตง่าย ๆ เพื่อกลายเป็นองค์ประกอบการคํานวณที่ใช้งาน
หลักเทคนิค
- ความช้าต่ําสุด และความกว้างของแบนด์วิธสูงขับเคลื่อนโดย920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDRASIC, มันให้ความช้าจากท่าเรือไปท่าเรือชั้นนําในอุตสาหกรรมและความเร็วสายเต็ม 200Gb / s ต่อความกว้างแบนด์วิทท่าเรือ, ซึ่งเป็นสิ่งสําคัญสําหรับการจราจร RDMA.
- เครื่องคอมพิวเตอร์ในเครือข่าย (SHARP):ฮาร์ดแวร์สวิตช์เร่งการดําเนินงานรวม MPI และ NCCL (All-Reduce, Broadcast) โดยดําเนินการรวมข้อมูลภายในเครือข่าย.
- การควบคุมความจุกจุกระจุกระดับสูงอัตราการปรับเปลี่ยนเส้นทางและกลไกควบคุมความหนาแน่นในเวลาที่ถูกต้องการป้องกันการตกของแพ็คเก็ตและการรับประกันการกระจายความกว้างแบนด์วิทที่เที่ยงธรรม ระหว่างกรณีที่เกิดขึ้นในช่วงที่ปกติในการฝึกอบรม AI.
- เทเลเมตรและความเห็น:การสนับสนุนที่บูรณาการสําหรับพื้นฐานเทเลเมตรี่ของ NVIDIA ให้ความรู้ลึกถึงรูปแบบการจราจร, การใช้งานพัฟเฟอร์, และสุขภาพของลิงค์ ซึ่งเป็นสิ่งจําเป็นสําหรับการปรับปรุงผลงาน
วิศวกรควรปรึกษาเจ้าหน้าที่ใบข้อมูล 920-9B110-00FH-0D0สําหรับรายละเอียดรายละเอียด 920-9B110-00FH-0D0ในระบบพลังงาน, ระบบเย็น และการปรับโพร์ต
4. แนะนําการใช้งานและการปรับขนาด
การใช้งานเริ่มต้นด้วยการวิเคราะห์อย่างละเอียด920-9B110-00FH-0D0 รองรับรายการองค์ประกอบ หน่วยปรับขนาดแบบปกติคือ "โพด" ที่สร้างขึ้นด้วยต้นไขมันที่ไม่ปิด
ตัวอย่าง: 512-GPU Cluster Pod
- ชั้นใบ:การใช้งาน920-9B110-00FH-0D0สวิตช์ในรูปแบบ Top-of-Rack (ToR) โดยแต่ละตัวเชื่อมต่อกับเซอร์เวอร์ GPU มากถึง 16 เครื่อง (ตัวอย่างเช่น ระบบ 8x DGX A100)
- ระดับกระดูกสันหลังชั้นที่สองของ920-9B110-00FH-0D0สวิตช์เชื่อมต่อสวิตช์ใบทั้งหมด ให้ความกว้างแบนด์เบดแบบครบครัน
- การเชื่อมต่อสายไฟ:ใช้เคเบิล HDR QSFP56 (เฉยหรือทํางาน) สําหรับการเชื่อมต่อระหว่างสวิตช์และเซอร์เวอร์ทั้งหมด 200Gb/s
การปรับขนาดไปไกลกว่าโพด:สามารถเชื่อมต่อกันได้หลาย pods โดยใช้สวิทช์กระดูกสันหลังหรือการขยายระดับความสูงของต้นไขมัน920-9B110-00FH-0D0.920-9B110-00FH-0D0 InfiniBand สวิตช์ OPNให้แผนการทางที่ชัดเจน สําหรับความสามารถในการใช้งานร่วมกันของส่วนต่างๆ ระหว่างการขยาย
5การดําเนินงาน ติดตาม ตรวจสอบปัญหา และปรับปรุง
การบริหารแบบโปรแอคทีฟเป็นสิ่งสําคัญในการรักษาผลงานที่สูงสุดของผ้า NVIDIA UFM® เป็นแพลตฟอร์มการบริหารกลางที่แนะนํา
| พื้นที่ปฏิบัติการ | เครื่องมือ/ลักษณะ | ประโยชน์ |
|---|---|---|
| การจัดหาและติดตามผ้า | UFM® Device Manager และเทเลเมตร | การจัดสรรแบบไม่มีการสัมผัส ดัชบอร์ดสุขภาพในเวลาจริง และการรวบรวมมาตรฐานการทํางาน |
| การแก้ไขปัญหาและวิเคราะห์สาเหตุราก | UFM® Event Analyzer และการวินิจฉัยเคเบิล | การตรวจจับความผิดปกติโดย AI ลงบันทึกเหตุการณ์รายละเอียด และการทดสอบเคเบิลทางไกล |
| การปรับปรุงการทํางาน | UFM® Performance Advisor และ SHARP Analytics | ระบุจุดติดต่อ, ปรับปรุงการนําทาง, และติดตามประสิทธิภาพการคิดเลขในเครือข่าย |
การอัพเดทฟอร์มแวร์เป็นประจํา และการปฏิบัติตามแนวปฏิบัติที่ดีที่สุดที่ระบุไว้ในเอกสารสวิตช์นั้นเป็นสิ่งจําเป็นกระแสการวินิจฉัยควรเริ่มด้วย UFM® telemetry, ตรวจสอบความสมบูรณ์แบบของเคเบิล และตรวจสอบการตั้งค่า SHARP และการควบคุมความจุกจุก
6สรุปและการประเมินค่า
การนําระบบเชื่อมโยงคลัสเตอร์มาใช้งานMellanox (NVIDIA) 920-9B110-00FH-0D0ให้พื้นฐานที่มีความสามารถสูงในอนาคตสําหรับภาระงาน RDMA, HPC และ AI. ข้อเสนอคุณค่าของมันมีหลายด้าน: มันยกระดับการใช้งาน GPU และ ROI โดยการลดต้นทุนการสื่อสารให้น้อยที่สุด,ทําให้การเติบโตของคลัสเตอร์สามารถปรับขนาดได้ และทําให้การดําเนินงานง่ายขึ้นด้วยการบริหารจัดการที่บูรณาการและเทเลเมตร
ในขณะที่920-9B110-00FH-0D0 ราคาเป็นการลงทุนที่คุ้มค่า ค่าบริการรวม (TCO) เป็นประโยชน์ เมื่อพิจารณาถึงการลดเวลาในการดําเนินงานและการปรับขนาดอย่างมีประสิทธิภาพ ที่หลีกเลี่ยงการออกแบบใหม่ของผ้าที่แพง.องค์กรประเมิน920-9B110-00FH-0D0 สําหรับขายการแก้ไขทางเทคนิคนี้ให้แผนภาพในการปลดปล่อยศักยภาพเต็มของพื้นฐานคอมพิวเตอร์ที่เร่งรัด

