โซลูชันทางเทคนิคของสวิตช์ InfiniBand Mellanox (NVIDIA) 920-9B110-00FH-0D0｜การปรับปรุงการเชื่อมต่อความหน่วงต่ำ

January 5, 2026

1. สถานการณ์โครงการและการวิเคราะห์ความต้องการ

การจัดจําหน่ายและปรับขนาดคลาสเตอร์คอมพิวเตอร์เร่งรัดที่ทันสมัยสําหรับการฝึกอบรม AI และภาระงาน HPC นําเสนอปัญหาเครือข่ายที่เป็นเอกลักษณ์เครือข่ายพื้นฐาน TCP/IP แบบดั้งเดิม นํามาซึ่งความช้าและค่าใช้จ่าย CPU ที่สําคัญความต้องการหลักสําหรับการแก้ไขการเชื่อมต่อรุ่นต่อไปประกอบด้วย: ความยืดหยุ่นที่กําหนดได้ในช่วงใต้ไมโครเซกอนด์เพื่อป้องกันการหยุด GPUความกว้างแบนด์เบด bisectional สูงสําหรับรูปแบบการสื่อสารทั้งหมด, คอมพิวเตอร์ในเครือข่ายที่สามารถปรับขนาดได้ เพื่อลดภาระการดําเนินงานร่วมกัน และการจัดการเนื้อหาที่แข็งแกร่งเพื่อความเรียบง่ายในการปฏิบัติงาน

รายการNVIDIA Mellanox 920-9B110-00FH-0D0ได้ถูกออกแบบมาเพื่อตอบสนองความต้องการเหล่านี้อย่างแม่นยํา920-9B110-00FH-0D0 InfiniBand สวิตช์ OPN โซลชั่นเอกสารนี้อ้างอิงแผนงานทางเทคนิคที่ครบวงจรสําหรับการใช้งาน

2. การออกแบบระบบระบบ/เครือข่ายทั่วไป

สถาปัตยกรรมที่เสนอคือทอปโลยีต้นไม้ไขมันที่ไม่กักขัด ซึ่งเป็นมาตรฐานจริงสําหรับการสร้างคลาสเตอร์ HPC และ AI ที่สามารถคาดการณ์ได้และมีความกว้างขวางความถี่สูงการออกแบบนี้ทําให้การนับ hop และความช้าที่คงที่ระหว่าง 2 node, การกําจัดการสมัครสมาชิกเกินและจุดร้อน อาร์คิทคัตช์ถูกสร้างขึ้นบนระบบนิเวเดียที่สมบูรณ์แบบ

ชั้นคํานวณ:ระบบ NVIDIA DGX หรือ HGX หรือเซอร์เวอร์ GPU ที่เทียบเท่าพร้อม NVIDIA ConnectX-7 NICs
ชั้นเชื่อมต่อ:เนื้อเยื่อ homogeneous ของ920-9B110-00FH-0D0สวิทช์ที่ทําหน้าที่เป็นทั้งสวิทช์ใบ (Top-of-Rack) และสวิทช์กระดูกสันหลัง
ระดับการจัดการและการประกอบเสียง:NVIDIA UFM® สําหรับการบริหารงาน Fabric, ผสมรวมกับโปรแกรมการวางแผนคลาสเตอร์ เช่น Slurm หรือ Kubernetes ผ่าน NVIDIA Magnum IO stack

สถาปัตยกรรมปลายสู่ปลายนี้รับประกันผลงานที่ดีที่สุดสําหรับการสื่อสาร RDMA และ GPUDirect โดยสร้าง "ผ้าเป็นทรัพยากรการคํานวณ" ที่รวมกัน

3.บทบาทของ 920-9B110-00FH-0D0 และลักษณะทางเทคนิคหลัก

ภายในโครงสร้างนี้920-9B110-00FH-0D0เป็นหน่วยพื้นฐานของระดับข้อมูล บทบาทของมันยืดไปนอกเหนือการส่งต่อแพ็คเก็ตง่าย ๆ เพื่อกลายเป็นองค์ประกอบการคํานวณที่ใช้งาน

หลักเทคนิค

ความช้าต่ําสุด และความกว้างของแบนด์วิธสูงขับเคลื่อนโดย920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDRASIC, มันให้ความช้าจากท่าเรือไปท่าเรือชั้นนําในอุตสาหกรรมและความเร็วสายเต็ม 200Gb / s ต่อความกว้างแบนด์วิทท่าเรือ, ซึ่งเป็นสิ่งสําคัญสําหรับการจราจร RDMA.
เครื่องคอมพิวเตอร์ในเครือข่าย (SHARP):ฮาร์ดแวร์สวิตช์เร่งการดําเนินงานรวม MPI และ NCCL (All-Reduce, Broadcast) โดยดําเนินการรวมข้อมูลภายในเครือข่าย.
การควบคุมความจุกจุกระจุกระดับสูงอัตราการปรับเปลี่ยนเส้นทางและกลไกควบคุมความหนาแน่นในเวลาที่ถูกต้องการป้องกันการตกของแพ็คเก็ตและการรับประกันการกระจายความกว้างแบนด์วิทที่เที่ยงธรรม ระหว่างกรณีที่เกิดขึ้นในช่วงที่ปกติในการฝึกอบรม AI.
เทเลเมตรและความเห็น:การสนับสนุนที่บูรณาการสําหรับพื้นฐานเทเลเมตรี่ของ NVIDIA ให้ความรู้ลึกถึงรูปแบบการจราจร, การใช้งานพัฟเฟอร์, และสุขภาพของลิงค์ ซึ่งเป็นสิ่งจําเป็นสําหรับการปรับปรุงผลงาน

วิศวกรควรปรึกษาเจ้าหน้าที่ใบข้อมูล 920-9B110-00FH-0D0สําหรับรายละเอียดรายละเอียด 920-9B110-00FH-0D0ในระบบพลังงาน, ระบบเย็น และการปรับโพร์ต

4. แนะนําการใช้งานและการปรับขนาด

การใช้งานเริ่มต้นด้วยการวิเคราะห์อย่างละเอียด920-9B110-00FH-0D0 รองรับรายการองค์ประกอบ หน่วยปรับขนาดแบบปกติคือ "โพด" ที่สร้างขึ้นด้วยต้นไขมันที่ไม่ปิด

ตัวอย่าง: 512-GPU Cluster Pod

ชั้นใบ:การใช้งาน920-9B110-00FH-0D0สวิตช์ในรูปแบบ Top-of-Rack (ToR) โดยแต่ละตัวเชื่อมต่อกับเซอร์เวอร์ GPU มากถึง 16 เครื่อง (ตัวอย่างเช่น ระบบ 8x DGX A100)
ระดับกระดูกสันหลังชั้นที่สองของ920-9B110-00FH-0D0สวิตช์เชื่อมต่อสวิตช์ใบทั้งหมด ให้ความกว้างแบนด์เบดแบบครบครัน
การเชื่อมต่อสายไฟ:ใช้เคเบิล HDR QSFP56 (เฉยหรือทํางาน) สําหรับการเชื่อมต่อระหว่างสวิตช์และเซอร์เวอร์ทั้งหมด 200Gb/s

การปรับขนาดไปไกลกว่าโพด:สามารถเชื่อมต่อกันได้หลาย pods โดยใช้สวิทช์กระดูกสันหลังหรือการขยายระดับความสูงของต้นไขมัน920-9B110-00FH-0D0.920-9B110-00FH-0D0 InfiniBand สวิตช์ OPNให้แผนการทางที่ชัดเจน สําหรับความสามารถในการใช้งานร่วมกันของส่วนต่างๆ ระหว่างการขยาย

5การดําเนินงาน ติดตาม ตรวจสอบปัญหา และปรับปรุง

การบริหารแบบโปรแอคทีฟเป็นสิ่งสําคัญในการรักษาผลงานที่สูงสุดของผ้า NVIDIA UFM® เป็นแพลตฟอร์มการบริหารกลางที่แนะนํา

พื้นที่ปฏิบัติการ	เครื่องมือ/ลักษณะ	ประโยชน์
การจัดหาและติดตามผ้า	UFM® Device Manager และเทเลเมตร	การจัดสรรแบบไม่มีการสัมผัส ดัชบอร์ดสุขภาพในเวลาจริง และการรวบรวมมาตรฐานการทํางาน
การแก้ไขปัญหาและวิเคราะห์สาเหตุราก	UFM® Event Analyzer และการวินิจฉัยเคเบิล	การตรวจจับความผิดปกติโดย AI ลงบันทึกเหตุการณ์รายละเอียด และการทดสอบเคเบิลทางไกล
การปรับปรุงการทํางาน	UFM® Performance Advisor และ SHARP Analytics	ระบุจุดติดต่อ, ปรับปรุงการนําทาง, และติดตามประสิทธิภาพการคิดเลขในเครือข่าย

การอัพเดทฟอร์มแวร์เป็นประจํา และการปฏิบัติตามแนวปฏิบัติที่ดีที่สุดที่ระบุไว้ในเอกสารสวิตช์นั้นเป็นสิ่งจําเป็นกระแสการวินิจฉัยควรเริ่มด้วย UFM® telemetry, ตรวจสอบความสมบูรณ์แบบของเคเบิล และตรวจสอบการตั้งค่า SHARP และการควบคุมความจุกจุก

6สรุปและการประเมินค่า

การนําระบบเชื่อมโยงคลัสเตอร์มาใช้งานMellanox (NVIDIA) 920-9B110-00FH-0D0ให้พื้นฐานที่มีความสามารถสูงในอนาคตสําหรับภาระงาน RDMA, HPC และ AI. ข้อเสนอคุณค่าของมันมีหลายด้าน: มันยกระดับการใช้งาน GPU และ ROI โดยการลดต้นทุนการสื่อสารให้น้อยที่สุด,ทําให้การเติบโตของคลัสเตอร์สามารถปรับขนาดได้ และทําให้การดําเนินงานง่ายขึ้นด้วยการบริหารจัดการที่บูรณาการและเทเลเมตร

ในขณะที่920-9B110-00FH-0D0 ราคาเป็นการลงทุนที่คุ้มค่า ค่าบริการรวม (TCO) เป็นประโยชน์ เมื่อพิจารณาถึงการลดเวลาในการดําเนินงานและการปรับขนาดอย่างมีประสิทธิภาพ ที่หลีกเลี่ยงการออกแบบใหม่ของผ้าที่แพง.องค์กรประเมิน920-9B110-00FH-0D0 สําหรับขายการแก้ไขทางเทคนิคนี้ให้แผนภาพในการปลดปล่อยศักยภาพเต็มของพื้นฐานคอมพิวเตอร์ที่เร่งรัด