Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 การทำงานของสวิตช์ InfiniBand: การปรับการเชื่อมต่อระหว่างกันแบบ Latency ต่ำให้เหมาะสม

May 29, 2026

ในการฝึกอบรม AI ในโลกแห่งความเป็นจริงและการปรับใช้การประมวลผลประสิทธิภาพสูง เวลาแฝงของเครือข่ายและโอเวอร์เฮดของ CPU มักจะกลายเป็นนักฆ่าเงียบของความสามารถในการปรับขนาด ข้อมูลสรุปเกี่ยวกับการสมัครนี้จะตรวจสอบว่าองค์กรวิจัยขนาดกลางจัดการกับความท้าทายเหล่านี้ได้อย่างไรโดยการปรับใช้เมลลาน็อกซ์ (NVIDIA เมลลาน็อกซ์) 920-9B110-00FH-0D0สวิตช์ InfiniBand เป็นโครงสร้างหลักสำหรับคลัสเตอร์การวิจัยที่ใช้ GPU

ความเป็นมาและความท้าทาย: เมื่ออีเธอร์เน็ต 100Gb/s ชนกำแพง

โครงสร้าง Ethernet RoCE 100Gb/s แบบเดิมขององค์กรประสบปัญหาความล่าช้าหางที่ไม่สามารถคาดเดาได้เนื่องจากพายุ PFC (Priority Flow Control) และการจัดการความแออัดที่ไม่มีประสิทธิภาพ เนื่องจากขนาดโมเดล AI ของพวกเขาเพิ่มขึ้นจาก 1 หมื่นล้านพารามิเตอร์เป็นมากกว่า 5 หมื่นล้านพารามิเตอร์ การดำเนินการสื่อสารโดยรวม (ลดทั้งหมด และทั้งหมดต่อทั้งหมด) ใช้เวลาเกือบ 45% ของเวลาในการทำซ้ำทั้งหมด พวกเขาต้องการ Fabric ที่ไม่มีการสูญเสียและมีความหน่วงต่ำซึ่งสามารถใช้ประโยชน์จาก RDMA ได้อย่างเต็มที่ในขณะที่ยังคงรักษาระดับประสิทธิภาพเชิงเส้นไว้ การค้นหามาบรรจบกันอย่างรวดเร็ว920-9B110-00FH-0D0เป็นกลุ่มอาคารที่มีแนวโน้มมากที่สุด

โซลูชันและการปรับใช้: การสร้าง HDR Spine-Leaf Fabric 200Gb/s

ทีมงานได้คัดเลือก920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDRสลับเป็นกระดูกสันหลังของเลเยอร์กระดูกสันหลัง โดยเชื่อมต่อโหนด GPU 64 ตัวเข้าด้วยกันบนสี่แร็ค การใช้920-9B110-00FH-0D0 สวิตช์ InfiniBand OPNโดยปรับใช้สวิตช์สไปน์สำรองสองตัวพร้อมพอร์ต HDR 40 พอร์ตต่อพอร์ต เพื่อให้ได้อัตราส่วนการสมัครสมาชิกเกินขนาด 1:1 การปรับใช้ใช้ประโยชน์จาก Adaptive Routing และ SHARPv2 (Scalable Hierarchical Aggregation and Reduction Protocol) — คุณสมบัติที่ได้รับการบันทึกไว้อย่างครบถ้วนในเอกสารข้อมูลสินค้า 920-9B110-00FH-0D0— เพื่อถ่ายโอนการดำเนินการโดยรวมไปยังแฟบริคสวิตช์โดยตรง เพื่อความเข้ากันได้ทางทีมงานยืนยันว่าเข้ากันได้ 920-9B110-00FH-0D0ระบบนิเวศรวมถึงอะแดปเตอร์ ConnectX-6 HDR ที่มีอยู่และออปติก QSFP56 มาตรฐาน

ผลลัพธ์และประสิทธิภาพที่เพิ่มขึ้น

การวัดและส่งข้อมูลทางไกลหลังการใช้งานเผยให้เห็นการปรับปรุงอย่างมาก เวลาแฝงตั้งแต่ต้นทางถึงปลายทางระหว่างโหนด GPU สองโหนดลดลงจาก 3.2µs (RoCE) เหลือต่ำกว่า 1.1µs โดยมีความกระวนกระวายใจลดลง 80% SHARPv2 กำลังถ่ายบนNVIDIA เมลลาน็อกซ์ 920-9B110-00FH-0D0ลดเวลาเสร็จสิ้นการทำงานแบบ All-Reduce ลง 57% สำหรับงาน 512-GPU ตารางต่อไปนี้สรุปเมตริกหลัก:

เมตริก	ก่อนหน้า (RoCE)	ด้วย 920-9B110-00FH-0D0
เฉลี่ย P2P Latency (ปิงปอง MPI)	3.2 ไมโครวินาที	1.08 ไมโครวินาที
ลดทั้งหมด (512 GPU, ข้อความ 1GB)	17.3 มิลลิวินาที	7.4 มิลลิวินาที
การใช้แบนด์วิธอย่างมีประสิทธิภาพ	62%	94%
CPU Overhead (ต่อ 10Gb/s)	~8%	<1%

นอกเหนือจากตัวเลขดิบแล้วโซลูชัน OPN สวิตช์ InfiniBand 920-9B110-00FH-0D0ลดความซับซ้อนในการดำเนินงาน ด้วยการใช้ NVIDIA UFM (Unified Fabric Manager) ทีมงานได้รับการมองเห็นแฟบริคแบบเรียลไทม์ การเพิ่มประสิทธิภาพเส้นทางอัตโนมัติ และการแจ้งเตือนความแออัดเชิงรุก ซึ่งความสามารถนี้ไม่สามารถใช้งานได้ในการปรับใช้อีเทอร์เน็ตครั้งก่อน ที่ข้อมูลจำเพาะ 920-9B110-00FH-0D0ยังเปิดใช้งานการทำงานอย่างประหยัดพลังงาน: แชสซี 1U กินไฟเพียง 180W เมื่อโหลดเต็ม ส่งผลให้การมีส่วนร่วมของ PUE ลดลง

ข้อพิจารณาด้านเศรษฐกิจและการจัดซื้อจัดจ้าง

สำหรับองค์กรที่ประเมินการอัพเกรดที่คล้ายกันราคา 920-9B110-00FH-0D0เปรียบเทียบได้ดีกับสวิตช์อีเธอร์เน็ต 200Gb/s ที่เทียบเท่า เมื่อคำนึงถึงค่าใช้จ่ายของ NIC ที่ต่ำกว่า และการกำจัดสิทธิ์การใช้งานอีเธอร์เน็ตแบบ Lossless ที่มีราคาแพง รายชื่อผู้จัดจำหน่ายหลายรายในขณะนี้ขาย 920-9B110-00FH-0D0โดยมีระยะเวลารอคอยสินค้าไม่เกินสี่สัปดาห์ การวิเคราะห์ ROI ของทีมแสดงให้เห็นระยะเวลาคืนทุน 9 เดือนจากการปรับปรุงการใช้งาน GPU เท่านั้น

บทสรุปและแนวโน้ม

การใช้งานยืนยันว่าNVIDIA เมลลาน็อกซ์ 920-9B110-00FH-0D0มอบความหน่วงต่ำกว่าไมโครวินาที แบนด์วิธแบบสองส่วนเต็มรูปแบบ และประสิทธิภาพดั้งเดิมของ RDMA สำหรับสถาปนิกที่ออกแบบคลัสเตอร์ AI ยุคถัดไปหรือระบบ HPC สวิตช์นี้แสดงถึงโครงสร้างสำเร็จรูปที่ได้รับการพิสูจน์แล้วและพร้อมสำหรับการผลิต ในขณะที่ปริมาณงานยังคงขยายไปสู่ระดับ Exascale โซลูชันที่สร้างขึ้นรอบ ๆ920-9B110-00FH-0D0จะยังคงอยู่ในระดับแนวหน้าของการออกแบบการเชื่อมต่อที่มีประสิทธิภาพสูง