Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 ในการใช้งานจริง: การเพิ่มประสิทธิภาพการเชื่อมต่อความหน่วงต่ำสำหรับคลัสเตอร์ RDMA/HPC/AI
April 14, 2026
ในยุคของการฝึกโมเดล AI ขนาดใหญ่และ HPC ระดับ exascale ความหน่วงของเครือข่ายได้กลายเป็นคอขวดที่สำคัญที่สุดเพียงอย่างเดียวที่จำกัดการปรับขนาดคลัสเตอร์แบบเชิงเส้น การแก้ไขความท้าทายนี้โดยตรง สวิตช์ InfiniBand ของ Mellanox (NVIDIA Mellanox) รุ่น 920-9B110-00FH-0D0 กำลังเปลี่ยนแปลงวิธีการออกแบบเครือข่ายประสิทธิภาพสูงของสถาบันวิจัยและห้องปฏิบัติการ AI ขององค์กร บทความนี้จะสำรวจสถานการณ์การใช้งานทั่วไปที่ 920-9B110-00FH-0D0 ให้ความหน่วงที่แน่นอนและต่ำมากสำหรับเวิร์กโหลดที่เน้น RDMA เป็นหลัก
ภูมิหลังและความท้าทาย: กำแพงการสื่อสารของคลัสเตอร์ AI
ศูนย์วิจัย AI ขนาดกลางแห่งหนึ่งกำลังประสบปัญหา GPU ว่างระหว่างการฝึกแบบกระจายบน 64 โหนด เครือข่าย Ethernet 100Gb ที่มีอยู่ของพวกเขาประสบปัญหาการแออัดของการจราจรแบบ incast ทำให้การดำเนินการสื่อสารแบบรวม (all-reduce, all-gather) ใช้เวลาถึง 40% ของเวลาฝึกทั้งหมด สถาปนิกเครือข่ายต้องการโซลูชันที่ไม่มีการสูญเสียและมีปริมาณงานสูงที่สามารถปรับขนาดได้ถึง 200Gb/s ต่อพอร์ต ในขณะที่ยังคงรักษาความหน่วงต่ำกว่าไมโครวินาที หลังจากประเมินตัวเลือกที่มีอยู่ ทีมงานได้เลือก 920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDR เป็นส่วนประกอบหลักสำหรับโทโพโลยี spine-leaf ใหม่ของพวกเขา
โซลูชันและการใช้งาน: การนำเครือข่าย InfiniBand มาใช้
การใช้งานมุ่งเน้นไปที่สวิตช์ NVIDIA Mellanox 920-9B110-00FH-0D0 ที่กำหนดค่าในสถาปัตยกรรม fat-tree สองระดับ โหนดคอมพิวเตอร์แต่ละโหนดติดตั้งอะแดปเตอร์ HDR ConnectX-6 เชื่อมต่อกับสวิตช์ leaf ผ่านสายทองแดงแบบพาสซีฟ ขั้นตอนการดำเนินการที่สำคัญรวมถึง:
- ทางเลือกของ RDMA over Converged Ethernet (RoCE): InfiniBand แบบเนทีฟพร้อมการควบคุมการแออัดที่ทำงานด้วยฮาร์ดแวร์ช่วยขจัดแพ็กเก็ตที่สูญหายได้อย่างสมบูรณ์
- การกำหนดเส้นทางแบบปรับได้: โซลูชัน OPN ของสวิตช์ InfiniBand 920-9B110-00FH-0D0 ช่วยให้การกระจายโหลดแบบไดนามิกผ่านหลายเส้นทาง ป้องกันการเกิดจุดร้อน
- การจัดการเครือข่าย: การใช้ Subnet Manager (OpenSM) พร้อม ข้อมูลจำเพาะของ 920-9B110-00FH-0D0 ยืนยันการรองรับโหนดสูงสุด 2,000 โหนดในเครือข่ายเดียว
ก่อนการจัดซื้อ วิศวกรได้ตรวจสอบ เอกสารข้อมูล 920-9B110-00FH-0D0 เพื่อตรวจสอบความเข้ากันได้กับออปติกที่มีอยู่ ระบบนิเวศ ที่เข้ากันได้กับ 920-9B110-00FH-0D0 ประกอบด้วยชุดสายเคเบิล HDR หลักทั้งหมด ทำให้รายการวัสดุง่ายขึ้น เกี่ยวกับงบประมาณ ราคา 920-9B110-00FH-0D0 พิสูจน์แล้วว่าสามารถแข่งขันกับสวิตช์ HDR ทางเลือกอื่นได้ และมีสินค้าพร้อมจำหน่าย (920-9B110-00FH-0D0 สำหรับขาย) ผ่านพันธมิตรช่องทางของ NVIDIA
ผลลัพธ์และประโยชน์: การเพิ่มประสิทธิภาพที่วัดผลได้
ข้อมูล Telemetry หลังการใช้งานแสดงให้เห็นถึงการปรับปรุงที่น่าทึ่งในสามตัวชี้วัดหลัก:
| ตัวชี้วัด | ก่อน (100GbE) | หลัง (920-9B110-00FH-0D0 HDR) | การปรับปรุง |
|---|---|---|---|
| ความหน่วง All-Reduce เฉลี่ย (64 โหนด) | 340µs | 78µs | ลดลง 77% |
| เวลา GPU ว่าง (ค่าใช้จ่ายในการสื่อสาร) | 38% | 11% | เพิ่มขึ้น 27% โดยตรง |
| ประสิทธิภาพการใช้งานแบนด์วิดท์เครือข่ายจริง | 62% | 94% | +32% |
นอกเหนือจากตัวเลขดิบแล้ว OPN ของสวิตช์ InfiniBand 920-9B110-00FH-0D0 ช่วยให้ทีมสามารถปรับขนาดจาก 64 เป็น 256 โหนดได้โดยไม่ต้องออกแบบเครือข่ายใหม่ ความหน่วงที่แน่นอนที่ได้รับจากการควบคุมการไหลแบบอิงตามเครดิตของ InfiniBand พิสูจน์แล้วว่ามีความสำคัญต่อการรักษาความสม่ำเสมอของการฝึกอบรมบน GPU หลายร้อยตัว วิศวกรยังได้ใช้ประโยชน์จากการแจ้งเตือนการแออัดที่ทำงานด้วยฮาร์ดแวร์ของ 920-9B110-00FH-0D0 เพื่อระบุและแก้ไขปัญหา micro-burst แบบเรียลไทม์
สรุปและแนวโน้ม: อนาคตของการเชื่อมต่อ AI
การใช้งานยืนยันว่า NVIDIA Mellanox 920-9B110-00FH-0D0 ทำหน้าที่เป็นองค์ประกอบพื้นฐานสำหรับคลัสเตอร์ AI และ HPC รุ่นต่อไป ด้วยการแทนที่เครือข่าย Ethernet ที่สูญเสียด้วย InfiniBand ที่ไม่สูญเสีย องค์กรต่างๆ สามารถเรียกคืน GPU compute ได้ถึง 30% ที่เคยสูญเสียไปกับการหยุดชะงักของการสื่อสาร สำหรับสถาปนิกที่วางแผนโครงสร้างพื้นฐาน AI ใหม่ เอกสารข้อมูล 920-9B110-00FH-0D0 ให้คำแนะนำโดยละเอียดเกี่ยวกับโทโพโลยีตั้งแต่คลัสเตอร์ DGX ขนาดเล็กไปจนถึงการใช้งานระดับซูเปอร์คอมพิวเตอร์
เมื่อเวิร์กโหลดมีการพัฒนาไปสู่การขนานโมเดลที่ใหญ่ขึ้นและความหนาแน่นของ GPU ที่สูงขึ้น 920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDR นำเสนอเส้นทางการอัปเกรดที่ชัดเจนไปยังเครือข่าย 400Gb/s ในอนาคตผ่านการออกแบบที่เข้ากันได้แบบย้อนหลัง ไม่ว่าจะประเมิน ราคา 920-9B110-00FH-0D0 เทียบกับผลกำไรด้านประสิทธิภาพการดำเนินงาน หรือตรวจสอบตัวเลือกสายเคเบิล ที่เข้ากันได้กับ 920-9B110-00FH-0D0 สวิตช์ InfiniBand นี้ให้ ROI ที่วัดผลได้สำหรับองค์กรที่ขับเคลื่อนด้วยข้อมูล

