NVIDIA Mellanox MQM8790-HS2F ในการทำงาน: การปรับแต่งการเชื่อมต่อความหน่วงต่ำสำหรับคลัสเตอร์ RDMA/HPC/AI
April 10, 2026
องค์กรวิจัย AI ที่เติบโตอย่างรวดเร็วกำลังเผชิญกับปัญหาที่คุ้นเคย: คลัสเตอร์ GPU กว่า 200 ตัวที่ใช้สำหรับการฝึกโมเดลภาษาขนาดใหญ่และการจำลองพลศาสตร์โมเลกุล กำลังประสบกับเวลาในการทำงานของงานที่ไม่แน่นอน แม้จะมีโหนดประมวลผลที่ทรงพลัง แต่เครือข่าย Ethernet 100Gb/s ที่มีอยู่ก็ประสบปัญหาความล่าช้าที่ปลายสุด (tail latency spikes) การสูญเสียแพ็กเก็ตภายใต้รูปแบบ incast และภาระงาน CPU สูงเนื่องจากการประมวลผลสแต็ก TCP/IP แบบดั้งเดิม ทีมงานต้องการโซลูชันที่สามารถส่งมอบความหน่วงเวลาที่สม่ำเสมอระดับต่ำกว่าไมโครวินาที รองรับ RDMA สำหรับ GPU Direct ได้อย่างเต็มที่ และสามารถปรับขนาดได้โดยไม่ต้องอัปเกรดครั้งใหญ่ หลังจากประเมินตัวเลือกที่มีอยู่ พวกเขาได้เลือก 迈络思(NVIDIA Mellanox) MQM8790-HS2F เป็นส่วนประกอบหลักสำหรับเครือข่ายคลัสเตอร์รุ่นต่อไป
องค์กรได้ติดตั้ง สวิตช์ InfiniBand MQM8790-HS2F ในโทโพโลยี fat-tree แบบสองชั้น เชื่อมต่อโหนดประมวลผล 128 โหนด (แต่ละโหนดติดตั้งอะแดปเตอร์ NVIDIA ConnectX-6 HDR) และโหนดจัดเก็บข้อมูล 4 โหนด ด้วยพอร์ต QSFP56 จำนวน 40 พอร์ตที่ทำงานที่ความเร็ว 200Gb/s HDR, เพียงตัวเดียว ให้ความจุสวิตชิ่งแบบ non-blocking 16Tb/s ซึ่งเพียงพอที่จะแทนที่สวิตช์ Ethernet แบบเดิมสองตัว พร้อมทั้งลดความซับซ้อนของสายเคเบิล การติดตั้งใช้ประโยชน์จากการรองรับ RDMA และ GPUDirect ดั้งเดิมของ MQM8790-HS2F 200Gb/s HDR 40-port QSFP56 ทำให้สามารถเข้าถึงหน่วยความจำโดยตรงระหว่าง GPU ข้ามเซิร์ฟเวอร์ต่างๆ ได้โดยไม่ต้องมีการแทรกแซงจาก CPU
รายละเอียดการใช้งานที่สำคัญ ได้แก่:
- การกำหนดเส้นทางแบบปรับได้ (Adaptive routing) เพื่อกระจายปริมาณงานอย่างสมดุลผ่านหลายเส้นทางโดยอัตโนมัติ ขจัดจุดคอขวด
- SHARPv3 (Scalable Hierarchical Aggregation and Reduction Protocol) สำหรับการรวมข้อมูลในเครือข่าย เร่งการทำงานแบบ All-Reduce ได้ถึง 2.5 เท่า
- การควบคุมความแออัดที่ระดับสวิตช์ ป้องกันปัญหา head-of-line blocking ที่พบได้ทั่วไปในสภาพแวดล้อม Ethernet ที่มีการสูญเสียแพ็กเก็ต
ก่อนทำการซื้อ ทีมวิศวกรรมได้ตรวจสอบ เอกสารข้อมูล MQM8790-HS2F และ ข้อมูลจำเพาะ MQM8790-HS2F เพื่อยืนยันความเข้ากันได้กับสายเคเบิลและตัวรับส่งสัญญาณ Mellanox ที่มีอยู่ ระบบนิเวศที่ เข้ากันได้กับ MQM8790-HS2F ซึ่งรวมถึงสายเคเบิล HDR แบบออปติคัลและทองแดง ทำให้พวกเขาสามารถนำการลงทุนในระบบเชื่อมต่อเดิมกลับมาใช้ใหม่ได้ 40% ซึ่งช่วยลดอุปสรรคในการอัปเกรดได้อย่างมาก
หลังจากย้ายไปยังเครือข่ายที่ใช้ เทียบกับประสิทธิภาพที่เพิ่มขึ้น กรณีศึกษานี้ชี้ให้เห็นถึงผลตอบแทนจากการลงทุน (ROI) ที่น้อยกว่า 12 เดือน โดยพิจารณาจากการปรับปรุงประสิทธิภาพการประมวลผลเพียงอย่างเดียว องค์กรได้บันทึกการปรับปรุงสามประเภท:
- การลดความหน่วงเวลา: ความหน่วงเวลาเฉลี่ยแบบ MPI ping-pong ลดลงจาก 2.1µs (Ethernet RoCE) เป็น 0.82µs โดยความหน่วงเวลาที่ปลายสุด (tail latency) แทบจะหมดไปปริมาณงานของงาน: งานฝึกอบรมแบบกระจาย (NCCL-based) เสร็จเร็วขึ้น 37% เนื่องจากการลดภาระงานการสื่อสารและเร่งความเร็วด้วย SHARPv3
- การยกภาระ CPU: RDMA over InfiniBand ลดการใช้งาน CPU สำหรับเครือข่ายจากประมาณ 15% เหลือต่ำกว่า 2% ทำให้มีคอร์ว่างสำหรับการประมวลผลในการทดสอบการสื่อสารแบบ all-to-all บน GPU 128 ตัว,
- โซลูชันสวิตช์ InfiniBand MQM8790-HS2F รักษาความเร็ว 198Gb/s ต่อพอร์ตโดยไม่มีการสูญเสียแพ็กเก็ตเลย เทียบกับ 112Gb/s ที่มีการสูญเสีย 1.2% บนเครือข่าย Ethernet เดิม สำหรับการจำลองทางการเงินที่ดำเนินการโดยทีมเดียวกัน ความแปรปรวนของงานลดลง 78% ทำให้สามารถทำ SLA ที่เข้มงวดขึ้นและเวลาทำงานที่คาดการณ์ได้
สรุปและแนวโน้ม: การลงทุนที่พร้อมสำหรับอนาคตการติดตั้งจริงนี้แสดงให้เห็นว่า MQM8790-HS2F
ราคา MQM8790-HS2F เทียบกับประสิทธิภาพที่เพิ่มขึ้น กรณีศึกษานี้ชี้ให้เห็นถึงผลตอบแทนจากการลงทุน (ROI) ที่น้อยกว่า 12 เดือน โดยพิจารณาจากการปรับปรุงประสิทธิภาพการประมวลผลเพียงอย่างเดียวขณะที่องค์กรกำลังวางแผนที่จะเพิ่มจำนวน GPU เป็นสองเท่าเป็น 400+ โหนด พวกเขาได้ตั้งงบประมาณสำหรับ MQM8790-HS2F สำหรับขาย เพิ่มเติม เพื่อรักษาสถาปัตยกรรม fat-tree แบบ non-blocking ความสามารถของสวิตช์ในการผสมผสานความเร็ว HDR และ EDR ช่วยให้มั่นใจได้ถึงเส้นทางการโยกย้ายที่ราบรื่นเมื่ออะแดปเตอร์รุ่นเก่าค่อยๆ ถูกแทนที่ สำหรับสถาปนิกที่ออกแบบคลัสเตอร์ที่เน้น RDMA รุ่นต่อไป
NVIDIA Mellanox MQM8790-HS2F นำเสนอแบ็คโบนที่ได้รับการพิสูจน์แล้ว พร้อมใช้งานจริง ที่สามารถปรับขนาดได้ตั้งแต่การวิจัย AI ระดับแผนกไปจนถึงการประมวลผลสมรรถนะสูงระดับ exascale

