NVIDIA Mellanox MQM9790-NS2F InfiniBand Switch ในการทำงาน: การปรับแต่งการเชื่อมต่อความหน่วงต่ำ

April 13, 2026

NVIDIA Mellanox MQM9790-NS2F InfiniBand Switch ในการทำงาน: การปรับปรุงการเชื่อมต่อที่มีความหน่วงต่ำสำหรับคลัสเตอร์ RDMA/HPC/AI

ในการฝึกอบรม AI, การจำลองการคำนวณประสิทธิภาพสูง (HPC) และการจัดเก็บข้อมูลแบบกระจายขนาดใหญ่ ความหน่วงของเครือข่ายและแบนด์วิดท์มักจะเป็นตัวกำหนดขีดจำกัดสูงสุดของประสิทธิภาพของคลัสเตอร์ เพื่อช่วยให้องค์กรต่างๆ ก้าวข้ามข้อจำกัดนี้ สวิตช์ MQM9790-NS2F InfiniBand จาก NVIDIA Mellanox กำลังกลายเป็นส่วนประกอบหลักของการเชื่อมต่อในการใช้งาน AI และ HPC จำนวนมาก บทความนี้จะพาไปดูการอัปเกรดคลัสเตอร์ฝึกอบรม AI ขนาดใหญ่ในโลกแห่งความเป็นจริง โดยแสดงให้เห็นว่าสวิตช์นี้ส่งมอบเครือข่าย RDMA ที่มีความหน่วงต่ำและเพิ่มประสิทธิภาพที่วัดผลได้ได้อย่างไร

ภูมิหลังและความท้าทาย: แรงกดดันต่อเครือข่ายจาก GPU พันตัวสู่ GPU หมื่นตัว

สถาบันวิจัยชั้นนำแห่งหนึ่งเคยใช้งานคลัสเตอร์ GPU พันตัวสำหรับการฝึกอบรมโมเดลภาษาขนาดใหญ่และการจำลองสภาพอากาศ เมื่อพารามิเตอร์ของโมเดลเพิ่มขึ้นจากหลักหมื่นล้านเป็นหลักแสนล้าน เครือข่าย InfiniBand HDR 200Gb/s ที่มีอยู่เริ่มประสบปัญหาคอขวดและมีค่าใช้จ่ายในการสื่อสารเพิ่มขึ้น การดำเนินการ Cross-node All-Reduce ใช้เวลานานขึ้นอย่างมาก และ GPU มักจะทำงานโดยไม่ได้ใช้งานขณะรอการถ่ายโอนข้อมูลเครือข่าย สถาปนิกต้องการโซลูชันที่นำเสนอความหนาแน่นของพอร์ตที่สูงขึ้น การกระจายโหลดที่ละเอียดขึ้น และความเข้ากันได้เต็มรูปแบบกับโครงสร้างพื้นฐาน RDMA ที่มีอยู่

หลังจากการประเมินอย่างละเอียด ทีมงานได้เลือกใช้เครือข่าย InfiniBand ระดับ NDR โดยใช้ NVIDIA Mellanox MQM9790-NS2F ด้วยพอร์ต OSFP 64 พอร์ต แต่ละพอร์ตทำงานที่อัตราสาย 400Gb/s สวิตช์นี้จึงตรงกับความต้องการแบนด์วิดท์ของเซิร์ฟเวอร์ GPU รุ่นต่อไปได้อย่างสมบูรณ์แบบ

โซลูชันและการติดตั้ง: เครือข่าย NDR + เครือข่าย RDMA แบบไม่สูญเสียข้อมูล

ในการออกแบบใหม่ เซิร์ฟเวอร์ GPU แต่ละเครื่องติดตั้งอะแดปเตอร์ ConnectX-7 แบบพอร์ตคู่ เชื่อมต่อกับสวิตช์ leaf สองตัว ที่แกนกลาง สวิตช์ MQM9790-NS2F 400Gb/s NDR 64-port OSFP สร้างโทโพโลยี Fat-Tree สองชั้นโดยใช้สถาปัตยกรรม Clos แบบไม่ปิดกั้น การกำหนดเส้นทางแบบปรับได้และการควบคุมความแออัดถูกเปิดใช้งาน โดยใช้ประโยชน์จาก InfiniBand RDMA แบบเนทีฟเพื่อถ่ายโอนข้อมูลโดยตรงจากหน่วยความจำ GPU ไปยังหน่วยความจำ GPU ระยะไกล โดยข้ามค่าใช้จ่ายของ CPU และสแต็กซอฟต์แวร์

การใช้งานพอร์ตและความเข้ากันได้: อะแดปเตอร์ HDR ที่มีอยู่สามารถทำงานด้วยความเร็วที่ลดลง เพื่อปกป้องการลงทุนก่อนหน้านี้ รายการ MQM9790-NS2F เข้ากันได้ ครอบคลุมเซิร์ฟเวอร์ GPU และระบบจัดเก็บข้อมูลหลัก โดยไม่จำเป็นต้องแก้ไขไดรเวอร์ระหว่างการติดตั้ง
การดำเนินงานอัจฉริยะ: การวัดค่าในตัวจะตรวจสอบข้อผิดพลาดของลิงก์และความแออัดแบบเรียลไทม์ ช่วยให้ทีมสามารถแยกปัญหาโมดูลออปติคัลหรือสายเคเบิลได้อย่างรวดเร็ว และลดเวลาเฉลี่ยในการซ่อมแซมได้อย่างมาก

ผลลัพธ์และประโยชน์: เวลาการวนซ้ำการฝึกอบรมลดลง 38% ค่าใช้จ่ายเครือข่ายลดลงเหลือ 8%

หลังจากการอัปเกรด สถาบันได้ทำการทดสอบเปรียบเทียบกับปริมาณงานจริง ในงานการฝึกอบรมล่วงหน้าสไตล์ GPT ขนาด 100 พันล้านพารามิเตอร์ คลัสเตอร์ที่สร้างขึ้นบน MQM9790-NS2F InfiniBand switch ลดเวลาการวนซ้ำจาก 2.8 วินาที เป็น 1.73 วินาที ซึ่งเป็นการปรับปรุง 38% ส่วนแบ่งของความหน่วงรวมที่เกิดจากการสื่อสารเครือข่ายลดลงจาก 22% เป็น 8% ซึ่งหมายความว่า GPU ใช้เวลาในการคำนวณที่มีประโยชน์มากขึ้นอย่างมาก ด้วยการคำนวณในเครือข่าย SHARPv3 ภายในสวิตช์ NDR แบนด์วิดท์ All-Reduce เกือบเป็นสองเท่า

ในส่วนของการจัดเก็บข้อมูล NVMe ที่มีความหน่วงต่ำผ่าน InfiniBand เพิ่มแบนด์วิดท์การอ่าน/เขียนรวมของระบบไฟล์แบบขนานขึ้น 2.3 เท่า เวลาในการบันทึกและกู้คืนจุดตรวจสอบลดลงจาก 12 นาที เหลือต่ำกว่า 5 นาที ตัวเลขเหล่านี้ถูกบันทึกไว้ในรายงานการทดสอบภายในและสอดคล้องกับ MQM9790-NS2F specifications พื้นฐาน

สรุปและแนวโน้ม: การเชื่อมต่อ NDR เป็นตัวเลือกเริ่มต้นสำหรับโครงสร้างพื้นฐาน AI รุ่นต่อไป

กรณีศึกษานี้แสดงให้เห็นอย่างชัดเจนว่าสำหรับคลัสเตอร์ RDMA/HPC/AI ขนาดใหญ่ การนำ MQM9790-NS2F InfiniBand switch solution มาใช้สามารถขจัดปัญหาคอขวดของเครือข่ายได้อย่างมีประสิทธิภาพ เพิ่มการใช้งาน GPU และทำให้การดำเนินงานง่ายขึ้น สำหรับสถาปนิกที่วางแผนคลัสเตอร์ GPU หมื่นตัว MQM9790-NS2F datasheet เป็นข้อมูลอ้างอิงที่จำเป็นสำหรับการประเมินกำลัง ความหนาแน่นของพอร์ต และชุดคุณสมบัติ รุ่นนี้อยู่ในสายการผลิตแล้ว สำหรับการสอบถามเกี่ยวกับ MQM9790-NS2F price หรือ MQM9790-NS2F for sale โปรดติดต่อพันธมิตรที่ได้รับอนุญาตของ NVIDIA เมื่อปริมาณงานในอนาคตผลักดันความต้องการไปสู่ 800Gb/s และสูงกว่านั้น แพลตฟอร์มการสลับ NDR จะยังคงมีบทบาทสำคัญในการปลดล็อกศักยภาพการคำนวณ