โซลูชันทางเทคนิคสวิตช์ InfiniBand NVIDIA Mellanox MQM9790-NS2F

April 13, 2026

โซลูชันทางเทคนิคสวิตช์ InfiniBand NVIDIA Mellanox MQM9790-NS2F

หนังสือขาวทางเทคนิคนี้ถูกออกแบบสําหรับสถาปนิกเครือข่าย วิศวกรก่อนการขาย และผู้นําการดําเนินงานMQM9790-NS2F✅สวิทช์ 400Gb/s NDR InfiniBand และให้คําแนะนํารายละเอียดเกี่ยวกับการออกแบบสถาปัตยกรรม เทคโนโลยีหลัก การจัดจําหน่ายและการปรับขนาด รวมถึงการปฏิบัติงานและการติดตามโดยเฉพาะสําหรับ RDMA/HPC/AI cluster low-latency interconnect optimization.

1. สถานการณ์โครงการและการวิเคราะห์ความต้องการ

การฝึกอบรม AI และภาระงาน HPC ที่ทันสมัยกําลังขับเคลื่อนคลาสเตอร์จากพันเป็นหมื่นของ GPU ในสภาพแวดล้อมดังกล่าว การเชื่อมต่อระหว่างเครือข่ายได้กลายเป็นอุปสรรคหลักผ้า Ethernet แบบดั้งเดิมมีปัญหาเกี่ยวกับความช้าของหางและค่าใช้จ่าย CPU, ขณะที่การใช้งาน InfiniBand ที่ผ่านมาอาจขาดความหนาแน่นของพอร์ตและความกว้างแบนด์ที่เพียงพอ. ความต้องการหลักประกอบด้วยความช้าในการสวิทชิ่งในช่วงใต้ไมโครเซกอนด์, การส่งต่ออัตราการต่อเนื่องเต็มเส้นโดยไม่ต้องสูญเสียแพ็คเก็ต,การสนับสนุน RDMA ที่มีประสิทธิภาพ, และการปรับปรุงที่เรียบร้อยไปยังสวิทช์ร้อย ๆNVIDIA Mellanox MQM9790-NS2Fตอบโจทย์ความต้องการเหล่านี้โดยตรง ด้วยความสามารถ NDR 400Gb / s และคุณสมบัติคอมพิวเตอร์ในเครือข่ายที่ก้าวหน้า

2. การออกแบบระบบระบบและเครือข่ายโดยรวม

สถาปัตยกรรมที่แนะนําใช้โตโปโลยี Fat-Tree แบบสองชั้น (ยังรู้จักกันว่า Clos ที่พับ) ซึ่งสมดุลความกว้างแบนด์เบดของส่วนแยก, ค่าใช้จ่าย, และความสามารถในการปรับขนาดเซอร์เวอร์ GPU พร้อมอุปกรณ์ปรับ NDR ConnectX-7 เชื่อมต่อกับสวิตช์ใบในชั้นสันหลังMQM9790-NS2F สวิตช์ InfiniBandหน่วยให้การเชื่อมต่อที่ไม่ปิดระหว่างใบ. การออกแบบนี้ทําให้ความกว้างแบนด์เบดสก์ชั่นเต็ม: สวิทช์ใบใด ๆ สามารถสื่อสารกับใบอื่นใด ๆ ในความเร็วสาย. สําหรับกลุ่มขนาดใหญ่,สามารถใช้ทอปโลยีสามชั้น (ใบ-กระดูกสันหลัง-กระดูกสันหลัง), รองรับถึงสิบพัน GPU node

  • เครื่องสลับใบ:โมเดล OSFP 64-port แต่ละตัวเชื่อมต่อกับ 32 เซอร์เวอร์ (dual-port) บวกกับการเชื่อมต่อขึ้นไปยัง spines
  • ชั้นกระดูกสันหลัง MQM9790-NS2F 400Gb/s NDR OSFP 64-portสวิตช์ โดยที่ทุกพอร์ตทําหน้าที่เป็นอัพลิงก์จากใบใบหนึ่ง การออกแบบที่ไม่กักขัดอย่างเต็มที่ต้องการพอร์ตกระดูกสันหลังเท่ากับจํานวนสวิตช์ใบใบ
  • การบริหารย่อยเครือข่าย:ผู้จัดการซับเน็ตที่มอบหมายหรือเหลือใช้จัดการคํานวณเส้นทาง, การนําทางแบบปรับปรุง และการเปลี่ยนความผิดพลาด

3. บทบาทและลักษณะสําคัญของ NVIDIA Mellanox MQM9790-NS2F ในคําตอบ

ในฐานะที่กระดูกสันหลังหลักและอุปกรณ์ใบ optional,MQM9790-NS2Fให้ความสามารถสําคัญหลายอย่าง:

  • ความสามารถในการทํางาน NDR ความเร็วสาย 400Gb/s:แต่ละท่าทาง 64 OSFP ทํางานที่เต็ม duplex 400Gb / s, ให้ความสามารถการสลับรวมของ 51.2Tb / s.
  • ความช้าต่ําสุดและการตั้งทางปรับเปลี่ยนการสลับตัดผ่านทําให้ความช้าของท่าเรือต่อท่าเรือต่ํากว่า 130 ns การตั้งเส้นทางแบบปรับปรุงให้มีความสมดุลระหว่างการจราจรผ่านเส้นทางหลายเส้นทาง โดยหลีกเลี่ยงจุดร้อน
  • คอมพิวเตอร์ในเครือข่าย (SHARPv3)รองรับการรวมและการลดระดับระดับระดับที่สามารถปรับขนาดได้ โดยลดภาระการปฏิบัติงานรวมจาก CPU / GPU และลดการเคลื่อนไหวของข้อมูลถึง 10 เท่า
  • การออกแบบพื้นเมือง RDMA:RDMA ที่เร่งด้วยฮาร์ดแวร์ ทําให้สามารถเข้าถึงความจํา GPU ได้โดยตรง โดยกําจัดการมีส่วนร่วมของ CPU และลดค่าใช้จ่ายในการสื่อสารลงอย่างมาก
  • เทเลเมทรีที่ครบถ้วนและ QoS:การควบคุมความหนาแน่น, การติดตามพัฟเฟอร์, และการจัดหมวดระดับการไหลประกันผลงานที่กําหนดได้สําหรับภาระงานผสมผสาน

ตามใบข้อมูล MQM9790-NS2F, เครื่องสวิทช์ยังรองรับเครื่องพลังงานและแฟนที่สามารถเปลี่ยนกันได้ด้วยความร้อน, การจัดการพอร์ตที่เหลือใช้, และชุดการวินิจฉัยที่ครบถ้วน, ทําให้มันเหมาะสําหรับ 7 × 24 สภาพแวดล้อมการผลิต.

4. แนะนําการจัดจําหน่ายและการปรับขนาด (มีทอปโลยีทั่วไป)

คลัสเตอร์แบบ 2,048-GPU สามารถสร้างขึ้นโดยใช้สวิตช์ใบ 64 และสวิตช์กระดูกสันหลัง 32 ใบ แต่ละใบเชื่อมต่อกับเซอร์เวอร์ GPU 32 รายการ (สองพอร์ต) และให้การเชื่อมต่อ 32 รายการกับกระดูกสันหลังรองรับ MQM9790-NS2Fหน่วยที่ใช้ NDR optics หรือ DAC cables สําหรับการขยายไปถึง 8,192 GPU มีการเพิ่ม layer super-spine ที่เชื่อมต่อกันหลาย pods

เมื่อ ขยาย ขนาด หมาย ถึง ขนาด หมาย ถึง ขนาด หมาย ถึง

  • เครื่องเชื่อมไฟฟ้าและแสง:ใช้ OSFP-to-OSFP DACs สําหรับการเชื่อมต่อภายในราคที่สั้น และ OSFP-to-4xOSFP สายพานพังหรือโมดูลออปติกสําหรับระยะทางที่ไกลรายละเอียด MQM9790-NS2Fในส่วนของวงจรและงบประมาณพลังงาน
  • ขนาดของซับเน็ต:ผู้จัดการซับเน็ตตัวเดียวสามารถจัดการได้ถึง 2,000 หน่วย; นอกเหนือจากนั้น, ใช้ซับเน็ตหลายหน่วยหรือใช้การออกแบบผู้จัดการซับเน็ตที่กระจาย
  • การลาออก:เซอร์เวอร์สองบ้านและสวิตช์กระดูกสันหลังที่เหลือใช้กําจัดจุดเดียวของความล้มเหลวMQM9790-NS2F โซลูชั่นสวิทช์ InfiniBandรองรับ failover ที่ไม่มีการตีด้วยการตั้งค่า SM ที่เหมาะสม

5การดําเนินงาน ติดตาม ตรวจสอบปัญหา และปรับปรุง

การดําเนินงานที่มีประสิทธิภาพต้องการความเห็นและอัตโนมัติ การปฏิบัติต่อไปนี้แนะนํา

  • การติดตาม:ใช้ NVIDIA's Fabric Manager และ telemetry APIs เพื่อติดตามความผิดพลาดในพอร์ต, อุณหภูมิ, การใช้พลังงาน, และการใช้งานลิงค์
  • การแก้ไขปัญหา:รายการMQM9790-NS2Fจําหน่ายตัวนับต่อท่าเรือ, ไฮสตอแกรมการครอบคลุมพัสดุพัสดุ, และบันทึกความหนาแน่น. ในกรณีการลดลงของผลประกอบการ, ตรวจสอบการปรับเปลี่ยนการตั้งทาง,และตรวจสอบว่าการรวม SHARP ได้เปิดให้บริการสําหรับกลุ่มที่ได้รับการสนับสนุน.
  • การปรับปรุง:ปรับปรุงพารามิเตอร์การตั้งทางที่ปรับตัวขึ้นอยู่กับภาระงาน (ตัวอย่างเช่น ความยืดหยุ่นที่มีความรู้สึกกับการผ่านที่มีความรู้สึก) สําหรับรุ่น AI ใหญ่ เอนกประสงค์การควบคุมความจางและกําหนดขั้นต่ําของพัฟเฟอร์เพื่อป้องกัน PFC deadlocksตรวจสอบเป็นประจําราคา MQM9790-NS2Fvs การสอดคล้องผลการทํางานเมื่อวางแผนการเพิ่มกําลังงาน

สําหรับองค์กรที่ประเมินMQM9790-NS2F สําหรับขาย, ให้แน่ใจว่าซอฟต์แวร์สเต็กของคุณ (เช่น NCCL, OpenMPI) รองรับฟังก์ชัน NDR เช่น SHARPv3 และการลดที่ใช้ฮาร์ดแวร์

6. สรุปและการประเมินค่า

รายการMQM9790-NS2F โซลูชั่นสวิทช์ InfiniBandส่งแนวทางที่ชัดเจนในการสร้างผ้าที่มีความอ่อนแอต่ําและความกว้างแบนด์เวทสูง สําหรับคลาสเตอร์ RDMA / HPC / AI ที่ต้องการ ความหนาแน่น 64 ท่าทาง 400Gb / s การสวิตชิ่งใต้ไมโครเซกอนด์และสมรรถนะคอมพิวเตอร์ในเครือข่ายตอบสนองตรงกับความท้าทายในการปรับขนาดและการทํางานของภาระงานที่ทันสมัยโดยการรับใช้สถาปัตยกรรมที่ระบุไว้ข้างต้น ภูมิทัศน์ Fat-Tree, เครื่องสวิทช์เนอร์ NDR และการทํางานแบบ RDMA องค์กรสามารถบรรลุการปรับขนาด GPU แบบเส้นตรง ลดเวลาในการเสร็จสิ้นงานได้มากกว่า 30%,และทําให้การจัดการผ้าง่ายขึ้น สําหรับการวางแผนรายละเอียด ดูทางการใบข้อมูล MQM9790-NS2Fและคู่มือความสอดคล้อง เพื่อหารือการออกแบบที่กําหนดเองราคา MQM9790-NS2Fและความพร้อม, กรุณาติดต่อกับพันธมิตร NVIDIA ที่ได้รับอนุญาต.