Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 เอกสารทางเทคนิค: การปรับแต่งการเชื่อมต่อความหน่วงต่ำ

April 14, 2026

Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 เอกสารทางเทคนิค: การปรับแต่งการเชื่อมต่อความหน่วงต่ำ

หนังสือขาวทางเทคนิคนี้พูดกับสถาปนิกเครือข่าย, วิศวกรก่อนการขาย, และผู้จัดการการดําเนินงานMellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0สวิตช์ InfiniBand เราศึกษาว่าแพลตฟอร์มนี้สามารถทําให้มีความช้าช้าที่ต่ํามากสําหรับภาระงาน RDMA ในสภาพแวดล้อมคลาสเตอร์ HPC และ AI ได้อย่างไร

1. สถานการณ์โครงการและการวิเคราะห์ความต้องการ

กรอบการฝึกอบรม AI ที่ทันสมัย (PyTorch DDP, DeepSpeed, Megatron) และรหัสการจําลอง HPC (CFD, การจําลองสภาพอากาศ, ดินามิกส์โมเลกุล) มิตรฐานอย่างมากกับประถมการสื่อสารร่วมกันผ้า Ethernet แบบดั้งเดิมนําปัญหาพื้นฐานสามอย่าง: การสูญเสียแพ็คเก็ตเนื่องจากความอับอัดในระบบ, ความช้าระยะที่แตกต่างจากการสลับเก็บและส่งต่อ, และค่าใช้จ่ายสูงของ CPU จากการประมวลผล TCP/IPปัญหาเหล่านี้ทําให้ GPU เวลาว่าง 30~50% ในการฝึกกระจายขนาดใหญ่, ส่งผลโดยตรงไปยังเวลาต่อเนื่องในการแก้ไขและการเพิ่มต้นทุนการดําเนินงาน

รายการ920-9B110-00FH-0D0ตอบโจทย์กับปัญหาเหล่านี้ผ่านเทคโนโลยี InfiniBand ที่เป็นพื้นเมือง โดยนําเสนอ RDMA ที่ขึ้นอยู่กับฮาร์ดแวร์, การสลับตัดผ่าน, และการควบคุมกระแสที่ขึ้นอยู่กับเครดิตกรณีการใช้เป้าหมายประกอบด้วยห้องปฏิบัติการวิจัย AI ที่จัดการ 64,024 คลัสเตอร์ GPU ศูนย์ HPC ที่ต้องการความช้า MPI ต่ํากว่าไมโครเซกอนด์ และผู้ให้บริการคลาวด์ที่สร้างครอบครัวตัวอย่าง AI เคล็ดโลหะเปล่า

2การออกแบบโครงสร้างเครือข่ายโดยรวม

สถาปัตยกรรมที่แนะนําของเราใช้โตโปโลยี fat-tree สองชั้น (folded Clos) ซึ่งสมดุลความกว้างแบนด์เบดส่วนสอง, ค่าใช้จ่าย, และความสามารถปรับขนาดมีเครื่องปรับปรุง HDR ConnectX-6 แบบสองประตู.

ระดับ เครื่อง การตั้งค่าท่าเรือ จํานวน (512 หน่วย)
ใบไม้ 920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDR 40x HDR ลดลง + 8x HDR ขึ้น 16 หน่วย
กระดูกสันหลัง NVIDIA Mellanox 920-9B110-00FH-0D0 40x HDR (ต่ําเท่านั้น) 8 หน่วย

การปรับปรุงนี้ให้ความกว้างแดน bisection เต็มของ 200Gb / s ต่อโน้ด, การทํางานที่ไม่ปิดสําหรับรูปแบบการสื่อสารทั้งหมด, และความช้าที่ต่ําสุด 130ns ต่อกระโดด (ตัดผ่าน).920-9B110-00FH-0D0 InfiniBand สวิตช์ OPN โซลชั่นรองรับทั้ง SKU มาตรฐานและมาตรฐาน, ยอมให้การปรับปรุง port breakout แบบยืดหยุ่น (ตัวอย่างเช่น, 4x 50Gb/s ต่อ port HDR)

3. บทบาทและลักษณะสําคัญของ 920-9B110-00FH-0D0

ในโครงสร้างที่เสนอNVIDIA Mellanox 920-9B110-00FH-0D0ใช้เป็นองค์ประกอบผ้าที่รวมกันทั้งชั้นใบและชั้นกระดูกสันหลัง

  • RDMA ที่ใช้ฮาร์ดแวร์:ละเว้นเนอร์เนลและซีพียูโดยสิ้นเชิง ทําให้การโอนความจําไปยังความทรงจําได้ในอัตราการบรรทัดสายด้วยความช้า < 1μs
  • การปรับเปลี่ยนเส้นทาง (AR):เปลี่ยนเส้นทางแพ็คเก็ตโดยไดนามิค โดยใช้สับสนในท่าเรือในเวลาจริง โดยกระจายการจราจรไปตามเส้นทางที่มีให้บริการทั้งหมด โดยไม่ต้องสั่งการแพ็คเก็ตใหม่
  • การควบคุมการจราจร:การแจ้งและกลไกกั้นระดับฮาร์ดแวร์ป้องกันการกั้นหัวของสายใบข้อมูล 920-9B110-00FH-0D0.
  • เทเลเมทรีที่คมชัดมอนิเตอร์ฮาร์ดแวร์ที่บูรณาการให้บริการในการครอบคลุมพัฟเฟอร์, ความช้า และเครื่องนับความผิดพลาดสําหรับการบริหารแบบโปรแอคทีฟ

นักวิศวกรที่ประเมินการจัดซื้อจัดจ้าง ควรตรวจสอบรายละเอียด 920-9B110-00FH-0D0, ซึ่งยืนยันการสนับสนุนถึง 40 ท่าทาง HDR (แต่ละ 200Gb / s) ในรูปแบบ 1U920-9B110-00FH-0D0 รองรับระบบนิเวศรวมทุกโมดูลทางออนไลน์ HDR มาตรฐาน (QSFP56) และสายทองแดงแบบปาซีฟ์สูงถึง 5 เมตร

4. แนะนําการใช้งานและการปรับขนาด

สําหรับการนําเสนอครั้งแรก เราแนะนําวิธีการระยะ:

  • ขั้นตอนที่ 1 (ทดลอง) 32 หน่วยใช้สวิทช์ใบ 1 ใบ (920-9B110-00FH-0D0) ในระบบสวิทช์เดียว ยืนยันผลการทํางาน RDMA โดยใช้ ib_write_bw และ MPI benchmarks920-9B110-00FH-0D0 สําหรับขายสถานะการดําเนินงาน เพื่อให้เวลาดําเนินงานตรงกับขั้นตอนสําคัญของโครงการ
  • ขั้นตอนที่ 2 (การผลิต 128 หน่วย):ปรับปรุงฟาต-ทรีเต็มด้วยสวิทช์ใบ 4 ใบ + 2 กระดูกสันหลัง ทําให้มีการปรับเปลี่ยนเส้นทางและการควบคุมความจุกจิก
  • ขั้นตอนที่ 3 (การขยายขนาด 512+ หน่วย):ขยายเป็น 16 ใบ + 8 สวิตช์กระดูกสันหลัง พิจารณาปรับปรุงเป็นสถาปัตยกรรมหลายผ้า (เครือข่ายคอมพิวเตอร์ / การเก็บข้อมูลแยกแยก)920-9B110-00FH-0D0 ราคาต่อท่าเทียบกับการเพิ่มสวิตช์มากกว่ากับรุ่นราดิกซ์สูงกว่า

เมื่อคํานวณค่าบริการรวม920-9B110-00FH-0D0กําจัดความจําเป็นในการสวิตช์ TOR ที่แยกแยก ความซับซ้อนของการตั้งค่า ECN (ไม่เหมือนกับ RoCE) และใบอนุญาตการจัดการความจุกจุกเป็นเจ้าของทั้งหมดรวมอยู่ใน InfiniBand

5การดําเนินงาน ติดตาม ตรวจสอบปัญหา และปรับปรุง

การจัดการการผลิตNVIDIA Mellanox 920-9B110-00FH-0D0fabrics ใช้สองเครื่องมือหลัก คือ OpenSM (Subnet Manager) สําหรับการนําเสนอผ้าพื้นฐาน และ NVIDIA UFM (Unified Fabric Manager) สําหรับเทเลเมตรและอัตโนมัติขนาดองค์กร

  • การตรวจสุขภาพประจําวันใช้ `ibnetdiscover` เพื่อตรวจสอบทอปโลจีของผ้า, `ibstat` เพื่อติดตามสถานะของพอร์ต, และ `perfquery` เพื่อติดตามตัวนับความผิดพลาด.
  • การปรับประสิทธิภาพกําหนดการเดินเส้นทางแบบปรับปรุงเป็น "สแตตติก" สําหรับความช้าที่กําหนดได้ หรือ "ไดนามิค" สําหรับความเร็วสูงสุด ปรับการ mapping SL2VL เพื่อให้ความสําคัญกับการควบคุมและการจราจรข้อมูล
  • การแก้ไขปัญหาทั่วไป:ความผิดพลาด CRC สายเชื่อมโดยทั่วไปแสดงให้เห็นปัญหาความสมบูรณ์แบบของเคเบิล / สัญญาณใบข้อมูล 920-9B110-00FH-0D0สําหรับ SKU สายเคเบิลที่มีค่าใช้จ่าย. ช่วงเวลาของผู้จัดการโซนย่อยมักต้องปรับ `max_hop_count` สําหรับผ้าขนาดใหญ่
  • การวางแผนความสามารถ:การนําผลการวิเคราะห์การคาดการณ์ของ UFM มาคาดการณ์การใช้งานท่าเรือและระบุจุดร้อนก่อนที่มันจะส่งผลกระทบต่องาน920-9B110-00FH-0D0 InfiniBand สวิตช์ OPNทําให้ออฟติกที่สามารถปรับปรุงสนามได้ สามารถปรับตัวต่อความต้องการความกว้างแบนด์เวทที่เปลี่ยนแปลงได้

สําหรับองค์กรที่ประเมินผู้จําหน่ายหลายรายการ การเปรียบเทียบ920-9B110-00FH-0D0 ราคาเมื่อเทียบกับสวิตช์ HDR แลกเปลี่ยนควรมีปัจจัยในการดําเนินงานที่ง่าย หน่วยงานเดียวของ InfiniBand ที่บูรณาการแน่นลักษณะจะลดเวลาแก้ไขความผิดพลาดระหว่างทีมโดยประมาณ 40%

6. สรุปและการประเมินค่า

รายการMellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0สร้างรากฐานพร้อมการผลิตสําหรับ RDMA / HPC / AI คลัสเตอร์ที่ต้องการการเชื่อมต่อกันแบบช้าต่ําที่กําหนด

  • ประสิทธิภาพ:ถึง 200Gb / s ต่อพอร์ตด้วยความช้าในการสลับที่ต่ํากว่า 130ns ทําให้ GPU แบบเส้นตรงสามารถปรับขนาดได้ถึงพัน ๆ ค้อนของหน่วย
  • ประสิทธิภาพการดําเนินงานการลดภาระของฮาร์ดแวร์พื้นเมืองกําจัดการแทรกแซงของ CPU สําหรับ I / O ของเครือข่าย, ปลดปล่อยคอร์สําหรับการคํานวณ.
  • ป้องกันอนาคตความสอดคล้องกลับกับ EDR (100Gb/s) และความสอดคล้องไปข้างหน้ากับ NDR (400Gb/s) ผ่านการแปลงความเร็วพอร์ต
  • ราคาครบวงจรของเจ้าของเมื่อคํานวณ920-9B110-00FH-0D0 ราคาเมื่อเทียบกับทางเลือก Ethernet, รวมถึงการประหยัดจากการลดเวลาว่างของ GPU (15~25% การฟื้นฟูทั่วไป) และกําจัดใบอนุญาตการควบคุมความจุกจุก.

สถาปนิกถูกส่งเสริมให้ดาวน์โหลดใบข้อมูล 920-9B110-00FH-0D0และอ้างถึงเจ้าหน้าที่รายละเอียด 920-9B110-00FH-0D0สําหรับเมทริกส์สายเคเบิลและการกําหนดงบประมาณพลังงาน สําหรับการนําไปใช้ในการผลิต920-9B110-00FH-0D0 สําหรับขายและขอห้องปฏิบัติการรับรองเพื่อการทดสอบทอปโลจีตามสั่ง