NVIDIA Mellanox MCX653106A-HDAT การแก้ไขทางเทคนิค: การขนส่งและเซอร์เวอร์ความช้าต่ําแบบ RDMA/RoCE
June 16, 2026
หนังสือขาวทางเทคนิคนี้ถูกออกแบบให้กับสถาปนิกเครือข่าย วิศวกรก่อนการขาย และผู้จัดการปฏิบัติการNVIDIA Mellanox MCX653106A-HDATแอดปาเตอร์เซอร์เวอร์และอธิบายวิธีการสร้างระบบอินทรีย์เครือข่ายศูนย์ข้อมูลที่สามารถขนส่ง RDMA / RoCE ในขนาดไมโครวินาทีและผลงานผ่านความเร็วสูงสุด
ศูนย์ข้อมูลที่ทันสมัยต้องเผชิญกับปัญหาหลัก 3 ประการ คือ ความช้าที่ไม่คาดเดาได้ในระบบเก็บข้อมูลที่กระจายและการบริโภค CPU มากเกินไปโดยสตั๊กโปรโตคอลเครือข่ายแบบดั้งเดิม. การแก้ไข TCP/IP ปรกติไม่สามารถตอบสนองความต้องการความช้าในขนาดไมโครวินาทีของ NVMe-oF การค้าความถี่สูงและการวิเคราะห์ในเวลาจริงMCX653106A-HDAT Ethernet adapter การ์ดแก้ไขที่ให้บริการการขนส่ง RDMA ที่ถูกชําระจากฮาร์ดแวร์ ผ่านพื้นฐาน Ethernet มาตรฐาน ขณะที่ปรับขนาดความเร็วของเซอร์เวอร์ถึงระดับ 200Gbps
โซลูชั่นนี้ใช้สถาปัตยกรรม LEAF-SPINE CLOS สองชั้น ทุกหน่วยคอมพิวเตอร์และสเตอเรชั่นถูกเชื่อมต่อผ่านNVIDIA Mellanox MCX653106A-HDATถึงสวิตช ToR 25G/100G หลักการการออกแบบหลัก ๆ ได้แก่
- เครือข่ายที่ไม่มีการสูญเสียจากปลายไปปลาย โดยเปิดระบบ PFC (Priority Flow Control) และ ECN (Explicit Congestion Notification)
- เส้นทางขนส่ง RDMA สําหรับการเก็บและ HPC
- การแยกระดับควบคุม (มาตรฐาน TCP/IP) และระดับข้อมูล (RoCEv2)
- การใช้งานอัตโนมัติที่ใช้ด้วยฮาร์ดแวร์ (SR-IOV, VXLAN/NVGRE/Geneva)
จากใบข้อมูล MCX653106A-HDAT, ตัวปรับสัญญาณจะให้ความช้าในระยะ Port-to-Port ต่ํากว่า 600 ns และรองรับถึง 215 ล้านแพ็คเก็ตต่อวินาที ทําให้มันเหมาะสมสําหรับการจราจรที่จอดข้อมูลตะวันออก-ตะวันตกและการไหลเวียนแอปพลิเคชั่นเหนือ-ใต้
รายการMCX653106A-HDAT ConnectX แอดป์เตอร์ บัตรเครือข่าย PCIeใช้เป็นเครื่องยนต์เครื่องบินข้อมูลพื้นฐาน
- RDMA/RoCE เร่ง:การลดภาระฮาร์ดแวร์ของ RoCEv2 อย่างเต็มที่ รวมถึงการจัดการความหนาแน่น การจัดการแพ็คเก็ตที่ผิดลําดับ และการวางข้อมูลในทันทีในพัฟเฟอร์แอปพลิเคชั่น
- ระเบียบการเก็บข้อมูล การอํานวยการ:การสนับสนุนพื้นบ้านสําหรับ NVMe-oF (ทั้ง TCP และ RoCE) iSER และ SRP โดยกําจัดการประมวลผลเป้าหมายที่ใช้โปรแกรม
- การเวอร์ชูเอเลชั่นและการจ้างหลายครั้ง:สูงสุด 1,000 ปฏิบัติการเสมือน (VFs) ต่อพอร์ต โดยมีอุโมงค์ที่ผันผวนกัน เพื่อให้การปิด/ปิดระบบในระดับความเร็วของสาย
- ความปลอดภัยและเทเลเมตรการเข้ารหัส IPsec/TLS ในสายที่ 200Gbps บวกกับการติดตามกระแสที่ใช้ฮาร์ดแวร์ (เช่น การติดตามการเชื่อมต่อ, ฮิสโตแกรม)
ตามรายละเอียด MCX653106A-HDAT, ตัวปรับรองรองรองรับ PCIe 4.0/5.0 x16 อินเตอร์เฟซ, รับรองว่าไม่มี host-side bottleneck แม้จะเต็ม 200GbE ความเร็วสาย.
โทปอลิเจียอ้างอิงที่ได้รับการรับรองประกอบด้วย:
- ชั้นคํานวณ:48 เซอร์เวอร์โซเคทสองตัว แต่ละตัวพร้อมกับโซเคทหนึ่งตัวMCX653106A-HDAT(การตั้งค่า 100GbE ที่มีสองท่า) ท่าเรือถูกเชื่อมต่อเป็น LAG ที่ทํางาน-ทํางาน
- ชั้นเก็บข้อมูล:12 เซอร์เวอร์เป้าหมาย NVMe-oF ที่ใช้ไฟฟ้ากระจกทั้งหมด แต่ละตัวมี 2 ตัวการ์ด MCX653106A-HDAT Ethernetหน่วยหนึ่งสําหรับการเข้าถึงคอมพิวเตอร์ด้านหน้า และอีกหน่วยหนึ่งสําหรับการจําลองด้านหลัง
- ชั้นเครือข่าย:สวิทช์ Spine จํานวน 4 เครื่อง 100GbE และสวิทช์ Leaf จํานวน 8 เครื่อง ซึ่งมีการตั้งค่าด้วย DCBX, PFC (ชั้น 3 สําหรับ RoCE) และขั้นต่ํา ECN
สําหรับการปรับขนาดเกิน 200 หน่วยงาน อาร์คิเทคชันรองรับการออกแบบหลายโพด โดยใช้ EVPN-VXLAN กับการลดฮาร์ดแวร์ (เต็ม)รองรับ MCX653106A-HDATการประเมินความจุMCX653106A-HDAT ราคาราคาต่อพอร์ต 100GbE ที่สามารถใช้ได้ต่ํากว่าวิธีแก้ไข Fibre Channel หรือ InfiniBand ที่เทียบได้ประมาณ 40%
การดําเนินงานอย่างมีประสิทธิภาพของ RDMA / RoCE ต้องการเครื่องมือที่เชี่ยวชาญ
| มุมมอง | กิจกรรมและเครื่องมือที่แนะนํา |
|---|---|
| เทเลเมตรี่และความเห็น | เปิดเครื่องนับฮาร์ดแวร์ผ่านmlx5cmdและผู้ส่งออก Prometheus; ติดตาม PFC หยุด, แพ็คเก็ตที่มีเครื่องหมาย ECN, และ RoCE การส่งต่อ. |
| การตรวจสอบความจุกจูง | การใช้ethtool -Sสําหรับสถิติต่อคิว; ใช้ NVIDIA's Docker-based congestion telemetry kit |
| แฟร์มแวร์และไดรเวอร์ Mgmt | รักษารองรับ MCX653106A-HDATฟอร์มแวร์เวอร์ชั่น (≥ 26.35.x) พร้อมกับ DOCA 2.5+ ไดรเวอร์สเต็ก |
| แนวทางการปรับปรุง | กําหนด MTU=9000 สําหรับกรอบใหญ่; ปรับปริมาตรการ roce_rx_qos_policy; เอนกประสิทธิภาพการปรับปรุงการหยุดยั้งแบบไดนามิกสําหรับภาระงานผสม |
สําหรับการแก้ไขปัญหา, จับเมทาข้อมูลเฉพาะ RoCEv2 โดยใช้กลากและibv_devinfoปัญหาที่พบบ่อย ๆ ได้แก่ ความสําคัญของ PFC ที่ไม่ถูกการตั้งค่า (ให้ความสอดคล้องกับอุปกรณ์เครือข่ายทั้งหมด) และความเร็วการเชื่อมต่อ PCIe ที่ไม่ตรงกัน (ยืนยันด้วยอิสปิ - วีวี)
รายการNVIDIA Mellanox MCX653106A-HDATเปิดให้บริการแพลตฟอร์มที่ผ่านการพิสูจน์และพร้อมสําหรับการผลิต เพื่อแปลงเนื้อผ้า Ethernet มาตรฐานเป็นเครือข่ายที่มีประสิทธิภาพสูงและไม่มีการสูญเสีย
- ความช้า:ความช้าในการอ่าน NVMe-oF ที่กําหนดได้ต่ํากว่า 10μs (P99) ทําให้การวิเคราะห์ในเวลาจริงและการเข้าใกล้ HPC สามารถทําได้
- การออกกําลัง:อัตราการใกล้สาย 200GbE ด้วยการสูญเสียแพ็คเก็ตศูนย์รายละเอียด MCX653106A-HDAT.
- ประสิทธิภาพของ CPU:ปลดปล่อยถึง 30% ของ CPU core ที่เคยถูกใช้โดยเครือข่ายและสเต็ปการเก็บข้อมูล
- TCO:เมื่อเทียบกับระบบเชื่อมต่อส่วนตัวMCX653106A-HDAT สําหรับขายราคารวมกับการสลับ Ethernet มาตรฐาน ลดต้นทุนการดําเนินงานสามปีโดยประมาณ 35-50%
นักสถาปัตยกรรมและผู้นําการดําเนินงานสามารถนําตัวแก้ไขนี้ไปใช้กับ AI Fabrics, Disaggregated Storage และระบบการเงินที่มีความช้าต่ําสุดได้อย่างมั่นใจอ้างถึงเจ้าหน้าที่ใบข้อมูล MCX653106A-HDATและห้องสมุดเอกสาร DOCA ของ NVIDIA

