NVIDIA Mellanox MCX653106A-HDAT การแก้ไขทางเทคนิค: การขนส่งและเซอร์เวอร์ความช้าต่ําแบบ RDMA/RoCE

June 16, 2026

NVIDIA Mellanox MCX653106A-HDAT การแก้ไขทางเทคนิค: การขนส่งและเซอร์เวอร์ความช้าต่ําแบบ RDMA/RoCE

หนังสือขาวทางเทคนิคนี้ถูกออกแบบให้กับสถาปนิกเครือข่าย วิศวกรก่อนการขาย และผู้จัดการปฏิบัติการNVIDIA Mellanox MCX653106A-HDATแอดปาเตอร์เซอร์เวอร์และอธิบายวิธีการสร้างระบบอินทรีย์เครือข่ายศูนย์ข้อมูลที่สามารถขนส่ง RDMA / RoCE ในขนาดไมโครวินาทีและผลงานผ่านความเร็วสูงสุด

1. สถานการณ์และการวิเคราะห์ความต้องการ

ศูนย์ข้อมูลที่ทันสมัยต้องเผชิญกับปัญหาหลัก 3 ประการ คือ ความช้าที่ไม่คาดเดาได้ในระบบเก็บข้อมูลที่กระจายและการบริโภค CPU มากเกินไปโดยสตั๊กโปรโตคอลเครือข่ายแบบดั้งเดิม. การแก้ไข TCP/IP ปรกติไม่สามารถตอบสนองความต้องการความช้าในขนาดไมโครวินาทีของ NVMe-oF การค้าความถี่สูงและการวิเคราะห์ในเวลาจริงMCX653106A-HDAT Ethernet adapter การ์ดแก้ไขที่ให้บริการการขนส่ง RDMA ที่ถูกชําระจากฮาร์ดแวร์ ผ่านพื้นฐาน Ethernet มาตรฐาน ขณะที่ปรับขนาดความเร็วของเซอร์เวอร์ถึงระดับ 200Gbps

2. การออกแบบระบบระบบ/เครือข่ายทั่วไป

โซลูชั่นนี้ใช้สถาปัตยกรรม LEAF-SPINE CLOS สองชั้น ทุกหน่วยคอมพิวเตอร์และสเตอเรชั่นถูกเชื่อมต่อผ่านNVIDIA Mellanox MCX653106A-HDATถึงสวิตช ToR 25G/100G หลักการการออกแบบหลัก ๆ ได้แก่

  • เครือข่ายที่ไม่มีการสูญเสียจากปลายไปปลาย โดยเปิดระบบ PFC (Priority Flow Control) และ ECN (Explicit Congestion Notification)
  • เส้นทางขนส่ง RDMA สําหรับการเก็บและ HPC
  • การแยกระดับควบคุม (มาตรฐาน TCP/IP) และระดับข้อมูล (RoCEv2)
  • การใช้งานอัตโนมัติที่ใช้ด้วยฮาร์ดแวร์ (SR-IOV, VXLAN/NVGRE/Geneva)

จากใบข้อมูล MCX653106A-HDAT, ตัวปรับสัญญาณจะให้ความช้าในระยะ Port-to-Port ต่ํากว่า 600 ns และรองรับถึง 215 ล้านแพ็คเก็ตต่อวินาที ทําให้มันเหมาะสมสําหรับการจราจรที่จอดข้อมูลตะวันออก-ตะวันตกและการไหลเวียนแอปพลิเคชั่นเหนือ-ใต้

3. บทบาทและคุณสมบัติสําคัญของ NVIDIA Mellanox MCX653106A-HDAT ในคําตอบนี้

รายการMCX653106A-HDAT ConnectX แอดป์เตอร์ บัตรเครือข่าย PCIeใช้เป็นเครื่องยนต์เครื่องบินข้อมูลพื้นฐาน

  • RDMA/RoCE เร่ง:การลดภาระฮาร์ดแวร์ของ RoCEv2 อย่างเต็มที่ รวมถึงการจัดการความหนาแน่น การจัดการแพ็คเก็ตที่ผิดลําดับ และการวางข้อมูลในทันทีในพัฟเฟอร์แอปพลิเคชั่น
  • ระเบียบการเก็บข้อมูล การอํานวยการ:การสนับสนุนพื้นบ้านสําหรับ NVMe-oF (ทั้ง TCP และ RoCE) iSER และ SRP โดยกําจัดการประมวลผลเป้าหมายที่ใช้โปรแกรม
  • การเวอร์ชูเอเลชั่นและการจ้างหลายครั้ง:สูงสุด 1,000 ปฏิบัติการเสมือน (VFs) ต่อพอร์ต โดยมีอุโมงค์ที่ผันผวนกัน เพื่อให้การปิด/ปิดระบบในระดับความเร็วของสาย
  • ความปลอดภัยและเทเลเมตรการเข้ารหัส IPsec/TLS ในสายที่ 200Gbps บวกกับการติดตามกระแสที่ใช้ฮาร์ดแวร์ (เช่น การติดตามการเชื่อมต่อ, ฮิสโตแกรม)

ตามรายละเอียด MCX653106A-HDAT, ตัวปรับรองรองรองรับ PCIe 4.0/5.0 x16 อินเตอร์เฟซ, รับรองว่าไม่มี host-side bottleneck แม้จะเต็ม 200GbE ความเร็วสาย.

4. แนะนําการจัดจําหน่ายและการปรับขนาด (มีทอปโลยีทั่วไป)

โทปอลิเจียอ้างอิงที่ได้รับการรับรองประกอบด้วย:

  • ชั้นคํานวณ:48 เซอร์เวอร์โซเคทสองตัว แต่ละตัวพร้อมกับโซเคทหนึ่งตัวMCX653106A-HDAT(การตั้งค่า 100GbE ที่มีสองท่า) ท่าเรือถูกเชื่อมต่อเป็น LAG ที่ทํางาน-ทํางาน
  • ชั้นเก็บข้อมูล:12 เซอร์เวอร์เป้าหมาย NVMe-oF ที่ใช้ไฟฟ้ากระจกทั้งหมด แต่ละตัวมี 2 ตัวการ์ด MCX653106A-HDAT Ethernetหน่วยหนึ่งสําหรับการเข้าถึงคอมพิวเตอร์ด้านหน้า และอีกหน่วยหนึ่งสําหรับการจําลองด้านหลัง
  • ชั้นเครือข่าย:สวิทช์ Spine จํานวน 4 เครื่อง 100GbE และสวิทช์ Leaf จํานวน 8 เครื่อง ซึ่งมีการตั้งค่าด้วย DCBX, PFC (ชั้น 3 สําหรับ RoCE) และขั้นต่ํา ECN

สําหรับการปรับขนาดเกิน 200 หน่วยงาน อาร์คิเทคชันรองรับการออกแบบหลายโพด โดยใช้ EVPN-VXLAN กับการลดฮาร์ดแวร์ (เต็ม)รองรับ MCX653106A-HDATการประเมินความจุMCX653106A-HDAT ราคาราคาต่อพอร์ต 100GbE ที่สามารถใช้ได้ต่ํากว่าวิธีแก้ไข Fibre Channel หรือ InfiniBand ที่เทียบได้ประมาณ 40%

5การดําเนินงาน ติดตาม ตรวจสอบปัญหา และปรับปรุง

การดําเนินงานอย่างมีประสิทธิภาพของ RDMA / RoCE ต้องการเครื่องมือที่เชี่ยวชาญ

มุมมอง กิจกรรมและเครื่องมือที่แนะนํา
เทเลเมตรี่และความเห็น เปิดเครื่องนับฮาร์ดแวร์ผ่านmlx5cmdและผู้ส่งออก Prometheus; ติดตาม PFC หยุด, แพ็คเก็ตที่มีเครื่องหมาย ECN, และ RoCE การส่งต่อ.
การตรวจสอบความจุกจูง การใช้ethtool -Sสําหรับสถิติต่อคิว; ใช้ NVIDIA's Docker-based congestion telemetry kit
แฟร์มแวร์และไดรเวอร์ Mgmt รักษารองรับ MCX653106A-HDATฟอร์มแวร์เวอร์ชั่น (≥ 26.35.x) พร้อมกับ DOCA 2.5+ ไดรเวอร์สเต็ก
แนวทางการปรับปรุง กําหนด MTU=9000 สําหรับกรอบใหญ่; ปรับปริมาตรการ roce_rx_qos_policy; เอนกประสิทธิภาพการปรับปรุงการหยุดยั้งแบบไดนามิกสําหรับภาระงานผสม

สําหรับการแก้ไขปัญหา, จับเมทาข้อมูลเฉพาะ RoCEv2 โดยใช้กลากและibv_devinfoปัญหาที่พบบ่อย ๆ ได้แก่ ความสําคัญของ PFC ที่ไม่ถูกการตั้งค่า (ให้ความสอดคล้องกับอุปกรณ์เครือข่ายทั้งหมด) และความเร็วการเชื่อมต่อ PCIe ที่ไม่ตรงกัน (ยืนยันด้วยอิสปิ - วีวี)

6. สรุปและการประเมินค่า

รายการNVIDIA Mellanox MCX653106A-HDATเปิดให้บริการแพลตฟอร์มที่ผ่านการพิสูจน์และพร้อมสําหรับการผลิต เพื่อแปลงเนื้อผ้า Ethernet มาตรฐานเป็นเครือข่ายที่มีประสิทธิภาพสูงและไม่มีการสูญเสีย

  • ความช้า:ความช้าในการอ่าน NVMe-oF ที่กําหนดได้ต่ํากว่า 10μs (P99) ทําให้การวิเคราะห์ในเวลาจริงและการเข้าใกล้ HPC สามารถทําได้
  • การออกกําลัง:อัตราการใกล้สาย 200GbE ด้วยการสูญเสียแพ็คเก็ตศูนย์รายละเอียด MCX653106A-HDAT.
  • ประสิทธิภาพของ CPU:ปลดปล่อยถึง 30% ของ CPU core ที่เคยถูกใช้โดยเครือข่ายและสเต็ปการเก็บข้อมูล
  • TCO:เมื่อเทียบกับระบบเชื่อมต่อส่วนตัวMCX653106A-HDAT สําหรับขายราคารวมกับการสลับ Ethernet มาตรฐาน ลดต้นทุนการดําเนินงานสามปีโดยประมาณ 35-50%

นักสถาปัตยกรรมและผู้นําการดําเนินงานสามารถนําตัวแก้ไขนี้ไปใช้กับ AI Fabrics, Disaggregated Storage และระบบการเงินที่มีความช้าต่ําสุดได้อย่างมั่นใจอ้างถึงเจ้าหน้าที่ใบข้อมูล MCX653106A-HDATและห้องสมุดเอกสาร DOCA ของ NVIDIA