NVIDIA Mellanox MCX653106A-HDAT Server Adapter ในการทำงาน: การขนส่ง RDMA/RoCE ที่มีความหน่วงต่ำ & เซิร์ฟเวอร์

April 30, 2026

ข่าว บริษัท ล่าสุดเกี่ยวกับ NVIDIA Mellanox MCX653106A-HDAT Server Adapter ในการทำงาน: การขนส่ง RDMA/RoCE ที่มีความหน่วงต่ำ & เซิร์ฟเวอร์

ในสภาพแวดล้อมของศูนย์ข้อมูลที่ทันสมัย ตั้งแต่การเก็บข้อมูลที่กระจายและการค้าความถี่สูงถึงกลุ่มฝึกอบรม AI ในขนาดใหญ่ หลักฐานโปรโตคอล TCP/IP ที่เป็นประเพณีได้กลายเป็นข้อขัดขวางหลักค่าใช้จ่ายทั่วไปของเครือข่ายเนอร์เนล, การคัดลอกข้อมูล และการเปลี่ยนคอนเทคสต์ ใช้ทรัพยากร CPU อย่างมากในขณะที่นํามาความช้าที่ไม่คาดเดาได้การศึกษากรณีนี้พิจารณาวิธีที่ผู้ให้บริการพื้นฐานกีฬาเมฆชั้นนําสามารถเอาชนะปัญหาเหล่านี้NVIDIA Mellanox MCX653106A-HDATNIC ของเซอร์เวอร์ ทําให้มีการปรับปรุงอย่างดีเยี่ยม ทั้งในเรื่องของความช้าและความเร็ว

สถานการณ์และความท้าทาย: ปัญหา TCP/IP

พื้นฐาน 25GbE ของผู้ให้บริการที่มีอยู่, ใช้ TCP มาตรฐาน, กําลังพยายามที่จะติดตามการจราจร NVMe-oF และภาระงานการวิเคราะห์ในเวลาจริงการใช้งาน CPU ในหน่วยความจดจําบ่อยครั้งเกิน 70% เพียงสําหรับการประมวลผลเครือข่าย, ที่ปล่อยให้มีพื้นที่ไม่เพียงพอสําหรับกลยุทธ์การใช้งาน ความช้าระยะระหว่างจุดคอมพิวเตอร์และจุดเก็บของแปรปรวนระหว่าง 50 ∼ 150 ไมโครวินาทีส่งผลให้ความช้าระยะยาวสูงขึ้น ซึ่งส่งผลกระทบต่อข้อตกลงระดับบริการทีมวิศวกรยอมรับว่ามีการเปลี่ยนแปลงพื้นฐานในสถาปัตยกรรมเครือข่ายที่จําเป็น หนึ่งที่เลี่ยงเนอร์เนลและทําให้การเข้าถึงความจําโดยตรงระหว่างจุดปลาย

การแก้ไข: การใช้ MCX653106A-HDAT กับ RoCE

หลังจากการประเมินตัวเลือกหลายตัว ทีมงานได้เลือกการ์ด MCX653106A-HDAT Ethernetเป็นหินมุมของการปรับปรุงเครือข่ายของพวกเขาMCX653106A-HDAT ConnectX แอดป์เตอร์ บัตรเครือข่าย PCIeส่งการเชื่อมต่อแบบ dual-port 100GbE พร้อมการสนับสนุนฮาร์ดแวร์พื้นบ้านสําหรับ RoCE (RDMA over Converged Ethernet)

  • ขั้นตอนที่ 1:เปลี่ยน NICs ที่เก่าแก่ในหน่วยจอง (หน่วยจอง 10 ที่ใช้ Ceph) เป็นตัวปรับใหม่
  • ขั้นตอนที่ 2:การตั้งค่า Ethernet ที่ขาดทุนโดยใช้ DCB (Priority Flow Control และ ETS) ทั้งใน NIC และสวิตช์บนเรค
  • ขั้นตอนที่ 3:ขนย้ายการจราจรแอพลิเคชันจากซ็อคเกต TCP ไปยังคํากริยาที่ใช้ RDMA และ NVMe-oF ผ่าน RoCE
  • ขั้นตอนที่ 4:ขยายการจัดจําหน่ายไปยังหน่วยคอมพิวเตอร์ ที่จัดการกับการวิเคราะห์ในเวลาจริง

วิศวกรที่ปรึกษาใบข้อมูล MCX653106A-HDATและรายละเอียด MCX653106A-HDATยืนยันความสอดคล้องเต็มที่กับผนังสลับ Mellanox ที่มีอยู่และการจําหน่าย Linux ที่นํามาใช้ (Ubuntu 22.04 กับตัวขับ MLNX_OFED)รองรับ MCX653106A-HDATระบบนิเวศพัฒนาพิสูจน์ว่าครบวงจร ไม่จําเป็นต้องมีการเปลี่ยนแปลงฮาร์ดแวร์นอกจากการเปลี่ยน NIC เอง

ผล & ประโยชน์: การเปลี่ยนแปลงที่สามารถวัดได้

การทดสอบหลังการใช้งานแสดงให้เห็นถึงการปรับปรุงที่สําคัญในเมตรสําคัญทั้งหมด ตารางต่อไปนี้สรุปการเปรียบเทียบก่อนและหลัง:

เมทริก ก่อน (25GbE TCP) หลังจาก (MCX653106A-HDAT RoCE) การปรับปรุง
ความช้าเฉลี่ย (P99) 120 μs 8 μs การลด 93%
ซีพียู Node (เส้นทางเครือข่าย) ~65% ~12% 5การลด 4 เท่า
NVMe-oF การอ่านผ่าน (ต่อหน่วย) 18 Gb/s 96 Gb/s 5.3x เพิ่มขึ้น
อัตราการส่งข้อความ (64B แพ็คเก็ต) 15 Mpps 215 Mpps 14.3x เพิ่มขึ้น

นอกเหนือจากผลประโยชน์ปริมาณเหล่านี้ ทีมงานสังเกตผลประโยชน์ทางคุณภาพหลายอย่างMCX653106A-HDAT Ethernet adapter การ์ดแก้ไขทําให้การเคลื่อนไหวข้อมูลที่ไม่มีสําเนาจริงระหว่างความจําแอพลิเคชั่นและการเก็บข้อมูลที่อยู่ห่างไกล สามารถกําจัดปัญหาความอ่อนแอของพัฟเฟอร์ ซึ่งก่อนหน้านี้ทําให้เกิดความล้มเหลวในช่วงการกระจายข้อมูลสําหรับภาระงานการวิเคราะห์, การย้ายไป RDMA ลดเวลาในการเสร็จสิ้นงานลง 62%, ปรับปรุงผลการดําเนินธุรกิจโดยตรงMCX653106A-HDAT ราคาเมื่อเทียบกับต้นทุนการครอบครองทั้งหมด การลดจํานวนโน้ดในการเก็บข้อมูล 30% (เพราะประสิทธิภาพต่อโน้ดสูงขึ้น) ได้ผลตอบแทนภายใน 9 เดือนMCX653106A-HDAT สําหรับขายผ่านพันธมิตร NVIDIA ยังรวมการเข้าถึงกรอบ DOCA, ปลดล็อคโปรแกรมในอนาคตสําหรับฟังก์ชันเครือข่ายที่กําหนดเอง

สรุปและมุมมอง: รากฐานสําหรับโครงสร้างพื้นฐานรุ่นใหม่

การจัดตั้งNVIDIA Mellanox MCX653106A-HDATเปลี่ยนแปลงโครงสร้างของผู้ให้บริการจากสิ่งแวดล้อมที่จํากัด TCP เป็นผนังที่มีประสิทธิภาพสูงและความช้าต่ํา สามารถรองรับภาระงานที่ทันสมัย,อินเตอร์เฟซ PCIe 4.0 และระบบนิเวศซอฟต์แวร์ที่ครบถ้วนตอบโจทย์ความต้องการสําคัญสามอย่างของศูนย์ข้อมูลในปัจจุบัน: ลดความช้า, เพิ่มความสามารถในการทํางาน และเพิ่มประสิทธิภาพ CPU

สําหรับสถาปนิกที่ประเมินการปรับปรุงที่คล้ายกัน การเดินทางเริ่มต้นด้วยการตรวจสอบรองรับ MCX653106A-HDATองค์ประกอบ รวมถึงสวิทช์, เคเบิล และระบบปฏิบัติการใบข้อมูล MCX653106A-HDATให้ความสามารถ, ความร้อน, และนิติบุตรกลสําหรับการวางแผนการบูรณาการ.การ์ด MCX653106A-HDAT Ethernetเตรียมพร้อมเป็นคําตอบที่ผ่านการพิสูจน์และแข็งแกร่งในการผลิต ผู้ให้บริการกําลังขยายการจัดจําหน่ายเพื่อรวม GPU direct RDMA สําหรับภาระงานการสรุป AIยืนยันอีกต่อไปว่าตัวปรับตัวนี้เป็นหินมุมของสถาปัตยกรรมศูนย์ข้อมูลที่ทันสมัย.