NVIDIA Mellanox MCX556A-ECAT ในการทำงาน: RDMA/RoCE เปิดใช้งานความหน่วงแฝงต่ำพิเศษและประสิทธิภาพเซิร์ฟเวอร์ที่ก้าวกระโดด

April 23, 2026

ข่าว บริษัท ล่าสุดเกี่ยวกับ NVIDIA Mellanox MCX556A-ECAT ในการทำงาน: RDMA/RoCE เปิดใช้งานความหน่วงแฝงต่ำพิเศษและประสิทธิภาพเซิร์ฟเวอร์ที่ก้าวกระโดด

ในการจัดเก็บข้อมูลแบบกระจาย การประมวลผลประสิทธิภาพสูง (HPC) และคลัสเตอร์การฝึก AI ความหน่วงของเครือข่ายและภาระงานของ CPU ได้จำกัดประสิทธิภาพโดยรวมของเซิร์ฟเวอร์มานานแล้ว การติดตั้งล่าสุดที่ผู้ให้บริการคลาวด์ขนาดใหญ่แสดงให้เห็นว่า NVIDIA Mellanox MCX556A-ECAT จัดการกับความท้าทายเหล่านี้ผ่านเทคโนโลยี RDMA และ RoCE โดยให้ผลลัพธ์ที่วัดผลได้ทั้งในด้านปริมาณงานและการลดความหน่วง

เบื้องหลังและความท้าทาย

ลูกค้าดำเนินการคลัสเตอร์จัดเก็บข้อมูล Ceph ขนาดหลายเพตะไบต์ที่รองรับเครื่องเสมือนหลายพันเครื่อง ก่อนการอัปเกรด โครงสร้างพื้นฐาน 25GbE ที่ใช้ TCP/IP มาตรฐานประสบปัญหาการใช้งาน CPU สูง (มากกว่า 60% บนโหนดจัดเก็บข้อมูล) และความหน่วงที่ไม่สม่ำเสมอในช่วงที่มีภาระงานสูงสุด หน้าต่างสำรองข้อมูลมักเกินแปดชั่วโมง และงานฝึก AI ประสบปัญหา I/O หยุดชะงัก ทีมงานต้องการโซลูชันที่สามารถลดการแทรกแซงของ CPU ลดความหน่วง และปรับขนาดได้โดยไม่ต้องยกเครื่องโครงสร้างพื้นฐานทั้งหมด หลังจากตรวจสอบ เอกสารข้อมูล MCX556A-ECAT และเปรียบเทียบ ข้อมูลจำเพาะ MCX556A-ECAT พวกเขาเลือก MCX556A-ECAT เป็นส่วนประกอบหลักในการอัปเกรด

โซลูชันและการติดตั้ง

สถาปัตยกรรมมีศูนย์กลางอยู่ที่ การ์ดอะแดปเตอร์อีเธอร์เน็ต MCX556A-ECAT ซึ่งเป็นอะแดปเตอร์แบบพอร์ตคู่ 100GbE ที่รองรับ PCIe 3.0/4.0 x16 ติดตั้งเป็น การ์ดเครือข่าย PCIe อะแดปเตอร์ MCX556A-ECAT ConnectX ทำให้สามารถใช้งาน RoCE v2 ทั่วทั้งโทโพโลยี leaf-spine ที่มีอยู่โดยมีการเปลี่ยนแปลงสวิตช์น้อยที่สุด ขั้นตอนการติดตั้งที่สำคัญรวมถึง:

  • การเปลี่ยนอะแดปเตอร์ 25GbE แบบเดิมด้วย MCX556A-ECAT บนโหนดจัดเก็บข้อมูล 40 โหนด และโหนดประมวลผล 150 โหนด
  • การเปิดใช้งานการประมวลผลแบบ Offload: NVMe over Fabrics (NVMe-oF), GPUDirect RDMA และ T10-DIF เพื่อความสมบูรณ์ของข้อมูล
  • การกำหนดค่า Priority Flow Control (PFC) และ Enhanced Transmission Selection (ETS) สำหรับการขนส่ง RoCE แบบไม่สูญเสียข้อมูล
  • การตรวจสอบสถานะ MCX556A-ECAT เข้ากันได้ กับสวิตช์ Mellanox Spectrum และออปติก QSFP28 ที่มีอยู่

การติดตั้งทั้งหมดใช้เวลาสองสุดสัปดาห์ โดยไม่มีการหยุดทำงานโดยใช้การย้ายระบบแบบสดสำหรับปริมาณงานประมวลผล

ผลลัพธ์และประโยชน์

การวัดผลหลังการติดตั้งแสดงให้เห็นการปรับปรุงที่น่าทึ่งในตัวชี้วัดสำคัญ ตารางต่อไปนี้สรุปการเปรียบเทียบก่อน/หลัง:

ตัวชี้วัด ก่อน (25GbE TCP/IP) หลัง (MCX556A-ECAT พร้อม RoCE) การปรับปรุง
การใช้งาน CPU ของโหนดจัดเก็บข้อมูล 62% 18% ↓ 71%
ความหน่วงเฉลี่ย (การอ่านแบบสุ่ม 4K) 450 µs 42 µs ↓ 90.7%
ปริมาณงานรวมของคลัสเตอร์ 38 Gb/s 172 Gb/s ↑ 353%
ระยะเวลาหน้าต่างสำรองข้อมูล 8.5 ชั่วโมง 1.8 ชั่วโมง ↓ 79%

นอกเหนือจากตัวเลข ทีมวิศวกรรมรายงานว่า RDMA ช่วยลดความผันผวนได้อย่างมาก โดยขจัดปัญหา "ความหน่วงหาง" ที่เคยเกิดขึ้นกับจุดตรวจสอบการฝึก AI ก่อนหน้านี้ ในฐานะ โซลูชันการ์ดอะแดปเตอร์อีเธอร์เน็ต MCX556A-ECAT ที่สมบูรณ์ การ์ดนี้ยังช่วยให้การแก้ไขปัญหาง่ายขึ้นผ่านการวัดทางไกลในตัวและการแจ้งเตือนความแออัด สำหรับองค์กรที่ประเมิน ราคา MCX556A-ECAT เทียบกับผลการปฏิบัติงาน ลูกค้าได้รับ ROI ภายในเก้าเดือนจากการประหยัดคอร์ CPU และการทำงานของงานแบทช์ที่เร็วขึ้น อะแดปเตอร์นี้มี MCX556A-ECAT สำหรับขาย ผ่านพันธมิตรช่องทางต่างๆ ทำให้ประสิทธิภาพระดับนี้สามารถเข้าถึงได้สำหรับองค์กรระดับกลางเช่นกัน

สรุปและแนวโน้ม

การติดตั้งพิสูจน์ว่า MCX556A-ECAT ทำตามคำสัญญา: ความหน่วง RDMA ต่ำกว่าไมโครวินาที การประมวลผล CPU ที่ลดลงอย่างมาก และการปรับขนาดปริมาณงานเป็นเชิงเส้น ไม่ว่าคุณจะใช้งานฐานข้อมูลแบบกระจาย การจำลอง HPC หรือการจัดเก็บข้อมูล NVMe-oF NVIDIA Mellanox MCX556A-ECAT นำเสนอรากฐานที่พร้อมสำหรับอนาคต เมื่อ 100GbE กลายเป็นมาตรฐานใหม่สำหรับสไปน์ของศูนย์ข้อมูล โซลูชันที่สร้างขึ้นรอบๆ อะแดปเตอร์นี้จะยังคงมีประสิทธิภาพเหนือกว่าสแต็ก TCP/IP แบบเดิม สำหรับการวางแผนโดยละเอียด โปรดดู เอกสารข้อมูล MCX556A-ECAT อย่างเป็นทางการ หรือปรึกษาผู้เชี่ยวชาญด้านสถาปัตยกรรมโซลูชันเพื่อตรวจสอบการกำหนดค่า MCX556A-ECAT เข้ากันได้ สำหรับสภาพแวดล้อมเฉพาะของคุณ