NVIDIA Mellanox MCX4121A-ACAT Server Adapter การแก้ไขทางเทคนิค: การออกแบบ RDMA / RoCE สําหรับความช้าต่ําและสูงสุด

March 9, 2026

1. ภูมิหลังโครงการและการวิเคราะห์ข้อกำหนด

ศูนย์ข้อมูลสมัยใหม่ต้องเผชิญกับแรงกดดันอย่างต่อเนื่องในการรองรับปริมาณงานที่ต้องการมากขึ้นเรื่อยๆ รวมถึงการวิเคราะห์แบบเรียลไทม์ การฝึกอบรมแมชชีนเลิร์นนิงแบบกระจาย และการจัดเก็บข้อมูลแบบซอฟต์แวร์ที่ต้องการประสิทธิภาพสูง สถาปัตยกรรมเครือข่ายแบบดั้งเดิมที่อาศัยสแต็ก TCP/IP เป็นหลัก ทำให้เกิดความล่าช้าและภาระ CPU อย่างมาก เมื่อความเร็วลิงก์เปลี่ยนจาก 10GbE เป็น 25GbE และสูงกว่านั้น แนวทาง "kernel bypass" ไม่ใช่แค่ข้อได้เปรียบ แต่เป็นสิ่งจำเป็น สถาปนิกเครือข่ายและวิศวกรจัดเก็บข้อมูลกำลังมองหาโซลูชันที่สามารถปลดล็อกศักยภาพสูงสุดของสถาปัตยกรรม NVMe-oF และ microservices โดยไม่ต้องยกเครื่องโครงสร้างพื้นฐานทั้งหมด ข้อกำหนดหลักที่ระบุในการปรับใช้ขนาดใหญ่ทั่วไป ได้แก่ ความหน่วงต่ำกว่า 10 ไมโครวินาทีสำหรับการรับส่งข้อมูลจัดเก็บข้อมูล การลดภาระ CPU สำหรับ I/O เครือข่ายลง 40% และผ้าที่รวมเป็นหนึ่งเดียวที่สามารถรองรับทั้งการรับส่งข้อมูล TCP/IP มาตรฐานและการรับส่งข้อมูล RDMA ที่มีความหน่วงต่ำมาก

2. การออกแบบสถาปัตยกรรมเครือข่ายและระบบโดยรวม

สถาปัตยกรรมที่นำเสนอมีศูนย์กลางอยู่ที่ผ้า Ethernet แบบรวมที่สูญเสียไม่ได้ ซึ่งออกแบบมาเพื่อรองรับทั้งการรับส่งข้อมูล LAN มาตรฐานและการรับส่งข้อมูลจัดเก็บข้อมูลบนโครงสร้างพื้นฐานทางกายภาพเดียวกัน การออกแบบใช้ประโยชน์จากโทโพโลยีแบบ leaf-spine พร้อมสวิตช์ที่รองรับ RoCE (RDMA over Converged Ethernet) หลักการออกแบบที่สำคัญ ได้แก่:

ผ้าแบบรวม: เครือข่าย 25GbE เดียวรองรับประเภทการรับส่งข้อมูลทั้งหมด ขจัดความจำเป็นในการแยกเครือข่ายจัดเก็บข้อมูลและเครือข่ายข้อมูล (การรวม LAN/SAN)
พื้นฐาน Ethernet ที่สูญเสียไม่ได้: การใช้งาน Priority Flow Control (PFC, IEEE 802.1Qbb) และ Enhanced Transmission Selection (ETS, IEEE 802.1Qaz) เพื่อสร้างคลาสบริการที่สูญเสียไม่ได้สำหรับการรับส่งข้อมูล RDMA ป้องกันการสูญเสียแพ็กเก็ตซึ่งอาจทำให้เกิดความล่าช้าที่รุนแรง
RDMA แบบ End-to-End: การปรับใช้ RoCEv2 ซึ่งทำงานที่เลเยอร์เครือข่าย ช่วยให้ RDMA สามารถข้ามขอบเขต L3 และปรับขนาดเกินโดเมนการออกอากาศเดียว ซึ่งแตกต่างจาก RoCEv1

ภายในสถาปัตยกรรมนี้ จุดปลายเซิร์ฟเวอร์เป็นส่วนประกอบที่สำคัญที่สุด ที่นี่ NVIDIA Mellanox MCX4121A-ACAT มีบทบาทสำคัญ ทำหน้าที่เป็นอินเทอร์เฟซอัจฉริยะที่ดำเนินการโปรโตคอล RoCE และยกเลิกการทำงานเครือข่ายที่ซับซ้อนออกจาก CPU โฮสต์

3. บทบาทของ NVIDIA Mellanox MCX4121A-ACAT ในโซลูชัน

การ์ดอะแดปเตอร์ Ethernet MCX4121A-ACAT เป็นหัวใจสำคัญของการปรับใช้ฝั่งเซิร์ฟเวอร์ อะแดปเตอร์ MCX4121A-ACAT ConnectX-4 Lx dual-port 25GbE SFP28 ซึ่งใช้ตัวควบคุม ConnectX-4 Lx ให้การเร่งฮาร์ดแวร์ที่จำเป็นเพื่อให้บรรลุเป้าหมายของโครงการ การมีส่วนร่วมเฉพาะของอะแดปเตอร์ในสถาปัตยกรรมมีรายละเอียดดังนี้:

เอนจิ้น RoCE ฮาร์ดแวร์: อะแดปเตอร์ดำเนินการโปรโตคอล RoCEv2 ทั้งหมดในซิลิคอน ซึ่งหมายความว่าการดำเนินการ RDMA รวมถึงการอ่าน/เขียนหน่วยความจำและกริยาการส่ง/รับ จะถูกประมวลผลทั้งหมดบน NIC โดยข้ามเคอร์เนลและกำจัดการสลับบริบท นี่คือกลไกหลักในการบรรลุความหน่วงแอปพลิเคชันต่อแอปพลิเคชันต่ำกว่า 10 ไมโครวินาที
การยกเลิก NVMe-oF: สำหรับการรับส่งข้อมูลจัดเก็บข้อมูล MCX4121A-ACAT รองรับ NVMe over Fabrics (NVMe-oF) ด้วย RDMA โดยจะยกเลิกการประมวลผลคิวคู่ NVMe ทำให้เป้าหมายจัดเก็บข้อมูลหรือตัวริเริ่มสามารถจัดการ IOPS หลายล้านรายการโดยมีการแทรกแซง CPU น้อยที่สุด
การกลั่นกรองขัดจังหวะแบบไดนามิก: อะแดปเตอร์จะกลั่นกรองขัดจังหวะอย่างชาญฉลาด โดยรวมเข้าด้วยกันตามปริมาณการรับส่งข้อมูล สิ่งนี้ช่วยลดภาระ CPU โฮสต์ในระหว่างสถานการณ์ที่มีปริมาณงานสูง ในขณะที่ยังคงรักษาความหน่วงต่ำสำหรับการรับส่งข้อมูลที่ละเอียดอ่อน โดยอนุญาตให้ขัดจังหวะสำหรับคิวเฉพาะข้ามการกลั่นกรอง
การบังคับใช้คุณภาพของบริการ (QoS): รองรับ QoS ตามฮาร์ดแวร์ ช่วยให้นักสถาปนิกสามารถกำหนดคลาสการรับส่งข้อมูลที่แตกต่างกัน (เช่น จัดเก็บข้อมูล การจัดการ การประมวลผล) ให้กับคิวลำดับความสำคัญที่แตกต่างกัน สิ่งนี้ทำให้มั่นใจได้ว่าการรับส่งข้อมูล RDMA จะได้รับแบนด์วิดท์ที่รับประกันและความหน่วงต่ำ แม้ในช่วงที่เครือข่ายแออัด

4. คำแนะนำในการปรับใช้และการปรับขนาด

แนะนำให้ใช้วิธีการปรับใช้เป็นระยะเพื่อลดความเสี่ยง โทโพโลยีและขั้นตอนต่อไปนี้สรุปการใช้งานทั่วไป:

ระยะนำร่อง: ปรับใช้คลัสเตอร์ขนาดเล็กของเซิร์ฟเวอร์จัดเก็บข้อมูลและโหนดประมวลผล โดยแต่ละเครื่องติดตั้ง MCX4121A-ACAT เชื่อมต่อกับสวิตช์ leaf ที่รองรับ RoCE โดยเฉพาะ ตรวจสอบการกำหนดค่า PFC/ETS เพื่อให้แน่ใจว่าผ้าที่สูญเสียไม่ได้สำหรับการรับส่งข้อมูล RoCE
การรวมและการทดสอบ: กำหนดค่า โซลูชันการ์ดอะแดปเตอร์ Ethernet MCX4121A-ACAT ทั้งบนเป้าหมายจัดเก็บข้อมูล (เช่น Ceph, Lustre หรืออาร์เรย์ NVMe-oF ที่เป็นกรรมสิทธิ์) และแอปพลิเคชันไคลเอ็นต์ ใช้ไดรเวอร์และเครื่องมือที่แนะนำของ NVIDIA เช่น perftest เพื่อวัดความหน่วงพื้นฐาน (ib_send_lat) และแบนด์วิดท์ (ib_send_bw)
การปรับขนาดผ้า: เมื่อระยะนำร่องมีความเสถียร ให้ปรับขนาดเป็นโทโพโลยี leaf-spine เต็มรูปแบบ ตรวจสอบให้แน่ใจว่าสวิตช์ spine รองรับ RoCE เพื่อรักษาเครื่องหมาย QoS ที่สูญเสียไม่ได้ทั่วทั้งเครือข่าย การมีพอร์ตคู่ของ NVIDIA Mellanox MCX4121A-ACAT ช่วยให้สามารถรวมลิงก์แบบ active/standby หรือ 802.3ad เพื่อความซ้ำซ้อนและเพิ่มปริมาณงาน
การตรวจสอบความเข้ากันได้: ตรวจสอบเวอร์ชันฮาร์ดแวร์และเฟิร์มแวร์ที่ เข้ากันได้กับ MCX4121A-ACAT เสมอ ควรตรวจสอบ ข้อมูลจำเพาะของ MCX4121A-ACAT และ เอกสารข้อมูล MCX4121A-ACAT เพื่อให้แน่ใจว่าเข้ากันได้กับเมนบอร์ดเซิร์ฟเวอร์ การตั้งค่า BIOS และเฟิร์มแวร์สวิตช์ สำหรับการวางแผนการจัดซื้อ ราคา MCX4121A-ACAT และความพร้อมใช้งานสามารถหาได้จากผู้จัดจำหน่ายที่ได้รับอนุญาต โดยเฉพาะอย่างยิ่งเมื่อวางแผนการซื้อ MCX4121A-ACAT สำหรับขาย ในปริมาณมาก

5. การตรวจสอบการดำเนินงาน การแก้ไขปัญหา และการปรับปรุงประสิทธิภาพ

การรักษาประสิทธิภาพสูงสุดต้องอาศัยการตรวจสอบเชิงรุกและความเข้าใจที่มั่นคงเกี่ยวกับพฤติกรรมของผ้า RoCE คำแนะนำหลักสำหรับทีมปฏิบัติการ ได้แก่:

การตรวจสอบการรับส่งข้อมูล RDMA: ใช้เครื่องมือเช่น ethtool, mlxstat และ UFM (Unified Fabric Manager) ของ NVIDIA เพื่อตรวจสอบอุณหภูมิอะแดปเตอร์ ข้อผิดพลาดของลิงก์ และสถานะคู่คิว RDMA ตัวชี้วัดที่สำคัญ ได้แก่: การสูญเสียแพ็กเก็ต RoCE จำนวนเฟรมหยุดพัก PFC และการใช้งานแบนด์วิดท์ PCIe
การแยกข้อผิดพลาด: ความหน่วงสูงในการรับส่งข้อมูล RDMA เกือบทั้งหมดเกิดจากการสูญเสียแพ็กเก็ตเนื่องจากการแออัด ตรวจสอบเฟรมหยุดพัก PFC หากคิวเฉพาะถูกหยุดพักมากเกินไป แสดงว่ามีคอขวดที่ปลายทาง (เช่น ที่พอร์ต egress ของสวิตช์) ตัวนับขั้นสูงของ MCX4121A-ACAT สามารถช่วยระบุแหล่งที่มาของการแออัดได้อย่างแม่นยำ
การปรับแต่งประสิทธิภาพ:
- ขนาด MTU: เพิ่มเป็น 9000 ไบต์ (เฟรมจัมโบ้) ทั้งบนอะแดปเตอร์และสวิตช์ เพื่อลดภาระต่อแพ็กเก็ตและปรับปรุงประสิทธิภาพ I/O ขนาดใหญ่
- การปรับขนาดฝั่งรับ (RSS): ตรวจสอบให้แน่ใจว่า RSS ถูกกำหนดค่าเพื่อกระจายการรับส่งข้อมูลไปยังคอร์ CPU หลายคอร์ ช่วยให้อะแดปเตอร์สามารถจัดการอัตราแพ็กเก็ตต่อวินาที (PPS) สูงได้
- การปรับบัฟเฟอร์: ปรับบัฟเฟอร์รับและส่งของอะแดปเตอร์ตามลักษณะปริมาณงาน (เช่น บัฟเฟอร์ขนาดใหญ่สำหรับการจัดเก็บข้อมูล ขนาดเล็กสำหรับ HPC)

6. บทสรุปและการประเมินมูลค่า

MCX4121A-ACAT จาก NVIDIA Mellanox ให้พื้นฐานที่สมบูรณ์และมีประสิทธิภาพสูงสำหรับการสร้างศูนย์ข้อมูลยุคถัดไป ด้วยการรวมอะแดปเตอร์นี้เข้ากับผ้า RoCEv2 ที่ออกแบบมาอย่างดี องค์กรต่างๆ สามารถบรรลุผลลัพธ์ที่เปลี่ยนแปลงได้: ปริมาณงานเซิร์ฟเวอร์สามารถเพิ่มสูงสุดได้เนื่องจาก CPU เป็นอิสระจากภาระเครือข่าย ความหน่วงจะลดลงอย่างมากจนถึงระดับไมโครวินาที ทำให้แอปพลิเคชันแบบเรียลไทม์ทำงานได้ และต้นทุนรวมในการเป็นเจ้าของจะลดลงผ่านการรวมโครงสร้างพื้นฐาน สำหรับนักสถาปนิกที่วางแผนแผนงาน 25GbE ของตน MCX4121A-ACAT แสดงถึงการลงทุนเชิงกลยุทธ์ในด้านประสิทธิภาพและประสิทธิภาพ ซึ่งได้รับการสนับสนุนจากระบบนิเวศ NVIDIA Mellanox ที่แข็งแกร่ง