NVIDIA Mellanox MCX653105A-HDAT Server Adapter การแก้ไขทางเทคนิค: RDMA / RoCE การขนส่งความช้าต่ําสําหรับเซอร์เวอร์ที่สูงสุด

March 16, 2026

NVIDIA Mellanox MCX653105A-HDAT Server Adapter การแก้ไขทางเทคนิค: RDMA / RoCE การขนส่งความช้าต่ําสําหรับเซอร์เวอร์ที่สูงสุด
1การวิเคราะห์พื้นฐานและความต้องการของโครงการ

ศูนย์ข้อมูลที่ทันสมัยอยู่ในความกดดันที่ไม่เคยมีมาก่อน เพื่อให้ความเข้าใจที่รวดเร็วขึ้น จากข้อมูลจํานวนมาก ไม่ว่าจะเป็นการขับเคลื่อนกลุ่มฝึกอบรม AIหรือแพลตฟอร์มการเทรดความถี่สูง, โครงสร้างพื้นฐานเครือข่ายที่อยู่เบื้องหลังมักกลายเป็นอุปสรรคการทํางานหลักเครือข่ายที่ใช้ TCP/IP แบบดั้งเดิมทําให้มีค่าใช้จ่าย CPU ที่สําคัญ เนื่องจากการประมวลผลเนอร์เนลและการสําเนาข้อมูล, ส่งผลให้มีความยืดหยุ่นที่เพิ่มขึ้นและการลดอัตราการผ่านจริง. เมื่อจํานวน CPU หลักขนาดและ NVMe การจองกลายเป็นทุกที่, เครือข่ายต้องพัฒนาเพื่อรองรับตรง,การเคลื่อนไหวข้อมูลความเร็วสูง โดยไม่กดภาษีต่อผู้ประมวลผลโฮสต์.

ความต้องการชัดเจน: สถาปนิกต้องการคําตอบเครือข่ายที่รองรับ Remote Direct Memory Access (RDMA) เพื่อเลี่ยงเนอร์เนลของระบบปฏิบัติการทําให้การถ่ายทอดข้อมูลโดยตรงระหว่างความจําของเซอร์เวอร์และการเก็บข้อมูล หรือเซอร์เวอร์อื่นๆ. RDMA ผ่าน Ethernet Converged (RoCE) ได้ปรากฏขึ้นเป็นมาตรฐานชั้นนํา, ส่ง InfiniBand-class latency บนพื้นฐาน Ethernet มาตรฐาน迈络思 ((NVIDIA Mellanox) MCX653105A-HDATแอดป์เตอร์เซอร์เวอร์ถูกสร้างมาเพื่อตอบสนองความต้องการเหล่านี้ โดยให้พื้นฐานฮาร์ดแวร์สําหรับการทํางานที่สูงผ้า RoCE ที่ไม่มีการสูญเสีย ที่ทําให้การทํางานของเซอร์เวอร์สูงสุด และลดความช้าของแอปพลิเคชั่นให้น้อยที่สุด.

2การออกแบบระบบและระบบ

การออกแบบที่เสนอเน้นการสร้างเนื้อเยื่อ Ethernet ที่ไม่กักขัด และมีกระดูกสันหลังที่ออกแบบมาเพื่อรองรับการจราจร RoCEv2โทปโลยีนี้ทําให้การเชื่อมต่อใดๆ กับใดๆ สามารถคาดเดาได้ถึงความช้าต่ําและความกว้างของแบนด์วิธสูงการพิจารณาด้านการออกแบบหลักๆ ได้แก่

  • การตั้งค่าผ้าไร้การสูญเสียเพื่อให้ RoCE สามารถใช้ได้ เครือข่ายต้องไม่มีการสูญเสีย โดยการควบคุมการไหลของความสําคัญ (PFC) ตามที่นิยามโดย IEEE 802.1Qbbซึ่งป้องกันการลดแพ็คเก็ตสําหรับการจราจร RDMA ที่มีความสําคัญสูง โดยหยุดการไหลของความสําคัญต่ํากว่าเมื่อเกิดการจราจร.
  • การจัดการความจุกจุกการแจ้งความอึดอัดอย่างชัดเจน (ECN) ระบุแพ็คเก็ตเพื่อแจ้งสัญญาณความอึดอัดต่อจุดปลายMCX653105A-HDATแอดป์เตอร์เพื่อลดอัตราการส่ง ก่อนที่พัฟเฟอร์จะเพลิน
  • การออกแบบใบและกระดูกสันหลัง:แต่ละเซอร์เวอร์เชื่อมต่อกับสวิตช์ใบที่ 100GbE สวิตช์ใบต่อจากนั้นเชื่อมต่อกับสวิตช์กระดูกสันหลังหลายอัน, ให้ความกว้างแบนด์วิทแบบสองส่วนเต็มสถาปัตยกรรมนี้จะปรับขนาดเป็นเส้น เมื่อเพิ่ม racks เพิ่มขึ้น.
  • ภาคเก็บและคํานวณ:ผ้ารองรับทั้ง NVMe-oF ทราฟฟิคการเก็บข้อมูลและการสื่อสารระหว่างเซอร์เวอร์สําหรับการใช้งานที่กระจายได้ทั้งหมด โดยใช้โครงสร้างพื้นฐาน RoCE เดียวกัน

ภายในโครงสร้างนี้NVIDIA Mellanox MCX653105A-HDATทําหน้าที่เป็นจุดสิ้นสุดที่สําคัญ ทําให้เซอร์เวอร์สามารถเข้าร่วมอย่างเต็มที่กับ RDMA fabric ในขณะที่อํานวยภารกิจเครือข่ายจาก CPU

3บทบาทและคุณสมบัติหลักของ MCX653105A-HDAT ในทางแก้ไข

รายการMCX653105A-HDATเป็นแอดป์เตอร์แบบ dual-port 100Gb/s ที่ใช้สถาปัตยกรรม NVIDIA Mellanox ConnectX-6. เป็นมุมก้อนของคําตอบ RDMA/RoCE ที่เสนอเสนอ และมีหลายความสามารถสําคัญ:

  • RoCE Offload ที่ใช้ฮาร์ดแวร์:ตัวปรับรับจัดการกับฟังก์ชันการขนส่ง RDMA ทั้งหมดในฮาร์ดแวร์ รวมถึงการคัดกรองแพคเก็ต ความน่าเชื่อถือ และการควบคุมความหนาแน่นสนับสนุนโดยตรงในการปรับปรุงความเร็วของเซอร์เวอร์.
  • การสนับสนุน PCIe Gen3/Gen4:ด้วยการสนับสนุนถึง PCIe 4.0 x16,การ์ด MCX653105A-HDAT Ethernetให้ความกว้างแบนด์วิทของโฮสต์ที่เพียงพอเพื่อบรรลุความเร็วสาย 100Gb / s ในทั้งสองพอร์ตพร้อมกัน ซึ่งจําเป็นสําหรับ NVMe-oF และ HPC ที่ต้องการภาระงาน
  • การเวอร์ชูเอเลชั่นระดับสูง:การเร่ง SR-IOV และ VirtIO ทําให้ตัวปรับสามารถให้ผลงานเกือบเป็นพื้นเมืองกับภาระงานเสมือนจริง ทําให้เหมาะสําหรับสภาพแวดล้อมเมฆและ NFV
  • ไพปไลน์ที่สามารถเขียนโปรแกรมได้Parser ที่ยืดหยุ่นทําให้การประมวลผลแพ็คเก็ตที่กําหนดเอง และโปรโตคอลใหม่ได้โดยไม่ต้องปรับปรุงฮาร์ดแวร์ ทําให้การลงทุนเป็นหลักต่ออนาคต

ตามเจ้าหน้าที่รายละเอียด MCX653105A-HDAT, ตัวปรับสัญญาณยังรองรับการใช้งานเครื่องพิสูจน์ในระบบในระบบและการจัดการกุญแจที่ใช้ด้วยฮาร์ดแวร์ โดยให้ความปลอดภัย RDMA โดยไม่เสียผลงานนี้เป็นสิ่งสําคัญโดยเฉพาะอย่างยิ่งสําหรับบริการทางการเงินและการจัดจําหน่ายเมฆหลายผู้เช่า ที่การแยกแยกข้อมูลและการเข้ารหัสเป็นสิ่งจําเป็น.

4. แนะนําการจัดจําหน่ายและการปรับขนาด

แนะนําให้ใช้แนวทางการจัดจําหน่ายระยะ ๆ เพื่อลดความเสี่ยงให้น้อยที่สุดและรับประกันผลงานที่ดีที่สุด:

  • ขั้นตอนที่ 1 กลุ่มทดลอง:การใช้งานMCX653105A-HDAT ConnectX แอดป์เตอร์ บัตรเครือข่าย PCIeหน่วยในกลุ่มขนาดเล็กของฐานข้อมูลและเซอร์เวอร์ที่เก็บข้อมูล วางระบบสวิทช์ใบเพื่อเปิด PFC และ ECN บนพอร์ตที่เชื่อมต่อกับเซอร์เวอร์เหล่านี้ยืนยันฟังก์ชัน RDMA โดยใช้เครื่องมือเบนชมาร์ค เช่น perftest.
  • ขั้นตอนที่ 2 การบูรณาการเครือข่ายเก็บข้อมูลขยายการจัดจําหน่ายไปยังหน่วยเก็บข้อมูลทั้งหมด การย้ายการจราจร NVMe-oF ไปยัง RoCEMCX653105A-HDAT รองรับโดยใช้โปรแกรมการเก็บข้อมูลหลัก เพื่อให้การเปลี่ยนแปลงเรียบร้อย
  • ขั้นตอนที่ 3 รายการการผลิตเต็ม:ใช้MCX653105A-HDAT Ethernet adapter การ์ดแก้ไขเปิด RDMA สําหรับแอพลิเคชั่นที่กระจาย เช่น Spark, TensorFlow และฐานข้อมูลในความจํา

สําหรับการปรับขนาด, ให้แน่ใจว่าผ้ากระดูกสันหลัง-ใบมีอุดหนุนเกินที่จะรับมือการจราจรสูงสุดMCX653105A-HDAT สําหรับขายในการจัดจําหน่ายของคุณเติบโต, ใช้ NVIDIA's Unified Fabric Manager (UFM) เพื่ออัตโนมัติการปรับปรุงผ้าและการติดตามสุขภาพ.

5. การดําเนินงาน ติดตามและปรับปรุง

การรักษาผ้า RoCE ที่มีประสิทธิภาพสูง ต้องการการติดตามและการปรับปรุงอย่างระวัง

  • เครื่องมือติดตาม:ใช้ Mellanox NEO และ UFM เพื่อเฝ้าระวังสุขภาพของผ้า ติดตามกรอบหยุด PFC และตรวจจับจุดร้อนของความจุกจุกใบข้อมูล MCX653105A-HDATให้ข้อมูลรายละเอียดของคอนเตอร์ที่สามารถใช้ได้ผ่านเครื่องมือมาตรฐาน เช่น ethtool
  • การปรับประสิทธิภาพการปรับปรุงความละเอียดการสอดคล้องการสอดคล้องการสอดคล้องการสอดคล้องการสอดคล้องการสอดคล้องการสอดคล้องการสอดคล้องการสอดคล้องการสอดคล้องสามารถ auto-tune ขึ้นอยู่กับรูปแบบการจราจร.
  • การแก้ไขปัญหา:ประเด็นทั่วไปรวมถึงพายุ PFC เนื่องจาก QoS ที่ตั้งค่าผิด หรือการหมดความมั่นคงของพัฟเฟอร์MCX653105A-HDAT ราคาในแง่ของผลประกอบการถูกอ้างอิงด้วยการทดสอบการรับรองเป็นประจํา
  • แฟร์มแวร์และ Driver Update:ดําเนินการอัพเดทฟอร์มแวร์และ NVIDIA ไดรเวอร์สเต็กอัพเดทเพื่อได้รับประโยชน์จากการปรับปรุงล่าสุดและแก้ไขปัญหา.การ์ด MCX653105A-HDAT Ethernetสนับสนุนฟอร์มแวร์ที่สามารถปรับปรุงได้ในพื้นที่ เพื่อการอัพเดทที่เรียบร้อย
6สรุปและการประเมินค่า

รายการNVIDIA Mellanox MCX653105A-HDATแอดป์เตอร์เซอร์เวอร์ให้พื้นฐานที่แข็งแกร่งและมีประสิทธิภาพสูงสําหรับสถาปัตยกรรมศูนย์ข้อมูลที่ทันสมัยที่ต้องการความช้าต่ําและความเร็วสูงมันแก้ไขข้อขัดขวางของ CPU โดยตรง, ปล่อยทรัพยากรคอมพิวเตอร์สําหรับการประกอบรายได้ผ้า Ethernet ที่ไม่มีการสูญเสีย สามารถรองรับภาระงานที่ต้องการมากที่สุดสําหรับสถาปนิกที่มองหาพื้นฐานเครือข่ายที่มั่นคงต่ออนาคตMCX653105A-HDATเป็นก้อนสร้างที่สําคัญที่นํามาซึ่งผลประโยชน์ในด้านการทํางานทันทีและคุณค่าในระยะยาว