NVIDIA Mellanox MCX653106A-HDAT การแก้ไขทางเทคนิค: ทําให้ RDMA / RoCE การส่งสัญญาณความช้าต่ําและยกระดับเซอร์เวอร์

March 17, 2026

NVIDIA Mellanox MCX653106A-HDAT การแก้ไขทางเทคนิค: ทําให้ RDMA / RoCE การส่งสัญญาณความช้าต่ําและยกระดับเซอร์เวอร์
1. สถานการณ์โครงการและการวิเคราะห์ความต้องการ

สถาปัตยกรรมศูนย์ข้อมูลที่ทันสมัยถูกกําหนดโดยความต้องการในการประมวลผลข้อมูลในเวลาจริง, ภาระการทํางานของปัญญาประดิษฐ์ (AI) และคอมพิวเตอร์ที่มีประสิทธิภาพสูง (HPC)สตั๊กเครือข่ายแบบดั้งเดิม, โดยเฉพาะ TCP / IP, นํามาใช้งาน CPU และความช้าที่สําคัญที่สามารถทําให้การใช้งานที่มีความรู้สึกต่อการทํางานเหล่านี้เป็นโรคสถาปนิกเครือข่ายและวิศวกรการขนส่ง มีภารกิจในการสร้างพื้นฐานที่สามารถปรับขนาดได้อย่างมีประสิทธิภาพในขณะที่ตอบสนองข้อตกลงระดับบริการ (SLA) ที่เข้มงวดสําหรับความช้าและความผ่าน.

ความต้องการหลักที่ระบุในแผนภูมิทางเทคนิคนี้ คือการกําหนดเนื้อผ้าความกว้างความถี่สูง สามารถรองรับ Remote Direct Memory Access (RDMA) ผ่าน Converged Ethernet (RoCE)เพื่อบรรลุสิ่งนี้ การ์ดอินเตอร์เฟซเครือข่าย (NIC) ที่อยู่เบื้องต้นไม่เพียงแค่ต้องรองรับความเร็วสายอัตรา 100/200GbE แต่ยังต้องให้การลดภาระของฮาร์ดแวร์ที่ซับซ้อนเพื่อปลดปล่อยทรัพยากร CPU เจ้าภาพนี่คือที่ที่MCX653106A-HDATจะกลายเป็นองค์ประกอบพื้นฐานของคําตอบ

2. การออกแบบระบบระบบและเครือข่ายโดยรวม

สถาปัตยกรรมที่เสนอคือทอปโลยีกระดูกสันหลังที่ออกแบบมาสําหรับสภาพแวดล้อมเมฆส่วนตัวที่รองรับทั้งภาระงานเสมือนและคลาสเตอร์ HPC เบาโลเครือข่ายถูกแบ่งแยกเพื่อรองรับการจราจร RoCE, จําเป็นต้องมีผ้า Ethernet ที่ไม่มีการสูญเสีย ส่วนประกอบการออกแบบสําคัญประกอบด้วย:

  • เครื่องเปลี่ยนใบ:เครื่องสวิทช์ NVIDIA Spectrum SN3000 ซีรีย์ที่ตั้งค่าด้วย PFC ( Priority Flow Control) และ ETS (Enhanced Transmission Selection) เพื่อสร้างผ้า RoCE ที่ไม่มีการสูญเสีย
  • สลับกระดูกสันหลัง:สวิทช์ความจุสูงที่ให้ความเชื่อมโยงระหว่างสวิทช์ใบทั้งหมดโดยไม่ปิด
  • คอมพิวเตอร์และสตอเรชั่นโน๊ด:แต่ละเซอร์เวอร์มีNVIDIA Mellanox MCX653106A-HDATเพื่อเชื่อมต่อกับสวิตช์ใบที่ 100Gb/s

การออกแบบนี้ทําให้การสื่อสารใด ๆ ไปยังใด ๆ ภายในศูนย์ข้อมูลประสบความยืดหยุ่นอย่างน้อยและสูญเสียแพ็คเก็ตศูนย์เนื่องจากความจุกจูง ซึ่งมีความสําคัญต่อความมั่นคงของการจราจร RDMA

3. บทบาทของ NVIDIA Mellanox MCX653106A-HDAT ในการแก้ไข

ในฐานะMCX653106A-HDAT ConnectX แอดป์เตอร์ บัตรเครือข่าย PCIe, อุปกรณ์นี้ทําหน้าที่เป็นอินเตอร์เฟซที่สําคัญระหว่างบัสความจําของเซอร์เวอร์และเนื้อเยื่อเครือข่าย. บทบาทของมันยืดกว้างไปกว่าการส่งต่อแพ็คเก็ตง่าย ๆ.การ์ดรวมความสามารถที่ก้าวหน้าของผู้ควบคุม ConnectX-6ซึ่งถูกสร้างขึ้นเพื่อสิ่งแวดล้อมที่ต้องการเหล่านี้การ์ด MCX653106A-HDAT Ethernet, มันทําให้:

  • คาร์เนลไบปาส และ RDMA:แอปพลิเคชั่นสามารถสื่อสารโดยตรงกับ NIC โดยเลี่ยงเนอร์เนลของระบบปฏิบัติการการส่งสัญญาณ RDMA/RoCE ความช้าต่ํา.
  • การออกของฮาร์ดแวร์:การ์ดออนโหลดโปรต็อกอลการเก็บข้อมูลและเครือข่าย เช่น NVMe-oF และ VXLAN ลดค่าใช้จ่าย CPU และเร่งความจุของเซอร์เวอร์.
  • การสนับสนุน PCIe Gen3/Gen4:ด้วย PCIe 3.0/4.0 x16 อินเตอร์เฟซโฮสต์MCX653106A-HDATรับประกันว่าความกว้างข่ายเครือข่าย 100/200Gb/s ไม่ถูกขัดขวางโดย bus ภายในของเซอร์เวอร์

สําหรับสถาปนิกที่ตรวจสอบรายละเอียดทางเทคนิครายละเอียด MCX653106A-HDATเปิดเผยการสนับสนุนสําหรับมากกว่า 200 ล้านแพ็คเก็ตต่อวินาที แสดงถึงความสามารถในการจัดการกับกระแสข้อมูลที่เข้มข้นที่สุดMCX653106A-HDAT Ethernet adapter การ์ดแก้ไขสําหรับภาระงานเป้าหมายของเรา

4. แนะนําการใช้งานและการขยาย

การใช้ RoCEv2 ต้องการการวางแผนอย่างรอบคอบMCX653106A-HDAT:

  • ความสอดคล้องของฟอร์มแวร์และไดรเวอร์มั่นใจว่าการ์ดทั้งหมดจะสล็อตด้วยเวอร์ชั่นฟอร์มแวร์เดียวกัน และว่า Driver NVIDIA MLNX_OFED จะติดตั้งอย่างต่อเนื่องในทุกหน่วยงาน
  • การตั้งค่าสวิตช์:ใช้ PFC บนสวิตช์สําหรับคิวความสําคัญ 802.1p ที่ได้รับการกําหนดสําหรับการจราจร RoCE (ปกติเป็นความสําคัญ 3) ETS ต้องตั้งค่าเพื่อจัดสรรความกว้างแบนด์เบดที่รับประกันสําหรับคิวเหล่านี้การป้องกันการหมดความถี่.
  • การตั้งค่า Node:ในแต่ละเซอร์เวอร์รองรับ MCX653106A-HDATการตั้งค่าแบบ RoCE เป็น v2 สําหรับการใช้ RoCE

สําหรับการขยาย, อาร์คิทคอเรกชั่นมีความสามารถปรับขนาดสูง. การเพิ่มความจุคประมาณใหม่หรือความจุของคอมพิวเตอร์ง่ายเหมือนการจัดจําหน่ายเซอร์เวอร์ใหม่NVIDIA Mellanox MCX653106A-HDATและเชื่อมต่อมันกับสวิทช์ใบที่มีอยู่ ลักษณะของผ้าที่ไม่กักกันทําให้ผลงานยังคงคาดการณ์ได้ เมื่อกลุ่มเติบโต

5. การติดตามการดําเนินงาน การแก้ไขปัญหาและการปรับปรุง

การรักษาผ้า RoCE ที่มีประสิทธิภาพสูงต้องมีการติดตามอย่างแข็งแรงMCX653106A-HDATส่งข้อมูลเทเลเมตรีที่กว้างขวางผ่านเครื่องมือมาตรฐานและโปรแกรมครอบครองของ NVIDIA

  • การติดตาม:ใช้'mlxlink' และ'mlxstat' สําหรับการนับความสมบูรณ์แบบและผลงานของลิงค์และอัตราการจราจร RDMA.
  • การแก้ไขปัญหา:เมื่อการทํางานเสื่อมลง การตรวจสอบครั้งแรกมักจะเป็นการตกของแพ็คเก็ตเนื่องจากพายุ PFC หรือการสูญเสียนะบฟอร์ใบข้อมูล MCX653106A-HDATช่วยเชื่อมโยงตัวนับกับเหตุการณ์เฉพาะเจาะจง
  • การปรับปรุง:การปรับระดับสูงรวมถึงการปรับปรุงพารามิเตอร์การปรับปรุงการหยุดและขนาดการขออ่าน PCIe สําหรับสภาพแวดล้อมเสมือนการเปิด SR-IOV และการมอบฟังก์ชันเสมือน (VF) โดยตรงกับ VM ช่วยลดความช้าลงอีก.

เมื่อการจัดหาอุปกรณ์ Hardware การเข้าใจMCX653106A-HDAT ราคาสําหรับคนที่พร้อมที่จะจัดซื้อMCX653106A-HDAT สําหรับขายรายการจากผู้จําหน่ายที่ได้รับอนุญาต รับประกันผลิตภัณฑ์และการสนับสนุนที่แท้จริง

6. สรุปและข้อเสนอคุณค่า

รายการMCX653106A-HDATจาก NVIDIA Mellanox เป็นมากกว่าส่วนประกอบ; มันเป็นตัวช่วยทางกลยุทธ์สําหรับการแปลงศูนย์ข้อมูลที่ทันสมัย โดยการให้บริการแพลตฟอร์มที่แข็งแรงและรวยด้วยคุณสมบัติสําหรับ RDMA / RoCEมันตอบโจทย์โดยตรงความต้องการของอุตสาหกรรมสําหรับความช้าต่ําและการผ่านที่สูงกว่าการแก้ไขทางเทคนิคนี้แสดงให้เห็นว่า ด้วยสถาปัตยกรรมและวิธีการใช้งานที่ถูกต้อง องค์กรสามารถบรรลุได้:

  • ลดความช้าถึง 95%สําหรับการสื่อสารระหว่างกระบวนการ เมื่อเทียบกับ TCP/IP แบบดั้งเดิม
  • ประหยัด CPU อย่างสําคัญ(บ่อยครั้ง 20-30%) ที่สามารถนําไปลงทุนใหม่ในผลงานของแอปพลิเคชั่น
  • โครงสร้างพื้นฐานที่มั่นคงต่ออนาคตสามารถรองรับโปรโตคอลการเก็บข้อมูล 200GbE และรุ่นใหม่ เช่น NVMe-oF

สําหรับสถาปนิกเครือข่าย วิศวกร DevOps และผู้นําปฏิบัติการ การเดินทางไปยังศูนย์ข้อมูลที่มีประสิทธิภาพสูง เริ่มต้นจากก้อนสร้างที่เหมาะสม