NVIDIA Mellanox MCX653106A-HDAT การแก้ไขทางเทคนิค: ทําให้ RDMA / RoCE การส่งสัญญาณความช้าต่ําและยกระดับเซอร์เวอร์
March 17, 2026
สถาปัตยกรรมศูนย์ข้อมูลที่ทันสมัยถูกกําหนดโดยความต้องการในการประมวลผลข้อมูลในเวลาจริง, ภาระการทํางานของปัญญาประดิษฐ์ (AI) และคอมพิวเตอร์ที่มีประสิทธิภาพสูง (HPC)สตั๊กเครือข่ายแบบดั้งเดิม, โดยเฉพาะ TCP / IP, นํามาใช้งาน CPU และความช้าที่สําคัญที่สามารถทําให้การใช้งานที่มีความรู้สึกต่อการทํางานเหล่านี้เป็นโรคสถาปนิกเครือข่ายและวิศวกรการขนส่ง มีภารกิจในการสร้างพื้นฐานที่สามารถปรับขนาดได้อย่างมีประสิทธิภาพในขณะที่ตอบสนองข้อตกลงระดับบริการ (SLA) ที่เข้มงวดสําหรับความช้าและความผ่าน.
ความต้องการหลักที่ระบุในแผนภูมิทางเทคนิคนี้ คือการกําหนดเนื้อผ้าความกว้างความถี่สูง สามารถรองรับ Remote Direct Memory Access (RDMA) ผ่าน Converged Ethernet (RoCE)เพื่อบรรลุสิ่งนี้ การ์ดอินเตอร์เฟซเครือข่าย (NIC) ที่อยู่เบื้องต้นไม่เพียงแค่ต้องรองรับความเร็วสายอัตรา 100/200GbE แต่ยังต้องให้การลดภาระของฮาร์ดแวร์ที่ซับซ้อนเพื่อปลดปล่อยทรัพยากร CPU เจ้าภาพนี่คือที่ที่MCX653106A-HDATจะกลายเป็นองค์ประกอบพื้นฐานของคําตอบ
สถาปัตยกรรมที่เสนอคือทอปโลยีกระดูกสันหลังที่ออกแบบมาสําหรับสภาพแวดล้อมเมฆส่วนตัวที่รองรับทั้งภาระงานเสมือนและคลาสเตอร์ HPC เบาโลเครือข่ายถูกแบ่งแยกเพื่อรองรับการจราจร RoCE, จําเป็นต้องมีผ้า Ethernet ที่ไม่มีการสูญเสีย ส่วนประกอบการออกแบบสําคัญประกอบด้วย:
- เครื่องเปลี่ยนใบ:เครื่องสวิทช์ NVIDIA Spectrum SN3000 ซีรีย์ที่ตั้งค่าด้วย PFC ( Priority Flow Control) และ ETS (Enhanced Transmission Selection) เพื่อสร้างผ้า RoCE ที่ไม่มีการสูญเสีย
- สลับกระดูกสันหลัง:สวิทช์ความจุสูงที่ให้ความเชื่อมโยงระหว่างสวิทช์ใบทั้งหมดโดยไม่ปิด
- คอมพิวเตอร์และสตอเรชั่นโน๊ด:แต่ละเซอร์เวอร์มีNVIDIA Mellanox MCX653106A-HDATเพื่อเชื่อมต่อกับสวิตช์ใบที่ 100Gb/s
การออกแบบนี้ทําให้การสื่อสารใด ๆ ไปยังใด ๆ ภายในศูนย์ข้อมูลประสบความยืดหยุ่นอย่างน้อยและสูญเสียแพ็คเก็ตศูนย์เนื่องจากความจุกจูง ซึ่งมีความสําคัญต่อความมั่นคงของการจราจร RDMA
ในฐานะMCX653106A-HDAT ConnectX แอดป์เตอร์ บัตรเครือข่าย PCIe, อุปกรณ์นี้ทําหน้าที่เป็นอินเตอร์เฟซที่สําคัญระหว่างบัสความจําของเซอร์เวอร์และเนื้อเยื่อเครือข่าย. บทบาทของมันยืดกว้างไปกว่าการส่งต่อแพ็คเก็ตง่าย ๆ.การ์ดรวมความสามารถที่ก้าวหน้าของผู้ควบคุม ConnectX-6ซึ่งถูกสร้างขึ้นเพื่อสิ่งแวดล้อมที่ต้องการเหล่านี้การ์ด MCX653106A-HDAT Ethernet, มันทําให้:
- คาร์เนลไบปาส และ RDMA:แอปพลิเคชั่นสามารถสื่อสารโดยตรงกับ NIC โดยเลี่ยงเนอร์เนลของระบบปฏิบัติการการส่งสัญญาณ RDMA/RoCE ความช้าต่ํา.
- การออกของฮาร์ดแวร์:การ์ดออนโหลดโปรต็อกอลการเก็บข้อมูลและเครือข่าย เช่น NVMe-oF และ VXLAN ลดค่าใช้จ่าย CPU และเร่งความจุของเซอร์เวอร์.
- การสนับสนุน PCIe Gen3/Gen4:ด้วย PCIe 3.0/4.0 x16 อินเตอร์เฟซโฮสต์MCX653106A-HDATรับประกันว่าความกว้างข่ายเครือข่าย 100/200Gb/s ไม่ถูกขัดขวางโดย bus ภายในของเซอร์เวอร์
สําหรับสถาปนิกที่ตรวจสอบรายละเอียดทางเทคนิครายละเอียด MCX653106A-HDATเปิดเผยการสนับสนุนสําหรับมากกว่า 200 ล้านแพ็คเก็ตต่อวินาที แสดงถึงความสามารถในการจัดการกับกระแสข้อมูลที่เข้มข้นที่สุดMCX653106A-HDAT Ethernet adapter การ์ดแก้ไขสําหรับภาระงานเป้าหมายของเรา
การใช้ RoCEv2 ต้องการการวางแผนอย่างรอบคอบMCX653106A-HDAT:
- ความสอดคล้องของฟอร์มแวร์และไดรเวอร์มั่นใจว่าการ์ดทั้งหมดจะสล็อตด้วยเวอร์ชั่นฟอร์มแวร์เดียวกัน และว่า Driver NVIDIA MLNX_OFED จะติดตั้งอย่างต่อเนื่องในทุกหน่วยงาน
- การตั้งค่าสวิตช์:ใช้ PFC บนสวิตช์สําหรับคิวความสําคัญ 802.1p ที่ได้รับการกําหนดสําหรับการจราจร RoCE (ปกติเป็นความสําคัญ 3) ETS ต้องตั้งค่าเพื่อจัดสรรความกว้างแบนด์เบดที่รับประกันสําหรับคิวเหล่านี้การป้องกันการหมดความถี่.
- การตั้งค่า Node:ในแต่ละเซอร์เวอร์รองรับ MCX653106A-HDATการตั้งค่าแบบ RoCE เป็น v2 สําหรับการใช้ RoCE
สําหรับการขยาย, อาร์คิทคอเรกชั่นมีความสามารถปรับขนาดสูง. การเพิ่มความจุคประมาณใหม่หรือความจุของคอมพิวเตอร์ง่ายเหมือนการจัดจําหน่ายเซอร์เวอร์ใหม่NVIDIA Mellanox MCX653106A-HDATและเชื่อมต่อมันกับสวิทช์ใบที่มีอยู่ ลักษณะของผ้าที่ไม่กักกันทําให้ผลงานยังคงคาดการณ์ได้ เมื่อกลุ่มเติบโต
การรักษาผ้า RoCE ที่มีประสิทธิภาพสูงต้องมีการติดตามอย่างแข็งแรงMCX653106A-HDATส่งข้อมูลเทเลเมตรีที่กว้างขวางผ่านเครื่องมือมาตรฐานและโปรแกรมครอบครองของ NVIDIA
- การติดตาม:ใช้'mlxlink' และ'mlxstat' สําหรับการนับความสมบูรณ์แบบและผลงานของลิงค์และอัตราการจราจร RDMA.
- การแก้ไขปัญหา:เมื่อการทํางานเสื่อมลง การตรวจสอบครั้งแรกมักจะเป็นการตกของแพ็คเก็ตเนื่องจากพายุ PFC หรือการสูญเสียนะบฟอร์ใบข้อมูล MCX653106A-HDATช่วยเชื่อมโยงตัวนับกับเหตุการณ์เฉพาะเจาะจง
- การปรับปรุง:การปรับระดับสูงรวมถึงการปรับปรุงพารามิเตอร์การปรับปรุงการหยุดและขนาดการขออ่าน PCIe สําหรับสภาพแวดล้อมเสมือนการเปิด SR-IOV และการมอบฟังก์ชันเสมือน (VF) โดยตรงกับ VM ช่วยลดความช้าลงอีก.
เมื่อการจัดหาอุปกรณ์ Hardware การเข้าใจMCX653106A-HDAT ราคาสําหรับคนที่พร้อมที่จะจัดซื้อMCX653106A-HDAT สําหรับขายรายการจากผู้จําหน่ายที่ได้รับอนุญาต รับประกันผลิตภัณฑ์และการสนับสนุนที่แท้จริง
รายการMCX653106A-HDATจาก NVIDIA Mellanox เป็นมากกว่าส่วนประกอบ; มันเป็นตัวช่วยทางกลยุทธ์สําหรับการแปลงศูนย์ข้อมูลที่ทันสมัย โดยการให้บริการแพลตฟอร์มที่แข็งแรงและรวยด้วยคุณสมบัติสําหรับ RDMA / RoCEมันตอบโจทย์โดยตรงความต้องการของอุตสาหกรรมสําหรับความช้าต่ําและการผ่านที่สูงกว่าการแก้ไขทางเทคนิคนี้แสดงให้เห็นว่า ด้วยสถาปัตยกรรมและวิธีการใช้งานที่ถูกต้อง องค์กรสามารถบรรลุได้:
- ลดความช้าถึง 95%สําหรับการสื่อสารระหว่างกระบวนการ เมื่อเทียบกับ TCP/IP แบบดั้งเดิม
- ประหยัด CPU อย่างสําคัญ(บ่อยครั้ง 20-30%) ที่สามารถนําไปลงทุนใหม่ในผลงานของแอปพลิเคชั่น
- โครงสร้างพื้นฐานที่มั่นคงต่ออนาคตสามารถรองรับโปรโตคอลการเก็บข้อมูล 200GbE และรุ่นใหม่ เช่น NVMe-oF
สําหรับสถาปนิกเครือข่าย วิศวกร DevOps และผู้นําปฏิบัติการ การเดินทางไปยังศูนย์ข้อมูลที่มีประสิทธิภาพสูง เริ่มต้นจากก้อนสร้างที่เหมาะสม

