NVIDIA Mellanox MCX653106A-HDAT ในกิจกรรม: เปลี่ยนแปลงการถ่ายทอด RDMA / RoCE ความช้าต่ําและผลิตของเซอร์เวอร์

March 17, 2026

ข่าว บริษัท ล่าสุดเกี่ยวกับ NVIDIA Mellanox MCX653106A-HDAT ในกิจกรรม: เปลี่ยนแปลงการถ่ายทอด RDMA / RoCE ความช้าต่ําและผลิตของเซอร์เวอร์

ในยุคของการวิเคราะห์ในเวลาจริง และภาระงานที่ขับเคลื่อนโดย AI ศูนย์ข้อมูลกําลังถูกกดดันอย่างต่อเนื่อง เพื่อส่งข้อมูลเพิ่มขึ้น ด้วยความช้าต่ําผู้ให้บริการบริการเมฆชั้นนําเผชิญกับโจทย์สําคัญเมื่อเร็วๆ นี้: คลัสเตอร์การจองที่กระจายของพวกเขากําลังต่อสู้กับ CPU overhead และความยุ่งยากในการอ่อนเพลียที่เกิดจากโปรโตคอล TCP/IP ที่ดั้งเดิมพวกเขาต้องการคําตอบที่สามารถลดการประมวลผลเครือข่ายและทําให้การเลี่ยงเคอร์เนลจริงนี่คือเรื่องราวของวิธีการMCX653106A-HDATเป็นก้อนมุมของการปรับปรุงโครงสร้างพื้นฐาน

สถานการณ์และความท้าทาย: ปัญหา TCP/IP

งานฝึกอบรมคอมพิวเตอร์ประสิทธิภาพสูง (HPC) และ AI ของบริษัทต้องการการเคลื่อนไหวข้อมูลขนาดใหญ่ระหว่างหลายร้อยหน่วยNICs 25GbE ที่มีอยู่ใช้ CPU หลักถึง 30% เพียงสําหรับการจัดการจราจรเครือข่ายซึ่งไม่เพียงแค่เพิ่มต้นทุนการดําเนินงาน แต่ยังนํามา สูงความอ่อนแอที่ไม่คาดเดาได้ในช่วงภาระสูงสุดทีมวิศวกรตระหนักว่า เพื่อที่จะบรรลุผลงานที่ต้องการสําหรับระบบไฟล์ปาราเลล, พวกเขาจําเป็นต้องใช้ RDMA (Remote Direct Memory Access) ผ่านการเชื่อมต่อ Ethernet (RoCE) การค้นหาที่น่าเชื่อถือ, ความสามารถสูงNVIDIA Mellanox MCX653106A-HDATการแก้ไขเริ่มต้น

การแก้ไขและการใช้งาน: การบูรณาการ ConnectX-6 Adapter

หลังจากการประเมินเครื่องมือที่มีอยู่อย่างละเอียด ทีมงานได้เลือกMCX653106A-HDAT ConnectX แอดป์เตอร์ บัตรเครือข่าย PCIeการจําหน่ายนี้เป้าหมายต่อหน่วยเก็บข้อมูลและคอมพิวเตอร์ภายในสภาพแวดล้อมเมฆส่วนตัวของพวกเขา โดยใช้การสนับสนุน RoCE ของการ์ดทีมงานตั้งค่าผ้า Ethernet ที่ไม่มีการสูญเสีย โดยใช้ Priority Flow Control (PFC) และ Enhanced Transmission Selection (ETS)กระบวนการติดตั้งถูกทําให้เรียบง่ายด้วยการเข้ากันของบัตร PCIe 3.0/4.0 ทําให้สามารถบูรณาการได้อย่างต่อเนื่องกับเซอร์เวอร์ใหม่และเดิม

รายการการ์ด MCX653106A-HDAT Ethernetได้รับการตั้งค่าเพื่อรองรับการเชื่อมต่อ 100Gb / s, ให้การปรับปรุงความกว้างแบนด์วิททันที โดยการใช้งานความสามารถของเครื่องมือของสถาปัตยกรรม ConnectX-6,ทีมงานได้ย้ายการประมวลผลเครือข่ายจาก CPU ไปยังตัวปรับเองเพื่อให้แน่ใจว่าการทํางานที่ดีที่สุด, วิศวกรอ้างถึงอย่างกว้างขวางรายละเอียด MCX653106A-HDATและการกํากับการปรับเปลี่ยน เพื่อปรับขนาดของพัฟเฟอร์และตัดการตั้งค่าการปรับปรุง การสร้างพื้นฐานที่แข็งแรงสําหรับการจราจร RDMA

ผล & ประโยชน์: ปลดปล่อยศักยภาพการทํางานที่แท้จริง

ผลของการใช้MCX653106A-HDATได้มีการปรับปรุงทันทีและแปลงตารางต่อไปนี้แสดงผลการเพิ่มประสิทธิภาพที่สังเกตในสภาพแวดล้อมการผลิตหลังจากการย้ายไปยัง RDMA / RoCE:

เมทริก ก่อนการใช้งาน (TCP/IP) หลังการใช้งาน (RoCE v2)
ความช้าเฉลี่ย (IPC) 12 μs 2.1 μs
การใช้ CPU (เครือข่าย) 28% 5%
การออกกําลังต่อหน่วย 18 Gb/s (มีประสิทธิภาพ) 98 Gb/s (ความเร็วสาย)

กับNVIDIA Mellanox MCX653106A-HDATในสถานที่, การแก้ไขของบริษัทที่กระจายการเก็บข้อมูล ได้เห็นการลดความช้า 6 เท่า.คีย์ CPU ที่ได้รับการปลดปล่อยถูกจัดสรรใหม่ให้กับภาระงานของแอปพลิเคชั่น, เพิ่มประสิทธิภาพรวมของคลาสเตอร์ขึ้นไปกว่า 20% สําหรับผู้จัดการ ITความชัดเจนที่ให้บริการโดยเทเลเมตรีที่ก้าวหน้าของตัวปรับทําให้การวางแผนความจุและการวิเคราะห์กระบวนการถูกต้องมากขึ้น.

มองไปข้างหน้า: สามารถปรับขนาดได้ และสามารถป้องกันได้ในอนาคต

ได้รับกําลังใจจากความสําเร็จทีมวิศวกรตอนนี้วางแผนที่จะขยายการจัดจําหน่ายไปยังสภาพแวดล้อมเสมือนของพวกเขารองรับ MCX653106A-HDATโดยการประเมินการซื้อหน่วยเพิ่มเติมMCX653106A-HDAT ราคาการพิจารณาของทีมงานนี้ยังศึกษาถึงการMCX653106A-HDAT Ethernet adapter การ์ดแก้ไขสําหรับการนําไปใช้ NVMe-oF โดยมีเป้าหมายที่จะสร้างกระเบื้องการเก็บข้อมูลที่แยกแยกได้อย่างสมบูรณ์

การศึกษากรณีนี้แสดงให้เห็นว่าสําหรับองค์กรที่จริงจังเกี่ยวกับการลดความช้าและยกระดับความเร็วของเซอร์เวอร์MCX653106A-HDATเป็นมากกว่าแค่บัตรเครือข่าย; มันเป็นตัวช่วยสําคัญของการสร้างพื้นฐานรุ่นต่อไป สําหรับแผนภูมิอาร์คิทคัตช์รายละเอียดและเพื่อตรวจสอบความต้องการของระบบของคุณเองใบข้อมูล MCX653106A-HDATให้ความลึกด้านเทคนิคที่จําเป็น