โซลูชัน NVIDIA NIC: ข้อมูลสำคัญสำหรับการปรับใช้ RDMA/RoCE เพื่อเพิ่มประสิทธิภาพการส่งข้อมูลแบบ Low-Latency
November 7, 2025
ในยุคของ AI และการประมวลผลประสิทธิภาพสูง ความล่าช้าของเครือข่ายได้กลายเป็นคอขวดที่สำคัญ การ์ดอินเทอร์เฟซเครือข่ายของ NVIDIA พร้อมความสามารถ RDMA และ RoCE ขั้นสูง ได้รับการออกแบบมาโดยเฉพาะเพื่อกำจัดคอขวดนี้และมอบประสิทธิภาพที่ไม่เคยมีมาก่อนสำหรับเวิร์กโหลดที่ใช้ข้อมูลจำนวนมาก
แนวทางของ NVIDIA ในการสร้างเครือข่ายประสิทธิภาพสูงเกี่ยวข้องกับการกำจัดค่าใช้จ่ายของสแต็กเครือข่ายแบบดั้งเดิมในขณะที่ยังคงรักษาความน่าเชื่อถือ สถาปัตยกรรมนี้สร้างขึ้นจากหลักการสำคัญหลายประการ:
- กลไกบายพาสเคอร์เนลเพื่อกำจัดการมีส่วนร่วมของ CPU ในการถ่ายโอนข้อมูล
- การออฟโหลดการขนส่งบนฮาร์ดแวร์สำหรับการดำเนินการแบบ zero-copy
- เส้นทางที่มีความหน่วงต่ำเป็นพิเศษระหว่างหน่วยความจำของแอปพลิเคชันและเครือข่าย
- การควบคุมความแออัดและการจัดการการรับส่งข้อมูลอัจฉริยะ
Remote Direct Memory Access (RDMA) แสดงถึงการเปลี่ยนแปลงพื้นฐานในวิธีการเคลื่อนย้ายข้อมูลผ่านเครือข่าย การใช้งานของ NVIDIA มอบ:
- การถ่ายโอนหน่วยความจำไปยังหน่วยความจำโดยตรงโดยไม่มีการแทรกแซงของ CPU
- ความหน่วงต่ำกว่า 1 ไมโครวินาทีสำหรับการสื่อสารภายในแร็ค
- อัตราการส่งข้อมูลแบบ Line-rate โดยไม่คำนึงถึงขนาดแพ็กเก็ต
- การใช้ CPU น้อยที่สุด ทำให้วงจรว่างสำหรับเวิร์กโหลดของแอปพลิเคชัน
สิ่งนี้ทำให้ NVIDIA NIC มีคุณค่าอย่างยิ่งสำหรับคลัสเตอร์การฝึกอบรม AI ซึ่ง RDMA สามารถลดเวลาการฝึกอบรมได้ถึง 40% เมื่อเทียบกับการสร้างเครือข่ายแบบดั้งเดิม
RDMA over Converged Ethernet (RoCE) ได้กลายเป็นโปรโตคอลหลักสำหรับการปรับใช้ RDMA ในสภาพแวดล้อม Ethernet มาตรฐาน การใช้งาน RoCE ของ NVIDIA รวมถึง:
- รองรับ RoCE v2 อย่างครอบคลุมพร้อมความสามารถในการกำหนดเส้นทาง IP
- อัลกอริธึมการควบคุมความแออัดขั้นสูง (DCQCN, TIMELY)
- การควบคุมการไหลตามลำดับความสำคัญ (PFC) สำหรับ Ethernet ที่ไม่สูญเสีย
- กลไกการแจ้งเตือนความแออัดอย่างชัดเจน (ECN) ที่ได้รับการปรับปรุง
การปรับใช้ NVIDIA NIC เพื่อประสิทธิภาพ RDMA สูงสุดต้องให้ความสนใจอย่างรอบคอบในหลายๆ ด้านที่สำคัญ:
- การกำหนดค่าโครงสร้างพื้นฐานเครือข่าย: การตั้งค่า PFC และ ECN ที่เหมาะสมบนสวิตช์
- การจัดตำแหน่ง MTU: เฟรม Jumbo (โดยทั่วไป 9000 MTU) เพื่อการถ่ายโอนขนาดใหญ่ที่มีประสิทธิภาพ
- การจัดการคู่คิว: จำนวนคู่คิวที่เหมาะสมที่สุดตามความต้องการของแอปพลิเคชัน
- การจัดสรรบัฟเฟอร์: บัฟเฟอร์รับเพียงพอเพื่อป้องกันการขาดแคลน
NVIDIA NIC มอบประโยชน์สูงสุดเมื่อแอปพลิเคชันได้รับการออกแบบมาโดยเฉพาะเพื่อใช้ประโยชน์จากความสามารถ RDMA:
- การใช้งาน MPI ที่ปรับให้เหมาะสมสำหรับการดำเนินการ RDMA
- ระบบจัดเก็บข้อมูลที่ใช้ RDMA สำหรับการเข้าถึงบล็อกระยะไกล
- กรอบงาน AI พร้อมการสนับสนุน RDMA ในตัวสำหรับการซิงโครไนซ์พารามิเตอร์
- ระบบฐานข้อมูลที่ใช้ RDMA สำหรับการประมวลผลธุรกรรมแบบกระจาย
การรักษาประสิทธิภาพ RDMA ที่เหมาะสมที่สุดต้องใช้ความสามารถในการตรวจสอบที่ครอบคลุม:
- โทรมาตรแบบเรียลไทม์สำหรับการตรวจจับและวิเคราะห์ความแออัด
- ตัวนับข้อผิดพลาดโดยละเอียดสำหรับการระบุปัญหาอย่างรวดเร็ว
- การผสานรวมกับ NVIDIA NetQ เพื่อให้มองเห็นได้ทั่วทั้งเครือข่าย
- การวินิจฉัยขั้นสูงสำหรับปัญหาการเชื่อมต่อ RoCE
ในสถานการณ์การฝึกอบรม AI NVIDIA NIC พร้อม RDMA แสดงให้เห็นถึงข้อได้เปรียบที่สำคัญ:
- แบนด์วิดท์เกือบไม่จำกัดสำหรับการดำเนินการทั้งหมด
- ความหน่วงที่แน่นอนสำหรับการฝึกอบรมแบบซิงโครนัส
- ประสิทธิภาพที่ปรับขนาดได้ในหลายพันโหนด
- การผสานรวมที่ราบรื่นกับเทคโนโลยี NVIDIA GPUDirect
การผสมผสานระหว่างความเชี่ยวชาญด้านฮาร์ดแวร์ของ NVIDIA และระบบนิเวศซอฟต์แวร์ที่ครอบคลุมสร้างโซลูชันที่น่าสนใจสำหรับองค์กรที่สร้างโครงสร้างพื้นฐาน AI รุ่นต่อไป การมุ่งเน้นไปที่เทคโนโลยี RDMA และ RoCE ทำให้ NVIDIA NIC เป็นส่วนประกอบสำคัญในการแสวงหาเครือข่ายประสิทธิภาพสูงอย่างแท้จริง
เนื่องจากปริมาณข้อมูลยังคงเพิ่มขึ้นอย่างต่อเนื่องและความต้องการความหน่วงจึงเข้มงวดมากขึ้น ความมุ่งมั่นของ NVIDIA ในการพัฒนาเทคโนโลยีเครือข่ายทำให้มั่นใจได้ว่าโซลูชัน NIC ของพวกเขาจะยังคงอยู่ในระดับแนวหน้าของโครงสร้างพื้นฐานการประมวลผลประสิทธิภาพสูง
เรียนรู้เพิ่มเติมเกี่ยวกับความสามารถ NVIDIA NIC RDMA และ RoCE

