โซลูชันอะแดปเตอร์เครือข่าย NVIDIA: สถาปัตยกรรม RDMA และ RoCE สำหรับการเพิ่มประสิทธิภาพการส่งข้อมูลที่มีความหน่วงต่ำ
October 15, 2025
ในสภาพแวดล้อมคอมพิวเตอร์ที่ใช้ข้อมูลมากในปัจจุบัน โปรต็อกอลเครือข่ายแบบดั้งเดิมสร้างอุปสรรคที่สําคัญสําหรับการใช้งานที่มีประสิทธิภาพสูงการแก้ไขตัวปรับเครือข่ายของ NVIDIA ด้วยเทคโนโลยี RDMA และ RoCE ให้การปรับปรุงการทํางานที่สําคัญสําหรับศูนย์ข้อมูลที่ทันสมัยและภาระงาน AI.
ในขณะที่องค์กรใช้รุ่น AI ที่ซับซ้อนมากขึ้น และภาระงานวิเคราะห์ข้อมูล สตั๊กเครือข่าย TCP/IP ปกตินําไปใช้งานในส่วนใหญ่ที่จํากัดการทํางานของแอปพลิเคชั่นข้อจํากัดหลัก ๆ ได้แก่:
- CPU overhead จากการประมวลผลโปรโตคอลเครือข่าย
- ความจํากัดความกว้างแบนด์วิทของความจําระหว่างการโอนข้อมูล
- ความช้าในการใช้งานเนื่องจากความช้าของสเตคเครือข่าย
- ข้อจํากัดในการปรับขนาดในการจัดจําหน่ายขนาดใหญ่
Remote Direct Memory Access (RDMA) ทําให้การถ่ายทอดข้อมูลจากความจําสู่ความจําโดยตรงระหว่างระบบได้โดยไม่ต้องเกี่ยวข้องกับระบบปฏิบัติการหรือโปรเซสเซอร์
- การถ่ายทอดข้อมูลแบบไม่มีสําเนา โดยกําจัดสําเนาในพัฟเฟอร์
- การเลี่ยงเคอร์เนลเพื่อลดการใช้งาน CPU
- การสื่อสารระหว่างแอพพลิเคชั่นที่มีความช้าต่ําสุด
- ความสามารถในการประมวลผลความเร็วข้อความสูง
RoCE ขยายประโยชน์ RDMA ไปยังเครือข่าย Ethernet มาตรฐาน ทําให้เครือข่ายที่มีประสิทธิภาพสูงเข้าถึงได้โดยไม่ต้องใช้พื้นฐานพิเศษ
- RoCE v2 สําหรับการนําทางผ่านเครือข่ายชั้น 3
- กลไกการควบคุมความหนาแน่นที่พัฒนา
- การจัดลําดับความสําคัญของคุณภาพบริการ (QoS)
- การบูรณาการแบบเรียบร้อยกับพื้นฐาน Ethernet ที่มีอยู่
NVIDIA เครื่องปรับเครือข่ายที่มี RDMA และ RoCE แสดงผลการปรับปรุงการทํางานที่สําคัญในหลายกรณีการใช้งาน:
สถานการณ์การใช้งาน | Ethernet แบบดั้งเดิม | NVIDIA RDMA/RoCE | การปรับปรุง |
---|---|---|---|
การสื่อสารการฝึกอบรม AI | 85-120 ไมโครวินาที | 10.2-1.8 ไมโครเซกอนด์ | ~98% ลด |
ความช้าในการเข้าถึงการเก็บข้อมูล | 45-65 ไมโครวินาที | 00.8-1.5 ไมโครวินาที | ~ 97% ลด |
การใช้ CPU | 25-40% ต่อท่าเรือ | 1-3% ต่อท่าเรือ | ~ 90% ลด |
การแก้ไขระบบเครือข่าย NVIDIA รวมส่วนประกอบของฮาร์ดแวร์และซอฟต์แวร์ เพื่อให้เกิดผลงานที่ดีที่สุด:
- เครื่องปรับเครือข่ายซีรีส์ ConnectX พร้อมอาการลดฮาร์ดแวร์
- DPU BlueField สําหรับการประมวลผลและความปลอดภัยที่บูรณาการ
- ไดรเวอร์ NVIDIA และ SDK สําหรับการบูรณาการแอปพลิเคชั่น
- เครื่องมือการจัดการสําหรับการใช้งานและการติดตาม
การนํา NVIDIA RDMA และ RoCE มาใช้อย่างสําเร็จต้องมีการวางแผนอย่างละเอียด:
- พื้นฐานเครือข่ายที่รองรับ DCB และ PFC
- การตั้งค่า QoS ที่เหมาะสมสําหรับ Ethernet ที่ไม่มีการสูญเสีย
- การปรับปรุงการใช้งานสําหรับ RDMA semantics
- ขั้นตอนการทดสอบและรับรองที่ครบวงจร
โซลูชั่นแอดป์เตอร์เครือข่ายของ NVIDIA ด้วยเทคโนโลยี RDMA และ RoCE เป็นรากฐานสําหรับพื้นฐานเครือข่ายที่มีประสิทธิภาพสูงรุ่นต่อไปเทคโนโลยีเหล่านี้ทําให้องค์กรสามารถเอาชนะข้อจํากัดของเครือข่ายแบบดั้งเดิม และปลดปล่อยศักยภาพเต็มของการลงทุนในด้านคอมพิวเตอร์.เพิ่มเติมเกี่ยวกับการนํามาใช้ในสิ่งแวดล้อมของคุณ