ปัญหาคอขวดของเครือข่ายคลัสเตอร์การฝึกอบรม AI: โซลูชันของ Mellanox
October 1, 2025
วิเคราะห์อุตสาหกรรม:เนื่องจากโมเดลปัญญาประดิษฐ์ที่ปรับปรุงขึ้นอย่างรวดเร็วในความซับซ้อน โครงสร้างระบบเครือข่ายได้ปรากฏขึ้นในฐานะอุปสรรคที่สําคัญในกลุ่มการฝึกอบรมขนาดใหญ่เครือข่าย AIต้องการความกว้างแบนด์วิดที่ไม่เคยมีมาก่อน และความช้าระดับไมโครวินาที เพื่อให้ GPUs หลายพันชิ้น ทําหน้าที่ร่วมกันได้อย่างมีประสิทธิภาพบทความนี้พิจารณาวิธีการ Mellanox ของ InfiniBand และ Ethernet การแก้ไขการเชื่อมต่อระหว่างประเทศความช้าต่ําเทคโนโลยีที่จําเป็นที่จะกําจัดการสื่อสาร overhead และยกระดับผลิตภาพในขนาดใหญ่คลัสเตอร์ GPUการจัดจําหน่าย
การเปลี่ยนแปลงไปสู่รูปแบบปารามิเตอร์พันล้านได้เปลี่ยนการฝึกอบรม AI จากปัญหาที่เกี่ยวข้องกับการคํานวณ เป็นปัญหาที่เกี่ยวข้องกับการสื่อสารคลัสเตอร์ GPUในสภาพแวดล้อม, เวลาที่ใช้ในการสื่อสารระหว่างโน้ดในระหว่างการฝึกกระจายสามารถใช้มากกว่า 50% ของเวลาวงจรทั้งหมดเครือข่าย Ethernet แบบดั้งเดิมนํามาซึ่งความช้าและความจุกจุกที่สําคัญ, ทําให้ GPU ราคาแพงนั่งเฉยๆ ขณะที่รอการอัพเดทแกรเดียนและการปรับปรุงปารามิเตอร์ค่าใช้จ่ายในการสื่อสารนี้เป็นอุปสรรคที่ใหญ่ที่สุดในการบรรลุประสิทธิภาพในการปรับขนาดที่ดีที่สุดในเครือข่าย AIโครงสร้างพื้นฐาน มีผลต่อเวลาในการแก้ไขและค่าบริการรวมโดยตรง
Mellanox ตอบโจทย์กับโจทย์เหล่านี้เครือข่าย AI, รวมการนวัตกรรมด้านฮาร์ดแวร์และซอฟต์แวร์ที่ออกแบบโดยเฉพาะสําหรับสภาพแวดล้อมคอมพิวเตอร์ที่มีประสิทธิภาพสูงและเทคโนโลยีเครือข่ายที่กําหนดด้วยซอฟต์แวร์ที่ก้าวหน้า ที่ทํางานร่วมกันเพื่อกําจัดข้อตกลง.
- เทคโนโลยี InfiniBand HDR:ส่งความกว้างแบนด์วิท 200Gb/s ต่อพอร์ต ด้วยความช้าในการสลับที่ต่ํากว่า 600 นาโนวินาทีการเชื่อมต่อระหว่างประเทศความช้าต่ําสําหรับภาระการทํางานฝึกซ้อมที่ใช้การร่วมกันอย่างหนัก
- SHARP ในเครือข่ายคอมพิวเตอร์:เทคโนโลยีปฏิวัติที่ปล่อยการปฏิบัติงานรวม (All-Reduce, All-Gather) เข้าสู่สวิตช์เครือข่าย ลดเวลาในการสื่อสาร GPU ถึง 50%
- การปรับเปลี่ยนเส้นทาง:ปรับความสมดุลของจราจรผ่านเส้นทางหลายเส้นทางเพื่อป้องกันจุดร้อนและการจราจร, รับประกันผลงานที่คงที่ในช่วงช่วงสื่อสารสูงสุด
- เทคโนโลยี GPUDirect:ทําให้การเข้าถึงความจําโดยตรงระหว่าง GPUs ผ่านเซอร์เวอร์ที่แตกต่างกัน โดยเลี่ยงการมีส่วนร่วมของ CPU และลดความช้าในการสื่อสาร
การดําเนินงานของ Mellanox ได้ถูกปรับปรุงเครือข่าย AIโครงสร้างพื้นฐานให้ผลประโยชน์ในการประกอบงานที่สามารถวัดได้ ผ่านขนาดคลัสเตอร์และโครงสร้างแบบจําลองต่างๆ
| เมทริกการทํางาน | Ethernet มาตรฐาน | Mellanox InfiniBand กลาก | การปรับปรุง |
|---|---|---|---|
| All-Reduce Latency (256 node) ความช้าที่ลดลง | 450 μs | 85 μs | 81% ลด |
| ประสิทธิภาพการปรับขนาด (1024 GPU) | 55-65% | 90-95% | การปรับปรุง 50-60% |
| เวลาการฝึกอบรม (ResNet-50) | 6.8 ชั่วโมง | 3.2 ชั่วโมง | 53% เร็วขึ้น |
| อัตราการใช้งาน GPU | 60-70% | 92-98% | เพิ่มขึ้น 40-50% |
การปรับปรุงเหล่านี้แปลโดยตรงไปยังคุณค่าธุรกิจ: การทดลองแบบที่เร็วขึ้น, ค่าบริการในพื้นฐานลดลง และความสามารถในการแก้ไขปัญหาที่ซับซ้อนขึ้นภายในเวลาจํากัดเดียวกัน
องค์กรการวิจัย AI ที่นํานํามาใช้วิธีแก้ไข HDR InfiniBand ของ Mellanox สําหรับการฝึกแบบภาษาขนาดใหญ่ของคลาสเตอร์ 2048 GPU ของพวกเขาการเชื่อมต่อระหว่างประเทศความช้าต่ําทําให้พวกเขาสามารถสร้างประสิทธิภาพในการปรับขนาดได้ถึง 93% โดยลดเวลาในการฝึกสําหรับรุ่นปารามิเตอร์ 175 พันล้านจาก 42 วัน เป็นเพียง 19 วันกลไกการควบคุมความหนาแน่นที่ทันสมัยของคําตอบกําจัดการสูญเสียแพ็คเก็ตในช่วงระยะการสื่อสารทั้งหมดการรักษาผลงานที่คงที่ตลอดกระบวนการฝึกอบรมที่ขยาย
เมื่อรูปแบบ AI เติบโตต่อเนื่องในขนาดและความซับซ้อน ความต้องการเครือข่าย AIแผนการทางของ Mellanox ประกอบด้วยเทคโนโลยี 400G NDR InfiniBand และ 800G Ethernet เพื่อรับประกันว่าความกว้างแบนด์เวทของเครือข่ายจะยังคงเกินความต้องการในการคํานวณความมุ่งมั่นของบริษัทการเชื่อมต่อระหว่างประเทศความช้าต่ํานวัตกรรมให้ทางที่ชัดเจนสําหรับองค์กรที่จะปรับขนาดคลัสเตอร์ GPUการใช้งานโดยไม่พบกับข้อจํากัดของเครือข่าย
ในการแข่งขันเพื่อพัฒนาความสามารถ AI ที่ก้าวหน้า การทํางานของเครือข่ายได้กลายเป็นตัวแตกต่างที่สําคัญเครือข่าย AIโซลูชั่นเปลี่ยนเครือข่ายจากขัดขวาง เป็นข้อดีทางกลยุทธ์ ทําให้องค์กรสามารถผลิตผลตอบแทนจากการลงทุน GPU ได้สูงสุดและเร่งนวัตกรรมสําหรับธุรกิจใดก็ตามที่มีความจริงจังกับ AIการลงทุนในพื้นฐานเครือข่ายที่อุดมสมบูรณ์ ไม่ได้เป็นทางเลือกอีกต่อไป

