การวิเคราะห์สถาปัตยกรรมเครือข่ายการฝึกอบรมโมเดลขนาดใหญ่ AI ของ Mellanox
October 13, 2025
ซานตาคลาร่าแคลิฟอร์เนีย- เนื่องจากโมเดลปัญญาประดิษฐ์มีขนาดและความซับซ้อนแบบทวีคูณอย่างทวีคูณสถาปัตยกรรมเครือข่ายแบบดั้งเดิมได้กลายเป็นคอขวดหลักในการฝึกอบรมแบบจำลอง AIประสิทธิภาพ. Nvidia'sMellanox Infinibandเทคโนโลยีกำลังจัดการกับความท้าทายนี้เครือข่าย GPUโครงสร้างพื้นฐานที่จำเป็นในการฝึกอบรมโมเดลรากฐานของวันพรุ่งนี้โดยไม่มีข้อ จำกัด ด้านการสื่อสาร
วิวัฒนาการจากหลายล้านเป็นล้านล้านพารามิเตอร์ในแบบจำลองพื้นฐานได้เปลี่ยนข้อกำหนดสำหรับโครงสร้างพื้นฐานการฝึกอบรมโดยพื้นฐาน ในกรณีที่การคำนวณเคยเป็นปัจจัย จำกัด การขนานขนาดใหญ่ในปัจจุบันการฝึกอบรมแบบจำลอง AIเวิร์กโหลดถูก จำกัด ด้วยความสามารถในการซิงโครไนซ์การไล่ระดับสีและพารามิเตอร์ใน GPU นับพัน เครือข่ายอีเธอร์เน็ตมาตรฐานแนะนำข้อ จำกัด เวลาแฝงและแบนด์วิดท์ที่สำคัญซึ่งสามารถลดประสิทธิภาพของคลัสเตอร์โดยรวมให้น้อยกว่า 50% สำหรับงานฝึกอบรมขนาดใหญ่เครือข่าย GPUการแก้ปัญหาไม่เพียง แต่เป็นประโยชน์ แต่จำเป็น
Mellanox Infinibandเทคโนโลยีให้ข้อได้เปรียบที่สำคัญหลายประการที่ทำให้เหมาะสำหรับสภาพแวดล้อมการฝึกอบรม AI ขนาดใหญ่:
- เวลาแฝงต่ำเป็นพิเศษ:ด้วยเวลาแฝงตั้งแต่ต้นจนจบต่ำกว่า 600 นาโนวินาที Infiniband จะช่วยลดค่าใช้จ่ายในการสื่อสารที่ทำให้เกิดภัยพิบัติในการฝึกอบรมทำให้มั่นใจได้ว่า GPU ใช้เวลาในการคำนวณและรอเวลาน้อยลง
- ความหนาแน่นแบนด์วิดท์สูง:NDR 400G Infiniband ให้ 400GB/s ต่อแบนด์วิดธ์พอร์ตทำให้การแลกเปลี่ยนข้อมูลไร้รอยต่อระหว่าง GPU และลดเวลาการดำเนินการลดทั้งหมดได้มากถึง 70% เมื่อเทียบกับทางเลือกอีเธอร์เน็ต
- คอมพิวเตอร์ในเครือข่าย:เทคโนโลยีการรวมลำดับชั้นที่ปรับขนาดได้และเทคโนโลยีการลดลง (Sharp) ดำเนินการรวมตัวภายในสวิตช์เครือข่ายลดปริมาณข้อมูลที่ถ่ายโอนระหว่างโหนดและเร่งการดำเนินงานโดยรวม
- การกำหนดเส้นทางแบบปรับตัว:การเลือกเส้นทางแบบไดนามิกช่วยให้มั่นใจได้ว่าการใช้แบนด์วิดท์ที่มีอยู่อย่างเหมาะสมและป้องกันความแออัดของเครือข่ายรักษาประสิทธิภาพที่สอดคล้องกันแม้ในช่วงระยะเวลาการสื่อสารสูงสุด
ความแตกต่างของประสิทธิภาพระหว่าง Infiniband และเทคโนโลยีทางเลือกมีความสำคัญมากขึ้นเรื่อย ๆ เมื่อขนาดของแบบจำลองและการเพิ่มขึ้นของสเกลคลัสเตอร์ ตารางต่อไปนี้แสดงให้เห็นถึงตัวชี้วัดประสิทธิภาพเปรียบเทียบสำหรับการฝึกอบรมโมเดลพารามิเตอร์ 100 พันล้านบนคลัสเตอร์ 512-GPU:
| ตัวชี้วัดประสิทธิภาพ | Mellanox ndr infiniband | Ethernet 400 กรัมกับ ROCE | การปรับปรุง |
|---|---|---|---|
| เวลาดำเนินการลดทั้งหมด | 85 มิลลิวินาที | 210 มิลลิวินาที | เร็วกว่า 59% |
| ประสิทธิภาพของคลัสเตอร์ | 92% | 64% | การใช้ประโยชน์สูงกว่า 28% |
| เวลาฝึกอบรม (เสร็จสิ้น 90%) | 14.2 วัน | 21.8 วัน | ลดลง 35% |
| ประสิทธิภาพการใช้พลังงาน (PFLOPS/WATT) | 18.4 | 12.1 | การปรับปรุง 52% |
ความเหนือกว่าของMellanox Infinibandสำหรับการฝึกอบรมแบบจำลอง AIแสดงให้เห็นโดยการยอมรับในสถาบันการวิจัย AI ชั้นนำและผู้ให้บริการคลาวด์ บริษัท เทคโนโลยีที่สำคัญได้รายงานว่ามีประสิทธิภาพในการปรับขนาดมากกว่า 90% เมื่อฝึกอบรมแบบจำลองภาษาขนาดใหญ่บนกลุ่มเกินกว่า 10,000 GPUs ที่เชื่อมต่อกับเทคโนโลยี Infiniband ประสิทธิภาพในระดับนี้ช่วยให้นักวิจัยสามารถวนซ้ำได้เร็วขึ้นและฝึกอบรมโมเดลขนาดใหญ่กว่าที่เป็นไปได้ก่อนหน้านี้โดยเร่งความเร็วของนวัตกรรม AI
ในขณะที่โมเดล AI ยังคงเติบโตในขนาดและความซับซ้อนเครือข่ายจะมีบทบาทสำคัญมากขึ้นในการกำหนดประสิทธิภาพการฝึกอบรมMellanox Infinibandเทคโนโลยีกำลังพัฒนาไปแล้วเพื่อรองรับ 800 กรัมขึ้นไปเพื่อให้มั่นใจว่าโครงสร้างพื้นฐานเครือข่ายจะไม่กลายเป็นปัจจัย จำกัด ในความก้าวหน้าของ AI ในอนาคต การสนับสนุนโดยธรรมชาติของสถาปัตยกรรมสำหรับการคำนวณในเครือข่ายยังเป็นเส้นทางสำหรับการลดการทำงานร่วมกันที่ซับซ้อนยิ่งขึ้นในอนาคต
สำหรับองค์กรที่จริงจังเกี่ยวกับการพัฒนาสถานะของปัญญาประดิษฐ์การลงทุนในโครงสร้างพื้นฐานเครือข่ายที่เหมาะสมมีความสำคัญเท่ากับการเลือก GPU ที่เหมาะสม ที่Mellanox Infinibandสถาปัตยกรรมให้ประสิทธิภาพความสามารถในการปรับขนาดและประสิทธิภาพที่จำเป็นในการเพิ่มผลตอบแทนจากการลงทุนโครงสร้างพื้นฐาน AI และเร่งการค้นพบเวลาต่อการค้นพบสำหรับการพัฒนา AI รุ่นต่อไป

