การวิเคราะห์สถาปัตยกรรมเครือข่ายการฝึกอบรมโมเดลขนาดใหญ่ AI ของ Mellanox

October 13, 2025

ข่าว บริษัท ล่าสุดเกี่ยวกับ การวิเคราะห์สถาปัตยกรรมเครือข่ายการฝึกอบรมโมเดลขนาดใหญ่ AI ของ Mellanox
การปฏิวัติการฝึกอบรมแบบจำลอง AI: Mellanox Infiniband Network Architecture สำหรับกลุ่ม GPU ขนาดใหญ่

ซานตาคลาร่าแคลิฟอร์เนีย- เนื่องจากโมเดลปัญญาประดิษฐ์มีขนาดและความซับซ้อนแบบทวีคูณอย่างทวีคูณสถาปัตยกรรมเครือข่ายแบบดั้งเดิมได้กลายเป็นคอขวดหลักในการฝึกอบรมแบบจำลอง AIประสิทธิภาพ. Nvidia'sMellanox Infinibandเทคโนโลยีกำลังจัดการกับความท้าทายนี้เครือข่าย GPUโครงสร้างพื้นฐานที่จำเป็นในการฝึกอบรมโมเดลรากฐานของวันพรุ่งนี้โดยไม่มีข้อ จำกัด ด้านการสื่อสาร

คอขวดเครือข่ายในการฝึกอบรม AI ที่ทันสมัย

วิวัฒนาการจากหลายล้านเป็นล้านล้านพารามิเตอร์ในแบบจำลองพื้นฐานได้เปลี่ยนข้อกำหนดสำหรับโครงสร้างพื้นฐานการฝึกอบรมโดยพื้นฐาน ในกรณีที่การคำนวณเคยเป็นปัจจัย จำกัด การขนานขนาดใหญ่ในปัจจุบันการฝึกอบรมแบบจำลอง AIเวิร์กโหลดถูก จำกัด ด้วยความสามารถในการซิงโครไนซ์การไล่ระดับสีและพารามิเตอร์ใน GPU นับพัน เครือข่ายอีเธอร์เน็ตมาตรฐานแนะนำข้อ จำกัด เวลาแฝงและแบนด์วิดท์ที่สำคัญซึ่งสามารถลดประสิทธิภาพของคลัสเตอร์โดยรวมให้น้อยกว่า 50% สำหรับงานฝึกอบรมขนาดใหญ่เครือข่าย GPUการแก้ปัญหาไม่เพียง แต่เป็นประโยชน์ แต่จำเป็น

Mellanox Infiniband: ข้อได้เปรียบทางสถาปัตยกรรมสำหรับเวิร์กโหลด AI

Mellanox Infinibandเทคโนโลยีให้ข้อได้เปรียบที่สำคัญหลายประการที่ทำให้เหมาะสำหรับสภาพแวดล้อมการฝึกอบรม AI ขนาดใหญ่:

  • เวลาแฝงต่ำเป็นพิเศษ:ด้วยเวลาแฝงตั้งแต่ต้นจนจบต่ำกว่า 600 นาโนวินาที Infiniband จะช่วยลดค่าใช้จ่ายในการสื่อสารที่ทำให้เกิดภัยพิบัติในการฝึกอบรมทำให้มั่นใจได้ว่า GPU ใช้เวลาในการคำนวณและรอเวลาน้อยลง
  • ความหนาแน่นแบนด์วิดท์สูง:NDR 400G Infiniband ให้ 400GB/s ต่อแบนด์วิดธ์พอร์ตทำให้การแลกเปลี่ยนข้อมูลไร้รอยต่อระหว่าง GPU และลดเวลาการดำเนินการลดทั้งหมดได้มากถึง 70% เมื่อเทียบกับทางเลือกอีเธอร์เน็ต
  • คอมพิวเตอร์ในเครือข่าย:เทคโนโลยีการรวมลำดับชั้นที่ปรับขนาดได้และเทคโนโลยีการลดลง (Sharp) ดำเนินการรวมตัวภายในสวิตช์เครือข่ายลดปริมาณข้อมูลที่ถ่ายโอนระหว่างโหนดและเร่งการดำเนินงานโดยรวม
  • การกำหนดเส้นทางแบบปรับตัว:การเลือกเส้นทางแบบไดนามิกช่วยให้มั่นใจได้ว่าการใช้แบนด์วิดท์ที่มีอยู่อย่างเหมาะสมและป้องกันความแออัดของเครือข่ายรักษาประสิทธิภาพที่สอดคล้องกันแม้ในช่วงระยะเวลาการสื่อสารสูงสุด
ผลกระทบด้านประสิทธิภาพเชิงปริมาณต่อประสิทธิภาพการฝึกอบรม

ความแตกต่างของประสิทธิภาพระหว่าง Infiniband และเทคโนโลยีทางเลือกมีความสำคัญมากขึ้นเรื่อย ๆ เมื่อขนาดของแบบจำลองและการเพิ่มขึ้นของสเกลคลัสเตอร์ ตารางต่อไปนี้แสดงให้เห็นถึงตัวชี้วัดประสิทธิภาพเปรียบเทียบสำหรับการฝึกอบรมโมเดลพารามิเตอร์ 100 พันล้านบนคลัสเตอร์ 512-GPU:

ตัวชี้วัดประสิทธิภาพ Mellanox ndr infiniband Ethernet 400 กรัมกับ ROCE การปรับปรุง
เวลาดำเนินการลดทั้งหมด 85 มิลลิวินาที 210 มิลลิวินาที เร็วกว่า 59%
ประสิทธิภาพของคลัสเตอร์ 92% 64% การใช้ประโยชน์สูงกว่า 28%
เวลาฝึกอบรม (เสร็จสิ้น 90%) 14.2 วัน 21.8 วัน ลดลง 35%
ประสิทธิภาพการใช้พลังงาน (PFLOPS/WATT) 18.4 12.1 การปรับปรุง 52%
การปรับใช้ในโลกแห่งความเป็นจริง: สถาบันวิจัย AI ชั้นนำ

ความเหนือกว่าของMellanox Infinibandสำหรับการฝึกอบรมแบบจำลอง AIแสดงให้เห็นโดยการยอมรับในสถาบันการวิจัย AI ชั้นนำและผู้ให้บริการคลาวด์ บริษัท เทคโนโลยีที่สำคัญได้รายงานว่ามีประสิทธิภาพในการปรับขนาดมากกว่า 90% เมื่อฝึกอบรมแบบจำลองภาษาขนาดใหญ่บนกลุ่มเกินกว่า 10,000 GPUs ที่เชื่อมต่อกับเทคโนโลยี Infiniband ประสิทธิภาพในระดับนี้ช่วยให้นักวิจัยสามารถวนซ้ำได้เร็วขึ้นและฝึกอบรมโมเดลขนาดใหญ่กว่าที่เป็นไปได้ก่อนหน้านี้โดยเร่งความเร็วของนวัตกรรม AI

โครงสร้างพื้นฐาน AI การพิสูจน์ในอนาคต

ในขณะที่โมเดล AI ยังคงเติบโตในขนาดและความซับซ้อนเครือข่ายจะมีบทบาทสำคัญมากขึ้นในการกำหนดประสิทธิภาพการฝึกอบรมMellanox Infinibandเทคโนโลยีกำลังพัฒนาไปแล้วเพื่อรองรับ 800 กรัมขึ้นไปเพื่อให้มั่นใจว่าโครงสร้างพื้นฐานเครือข่ายจะไม่กลายเป็นปัจจัย จำกัด ในความก้าวหน้าของ AI ในอนาคต การสนับสนุนโดยธรรมชาติของสถาปัตยกรรมสำหรับการคำนวณในเครือข่ายยังเป็นเส้นทางสำหรับการลดการทำงานร่วมกันที่ซับซ้อนยิ่งขึ้นในอนาคต

สรุป: เครือข่ายเป็นการลงทุน AI เชิงกลยุทธ์

สำหรับองค์กรที่จริงจังเกี่ยวกับการพัฒนาสถานะของปัญญาประดิษฐ์การลงทุนในโครงสร้างพื้นฐานเครือข่ายที่เหมาะสมมีความสำคัญเท่ากับการเลือก GPU ที่เหมาะสม ที่Mellanox Infinibandสถาปัตยกรรมให้ประสิทธิภาพความสามารถในการปรับขนาดและประสิทธิภาพที่จำเป็นในการเพิ่มผลตอบแทนจากการลงทุนโครงสร้างพื้นฐาน AI และเร่งการค้นพบเวลาต่อการค้นพบสำหรับการพัฒนา AI รุ่นต่อไป