ปัญหาคอขวดของเครือข่ายคลัสเตอร์การฝึกอบรม AI: โซลูชันของ Mellanox
September 16, 2025
การเปิดตัวศักยภาพของ AI: Mellanox ชนะช่องทางขัดขวางในเครือข่ายใน GPU Cluster ขนาดใหญ่
นําการชาร์จในความสามารถสูงเครือข่าย AI, Mellanox เทคโนโลยี ตอนนี้เป็นส่วนหนึ่งของ NVIDIA,เปิดเผยทางด้าน InfiniBand และ Ethernet ที่เป็นทางออกที่ครบวงจร และถูกออกแบบมาเพื่อกําจัดข้อขัดขวางข้อมูล และยกระดับประสิทธิภาพการคํานวณในกลุ่มฝึกอบรม AI รุ่นใหม่.ในขณะที่รูปแบบเติบโตเป็นหลายพันล้านปารามิเตอร์ โครงสร้างระบบเครือข่ายแบบดั้งเดิมกําลังล้มเหลวการเชื่อมต่อระหว่างประเทศความช้าต่ําเทคโนโลยีที่ทําให้แน่ใจว่าไม่มี GPU ที่รอข้อมูล
ความเจ็บปวดที่เติบโตของการฝึกอบรม AI: เครือข่ายเป็นช่องทาง
การฝึกอบรม AI ที่ทันสมัยพึ่งพาการขยายตัวคลัสเตอร์ GPUสภาพแวดล้อมบางครั้งประกอบด้วยหลายพันโน้ต ข้อมูลของอุตสาหกรรมชี้ให้เห็นว่าในกลุ่มดังกล่าวแทนที่จะใช้การคํานวณเองความไม่ประสิทธิภาพนี้แปลโดยตรงเป็นเวลาการฝึกอบรมที่เพิ่มขึ้น ค่าใช้จ่ายในการดําเนินงานที่สูงขึ้น (เช่นการบริโภคพลังงาน) และวงจรนวัตกรรมที่ช้าลงผู้กระทําผิดหลักมักจะเป็นเนื้อเยื่อของเครือข่ายซึ่งไม่สามารถติดตามความเร็วของข้อมูลที่มากมายที่ต้องการจากอัลการิทึมการฝึกซ้อมแบบคู่เคียงได้
การแก้ไขของเมลลาน็อกซ์: ผ้าที่สร้างขึ้นเพื่อ AI
แนวทางของ Mellanox คือการปฏิบัติกับเครือข่าย ไม่ใช่แค่เนื้อเยื่อเชื่อม แต่เป็นองค์ประกอบที่มีความรู้และยุทธศาสตร์ของสถาปัตยกรรมคอมพิวเตอร์
- อัลตราล็อคเทนตี้:การลดความช้าในการสื่อสารเป็นไมโครเซกอนด์คลัสเตอร์ GPU.
- ความกว้างของแบนด์บิดสูงสุด:ให้บริการถึง 400Gb / s (และมากกว่า) ต่อพอร์ต เพื่อจัดการกับการไหลของข้อมูลขนาดใหญ่ระหว่างโน้ดโดยไม่ต้องมีความจุกจุก
- การคํานวณในเครือข่ายที่ก้าวหน้าการลดอัตราการดําเนินงานรวม (เช่น เทคโนโลยี SHARP) จาก GPU ไปยังสวิตช์เครือข่าย, ปลดปล่อยวงจร GPU ที่มีค่าสําหรับงานคํานวณหลัก
การเพิ่มผลประกอบการที่สามารถปรับปริมาณได้ในการจัดจําหน่ายในโลกจริง
ประสิทธิภาพของ Mellanoxเครือข่าย AIเทคโนโลยีที่พิสูจน์ในสภาพแวดล้อมการผลิตตารางต่อไปนี้สรุปเมตรการทํางานที่สังเกตในกลุ่มการฝึกแบบภาษาขนาดใหญ่ ก่อนและหลังการปรับปรุงเนื้อหาเครือข่ายไปยัง Mellanox InfiniBand.
| เมทริก | เนื้อผ้า Ethernet แบบดั้งเดิม | แผ่น Mellanox InfiniBand | การปรับปรุง |
|---|---|---|---|
| อัตราเฉลี่ยของเวลาในการเสร็จสิ้นงานฝึกอบรม | 120 ชั่วโมง | 82 ชั่วโมง | ~32% ลด |
| ประสิทธิภาพการคํานวณ GPU (การใช้งาน) | 65% | 92% | +27 คะแนน |
| ความช้าในการสื่อสารระหว่างหน่วย | 1.8 ms | 0.6 ms | ~ 67% การลด |
สรุปและคุณค่ายุทธศาสตร์
สําหรับธุรกิจและสถาบันวิจัยที่ลงทุนหลายล้านในพื้นฐาน AI เครือข่ายไม่สามารถเป็นความคิดในภายหลังอีกต่อไประดับการกําหนดผลงานที่รับประกันผลตอบแทนสูงสุดจากการลงทุนสําหรับทรัพยากรการคํานวณ GPU ที่แพงโดยการใช้เครื่องมือที่สร้างขึ้นเพื่อการเชื่อมต่อระหว่างประเทศความช้าต่ํา, องค์กรสามารถเร่งเวลาในการแก้ไขให้กับรุ่น AI ได้อย่างสําคัญ ลดต้นทุนการครอบครองทั้งหมด และเปิดทางให้กับการจัดการกับปัญหา AI ที่ซับซ้อนยิ่งกว่าที่รออยู่
ทําขั้นตอนต่อไปในการปรับปรุงพื้นฐาน AI ของคุณ
เครือข่ายของคุณพร้อมสําหรับรุ่นต่อไปของ AI ไหม? ติดต่อเราวันนี้สําหรับการประเมินสถาปัตยกรรมที่บุคคลิปและค้นพบวิธีการของเราเครือข่าย AIการแก้ไขสามารถเปลี่ยนผลงานและประสิทธิภาพของกลุ่มของคุณได้

