ปัญหาคอขวดของเครือข่ายคลัสเตอร์การฝึกอบรม AI: โซลูชันของ Mellanox

October 1, 2025

ข่าว บริษัท ล่าสุดเกี่ยวกับ ปัญหาคอขวดของเครือข่ายคลัสเตอร์การฝึกอบรม AI: โซลูชันของ Mellanox
การแก้ไขปัญหาของเครือข่าย AI Training Cluster: โซลูชั่นการเชื่อมต่อความสามารถสูงของ Mellanox

วิเคราะห์อุตสาหกรรม:เนื่องจากโมเดลปัญญาประดิษฐ์ที่ปรับปรุงขึ้นอย่างรวดเร็วในความซับซ้อน โครงสร้างระบบเครือข่ายได้ปรากฏขึ้นในฐานะอุปสรรคที่สําคัญในกลุ่มการฝึกอบรมขนาดใหญ่เครือข่าย AIต้องการความกว้างแบนด์วิดที่ไม่เคยมีมาก่อน และความช้าระดับไมโครวินาที เพื่อให้ GPUs หลายพันชิ้น ทําหน้าที่ร่วมกันได้อย่างมีประสิทธิภาพบทความนี้พิจารณาวิธีการ Mellanox ของ InfiniBand และ Ethernet การแก้ไขการเชื่อมต่อระหว่างประเทศความช้าต่ําเทคโนโลยีที่จําเป็นที่จะกําจัดการสื่อสาร overhead และยกระดับผลิตภาพในขนาดใหญ่คลัสเตอร์ GPUการจัดจําหน่าย

ความท้าทายของเครือข่ายในการฝึกอบรม AI ใหม่

การเปลี่ยนแปลงไปสู่รูปแบบปารามิเตอร์พันล้านได้เปลี่ยนการฝึกอบรม AI จากปัญหาที่เกี่ยวข้องกับการคํานวณ เป็นปัญหาที่เกี่ยวข้องกับการสื่อสารคลัสเตอร์ GPUในสภาพแวดล้อม, เวลาที่ใช้ในการสื่อสารระหว่างโน้ดในระหว่างการฝึกกระจายสามารถใช้มากกว่า 50% ของเวลาวงจรทั้งหมดเครือข่าย Ethernet แบบดั้งเดิมนํามาซึ่งความช้าและความจุกจุกที่สําคัญ, ทําให้ GPU ราคาแพงนั่งเฉยๆ ขณะที่รอการอัพเดทแกรเดียนและการปรับปรุงปารามิเตอร์ค่าใช้จ่ายในการสื่อสารนี้เป็นอุปสรรคที่ใหญ่ที่สุดในการบรรลุประสิทธิภาพในการปรับขนาดที่ดีที่สุดในเครือข่าย AIโครงสร้างพื้นฐาน มีผลต่อเวลาในการแก้ไขและค่าบริการรวมโดยตรง

สถาปัตยกรรมเครือข่าย AI ที่ครบวงจรของ Mellanox

Mellanox ตอบโจทย์กับโจทย์เหล่านี้เครือข่าย AI, รวมการนวัตกรรมด้านฮาร์ดแวร์และซอฟต์แวร์ที่ออกแบบโดยเฉพาะสําหรับสภาพแวดล้อมคอมพิวเตอร์ที่มีประสิทธิภาพสูงและเทคโนโลยีเครือข่ายที่กําหนดด้วยซอฟต์แวร์ที่ก้าวหน้า ที่ทํางานร่วมกันเพื่อกําจัดข้อตกลง.

  • เทคโนโลยี InfiniBand HDR:ส่งความกว้างแบนด์วิท 200Gb/s ต่อพอร์ต ด้วยความช้าในการสลับที่ต่ํากว่า 600 นาโนวินาทีการเชื่อมต่อระหว่างประเทศความช้าต่ําสําหรับภาระการทํางานฝึกซ้อมที่ใช้การร่วมกันอย่างหนัก
  • SHARP ในเครือข่ายคอมพิวเตอร์:เทคโนโลยีปฏิวัติที่ปล่อยการปฏิบัติงานรวม (All-Reduce, All-Gather) เข้าสู่สวิตช์เครือข่าย ลดเวลาในการสื่อสาร GPU ถึง 50%
  • การปรับเปลี่ยนเส้นทาง:ปรับความสมดุลของจราจรผ่านเส้นทางหลายเส้นทางเพื่อป้องกันจุดร้อนและการจราจร, รับประกันผลงานที่คงที่ในช่วงช่วงสื่อสารสูงสุด
  • เทคโนโลยี GPUDirect:ทําให้การเข้าถึงความจําโดยตรงระหว่าง GPUs ผ่านเซอร์เวอร์ที่แตกต่างกัน โดยเลี่ยงการมีส่วนร่วมของ CPU และลดความช้าในการสื่อสาร
การปรับปรุงผลประกอบการที่สามารถระบุได้

การดําเนินงานของ Mellanox ได้ถูกปรับปรุงเครือข่าย AIโครงสร้างพื้นฐานให้ผลประโยชน์ในการประกอบงานที่สามารถวัดได้ ผ่านขนาดคลัสเตอร์และโครงสร้างแบบจําลองต่างๆ

เมทริกการทํางาน Ethernet มาตรฐาน Mellanox InfiniBand กลาก การปรับปรุง
All-Reduce Latency (256 node) ความช้าที่ลดลง 450 μs 85 μs 81% ลด
ประสิทธิภาพการปรับขนาด (1024 GPU) 55-65% 90-95% การปรับปรุง 50-60%
เวลาการฝึกอบรม (ResNet-50) 6.8 ชั่วโมง 3.2 ชั่วโมง 53% เร็วขึ้น
อัตราการใช้งาน GPU 60-70% 92-98% เพิ่มขึ้น 40-50%

การปรับปรุงเหล่านี้แปลโดยตรงไปยังคุณค่าธุรกิจ: การทดลองแบบที่เร็วขึ้น, ค่าบริการในพื้นฐานลดลง และความสามารถในการแก้ไขปัญหาที่ซับซ้อนขึ้นภายในเวลาจํากัดเดียวกัน

การใช้งานในโลกจริง: การฝึกแบบภาษาขนาดใหญ่

องค์กรการวิจัย AI ที่นํานํามาใช้วิธีแก้ไข HDR InfiniBand ของ Mellanox สําหรับการฝึกแบบภาษาขนาดใหญ่ของคลาสเตอร์ 2048 GPU ของพวกเขาการเชื่อมต่อระหว่างประเทศความช้าต่ําทําให้พวกเขาสามารถสร้างประสิทธิภาพในการปรับขนาดได้ถึง 93% โดยลดเวลาในการฝึกสําหรับรุ่นปารามิเตอร์ 175 พันล้านจาก 42 วัน เป็นเพียง 19 วันกลไกการควบคุมความหนาแน่นที่ทันสมัยของคําตอบกําจัดการสูญเสียแพ็คเก็ตในช่วงระยะการสื่อสารทั้งหมดการรักษาผลงานที่คงที่ตลอดกระบวนการฝึกอบรมที่ขยาย

การลงทุนในพื้นฐาน AI ที่มีความมั่นคงต่ออนาคต

เมื่อรูปแบบ AI เติบโตต่อเนื่องในขนาดและความซับซ้อน ความต้องการเครือข่าย AIแผนการทางของ Mellanox ประกอบด้วยเทคโนโลยี 400G NDR InfiniBand และ 800G Ethernet เพื่อรับประกันว่าความกว้างแบนด์เวทของเครือข่ายจะยังคงเกินความต้องการในการคํานวณความมุ่งมั่นของบริษัทการเชื่อมต่อระหว่างประเทศความช้าต่ํานวัตกรรมให้ทางที่ชัดเจนสําหรับองค์กรที่จะปรับขนาดคลัสเตอร์ GPUการใช้งานโดยไม่พบกับข้อจํากัดของเครือข่าย

สรุป: เครือข่ายเป็นทรัพย์สินทางกลยุทธ์ของ AI

ในการแข่งขันเพื่อพัฒนาความสามารถ AI ที่ก้าวหน้า การทํางานของเครือข่ายได้กลายเป็นตัวแตกต่างที่สําคัญเครือข่าย AIโซลูชั่นเปลี่ยนเครือข่ายจากขัดขวาง เป็นข้อดีทางกลยุทธ์ ทําให้องค์กรสามารถผลิตผลตอบแทนจากการลงทุน GPU ได้สูงสุดและเร่งนวัตกรรมสําหรับธุรกิจใดก็ตามที่มีความจริงจังกับ AIการลงทุนในพื้นฐานเครือข่ายที่อุดมสมบูรณ์ ไม่ได้เป็นทางเลือกอีกต่อไป