โซลูชั่นเครือข่าย AI: Mellanox Low Latency Interconnect สําหรับการปรับปรุงผลงาน GPU Cluster

ปัญหาคอขวดของเครือข่ายคลัสเตอร์การฝึกอบรม AI: โซลูชันของ Mellanox

October 1, 2025

การแก้ไขปัญหาของเครือข่าย AI Training Cluster: โซลูชั่นการเชื่อมต่อความสามารถสูงของ Mellanox

วิเคราะห์อุตสาหกรรม:เนื่องจากโมเดลปัญญาประดิษฐ์ที่ปรับปรุงขึ้นอย่างรวดเร็วในความซับซ้อน โครงสร้างระบบเครือข่ายได้ปรากฏขึ้นในฐานะอุปสรรคที่สําคัญในกลุ่มการฝึกอบรมขนาดใหญ่เครือข่าย AIต้องการความกว้างแบนด์วิดที่ไม่เคยมีมาก่อน และความช้าระดับไมโครวินาที เพื่อให้ GPUs หลายพันชิ้น ทําหน้าที่ร่วมกันได้อย่างมีประสิทธิภาพบทความนี้พิจารณาวิธีการ Mellanox ของ InfiniBand และ Ethernet การแก้ไขการเชื่อมต่อระหว่างประเทศความช้าต่ําเทคโนโลยีที่จําเป็นที่จะกําจัดการสื่อสาร overhead และยกระดับผลิตภาพในขนาดใหญ่คลัสเตอร์ GPUการจัดจําหน่าย

ความท้าทายของเครือข่ายในการฝึกอบรม AI ใหม่

การเปลี่ยนแปลงไปสู่รูปแบบปารามิเตอร์พันล้านได้เปลี่ยนการฝึกอบรม AI จากปัญหาที่เกี่ยวข้องกับการคํานวณ เป็นปัญหาที่เกี่ยวข้องกับการสื่อสารคลัสเตอร์ GPUในสภาพแวดล้อม, เวลาที่ใช้ในการสื่อสารระหว่างโน้ดในระหว่างการฝึกกระจายสามารถใช้มากกว่า 50% ของเวลาวงจรทั้งหมดเครือข่าย Ethernet แบบดั้งเดิมนํามาซึ่งความช้าและความจุกจุกที่สําคัญ, ทําให้ GPU ราคาแพงนั่งเฉยๆ ขณะที่รอการอัพเดทแกรเดียนและการปรับปรุงปารามิเตอร์ค่าใช้จ่ายในการสื่อสารนี้เป็นอุปสรรคที่ใหญ่ที่สุดในการบรรลุประสิทธิภาพในการปรับขนาดที่ดีที่สุดในเครือข่าย AIโครงสร้างพื้นฐาน มีผลต่อเวลาในการแก้ไขและค่าบริการรวมโดยตรง

สถาปัตยกรรมเครือข่าย AI ที่ครบวงจรของ Mellanox

Mellanox ตอบโจทย์กับโจทย์เหล่านี้เครือข่าย AI, รวมการนวัตกรรมด้านฮาร์ดแวร์และซอฟต์แวร์ที่ออกแบบโดยเฉพาะสําหรับสภาพแวดล้อมคอมพิวเตอร์ที่มีประสิทธิภาพสูงและเทคโนโลยีเครือข่ายที่กําหนดด้วยซอฟต์แวร์ที่ก้าวหน้า ที่ทํางานร่วมกันเพื่อกําจัดข้อตกลง.

เทคโนโลยี InfiniBand HDR:ส่งความกว้างแบนด์วิท 200Gb/s ต่อพอร์ต ด้วยความช้าในการสลับที่ต่ํากว่า 600 นาโนวินาทีการเชื่อมต่อระหว่างประเทศความช้าต่ําสําหรับภาระการทํางานฝึกซ้อมที่ใช้การร่วมกันอย่างหนัก
SHARP ในเครือข่ายคอมพิวเตอร์:เทคโนโลยีปฏิวัติที่ปล่อยการปฏิบัติงานรวม (All-Reduce, All-Gather) เข้าสู่สวิตช์เครือข่าย ลดเวลาในการสื่อสาร GPU ถึง 50%
การปรับเปลี่ยนเส้นทาง:ปรับความสมดุลของจราจรผ่านเส้นทางหลายเส้นทางเพื่อป้องกันจุดร้อนและการจราจร, รับประกันผลงานที่คงที่ในช่วงช่วงสื่อสารสูงสุด
เทคโนโลยี GPUDirect:ทําให้การเข้าถึงความจําโดยตรงระหว่าง GPUs ผ่านเซอร์เวอร์ที่แตกต่างกัน โดยเลี่ยงการมีส่วนร่วมของ CPU และลดความช้าในการสื่อสาร

การปรับปรุงผลประกอบการที่สามารถระบุได้

การดําเนินงานของ Mellanox ได้ถูกปรับปรุงเครือข่าย AIโครงสร้างพื้นฐานให้ผลประโยชน์ในการประกอบงานที่สามารถวัดได้ ผ่านขนาดคลัสเตอร์และโครงสร้างแบบจําลองต่างๆ

เมทริกการทํางาน	Ethernet มาตรฐาน	Mellanox InfiniBand กลาก	การปรับปรุง
All-Reduce Latency (256 node) ความช้าที่ลดลง	450 μs	85 μs	81% ลด
ประสิทธิภาพการปรับขนาด (1024 GPU)	55-65%	90-95%	การปรับปรุง 50-60%
เวลาการฝึกอบรม (ResNet-50)	6.8 ชั่วโมง	3.2 ชั่วโมง	53% เร็วขึ้น
อัตราการใช้งาน GPU	60-70%	92-98%	เพิ่มขึ้น 40-50%

การปรับปรุงเหล่านี้แปลโดยตรงไปยังคุณค่าธุรกิจ: การทดลองแบบที่เร็วขึ้น, ค่าบริการในพื้นฐานลดลง และความสามารถในการแก้ไขปัญหาที่ซับซ้อนขึ้นภายในเวลาจํากัดเดียวกัน

การใช้งานในโลกจริง: การฝึกแบบภาษาขนาดใหญ่

องค์กรการวิจัย AI ที่นํานํามาใช้วิธีแก้ไข HDR InfiniBand ของ Mellanox สําหรับการฝึกแบบภาษาขนาดใหญ่ของคลาสเตอร์ 2048 GPU ของพวกเขาการเชื่อมต่อระหว่างประเทศความช้าต่ําทําให้พวกเขาสามารถสร้างประสิทธิภาพในการปรับขนาดได้ถึง 93% โดยลดเวลาในการฝึกสําหรับรุ่นปารามิเตอร์ 175 พันล้านจาก 42 วัน เป็นเพียง 19 วันกลไกการควบคุมความหนาแน่นที่ทันสมัยของคําตอบกําจัดการสูญเสียแพ็คเก็ตในช่วงระยะการสื่อสารทั้งหมดการรักษาผลงานที่คงที่ตลอดกระบวนการฝึกอบรมที่ขยาย

การลงทุนในพื้นฐาน AI ที่มีความมั่นคงต่ออนาคต

เมื่อรูปแบบ AI เติบโตต่อเนื่องในขนาดและความซับซ้อน ความต้องการเครือข่าย AIแผนการทางของ Mellanox ประกอบด้วยเทคโนโลยี 400G NDR InfiniBand และ 800G Ethernet เพื่อรับประกันว่าความกว้างแบนด์เวทของเครือข่ายจะยังคงเกินความต้องการในการคํานวณความมุ่งมั่นของบริษัทการเชื่อมต่อระหว่างประเทศความช้าต่ํานวัตกรรมให้ทางที่ชัดเจนสําหรับองค์กรที่จะปรับขนาดคลัสเตอร์ GPUการใช้งานโดยไม่พบกับข้อจํากัดของเครือข่าย

สรุป: เครือข่ายเป็นทรัพย์สินทางกลยุทธ์ของ AI

ในการแข่งขันเพื่อพัฒนาความสามารถ AI ที่ก้าวหน้า การทํางานของเครือข่ายได้กลายเป็นตัวแตกต่างที่สําคัญเครือข่าย AIโซลูชั่นเปลี่ยนเครือข่ายจากขัดขวาง เป็นข้อดีทางกลยุทธ์ ทําให้องค์กรสามารถผลิตผลตอบแทนจากการลงทุน GPU ได้สูงสุดและเร่งนวัตกรรมสําหรับธุรกิจใดก็ตามที่มีความจริงจังกับ AIการลงทุนในพื้นฐานเครือข่ายที่อุดมสมบูรณ์ ไม่ได้เป็นทางเลือกอีกต่อไป