ปัญหาคอขวดของเครือข่ายคลัสเตอร์การฝึกอบรม AI: โซลูชัน Mellanox สำหรับเครือข่ายคลัสเตอร์ GPU

สะกดทางเครือข่ายในกลุ่มฝึกอบรม AI: การแก้ไขจาก Mellanox

October 8, 2025

การแก้ไขปัญหาเครือข่าย AI Training Cluster: โซลูชั่นเครือข่ายที่มีประสิทธิภาพสูงของ Mellanox

ซานตาคลารา คาลิฟอร์เนียในขณะที่รูปแบบของความฉลาดประดิษฐ์เพิ่มขนาดและความซับซ้อนอย่างรวดเร็ว เครือข่ายศูนย์ข้อมูลแบบดั้งเดิมกําลังกลายเป็นอุปสรรคหลักในการฝึกอบรมความสามารถของ AIรูปแบบภาษาขนาดใหญ่และสถาปัตยกรรมการเรียนรู้ลึกที่ทันสมัยต้องการการสื่อสารที่เรียบร้อยผ่าน GPUs หลายพันMellanox Technologies, ตอนนี้เป็นส่วนหนึ่งของ NVIDIA ตอบโจทย์กับปัญหาเหล่านี้เครือข่าย AIการแก้ไขที่ออกแบบมาเพื่อกําจัดข้อขัดขวางในคลัสเตอร์ GPUการจัดจําหน่ายที่ทําให้นักวิจัยและบริษัทสามารถบรรลุผลการฝึกอบรมที่ไม่เคยมีมาก่อนการเชื่อมต่อระหว่างประเทศความช้าต่ําเทคโนโลยี

สะดวกในการเชื่อมโยงเครือข่าย AI: เมื่อ GPU คอยใช้ข้อมูล

ในการฝึกอบรม AI ที่กระจายตัว ลักษณะของงานที่คบกัน ระหว่างแอกเซลเลอเตอร์หลายร้อยหรือหลายพันแอกเซลเลอเตอร์ หมายความว่า การสื่อสารระหว่างโน้ดที่ช้าช้า จะส่งผลกระทบต่อเวลาในการเสร็จสิ้นงานโดยตรงระหว่างการฝึกทุกครั้ง, การปรับปรุงความถี่ต้องถูกปรับปรุงให้ตรงกันข้ามกับผู้ทํางานทั้งหมดปัญหาก็ยิ่งแย่ขึ้น เมื่อปารามิเตอร์ของโมเดลเพิ่มขึ้นเป็นพันล้านการศึกษาแสดงให้เห็นว่า เพียงการเพิ่มความช้า 100 ไมโครเซกอนด์คลัสเตอร์ GPUสามารถลดประสิทธิภาพการฝึกอบรมโดยรวมได้ถึง 15% ซึ่งแปลว่า ค่าคอมพิวเตอร์ที่สูงขึ้นมากและเวลาการแก้ไขที่ยาวนานสําหรับนโยบาย AI ที่สําคัญ

สถาปัตยกรรมเครือข่ายที่ปรับปรุงด้วย AI ของ Mellanox

Mellanox กําลังเข้าใกล้เครือข่าย AIการท้าทายผ่านสถาปัตยกรรมที่ครบถ้วนที่ออกแบบโดยเฉพาะสําหรับรูปแบบการสื่อสารที่โดดเด่นของภาระงาน AI ที่กระจายการแก้ไขรวมฮาร์ดแวร์ที่ทันสมัยกับซอฟต์แวร์ที่ฉลาด เพื่อสร้างองค์ประกอบการคํานวณที่เรียบร้อย.

InfiniBand ด้วยเทคโนโลยี SHARP:โปรต็อกอลการรวมและลดระดับระดับระดับที่สามารถปรับขนาดได้ (SHARP) ทําการคํานวณในเครือข่าย, การลดอัตราการทํางานจากเซอร์เวอร์ GPU ไปยังสวิทช์เครือข่ายเอง.แนวทางปฏิวัตินี้กําจัดการโอนข้อมูลหลายครั้งระหว่างโน้ต, เร่งการดําเนินงานร่วมกันอย่างรวดเร็ว
RDMA การสื่อสารเร่ง:Remote Direct Memory Access ทําให้ GPU สามารถแลกเปลี่ยนข้อมูลโดยตรงกับ GPU คู่มือทั่วเครือข่ายโดยมีส่วนร่วมของ CPU อย่างน้อย ลดความช้า และปลดปล่อยโปรเซสเซอร์โฮสต์สําหรับงานคํานวณ
การปรับเปลี่ยนเส้นทางและการควบคุมความจุกจูงอัลกอริทึมที่ฉลาดจะนําการจราจรไปรอบจุดร้อนอย่างไดนามิค และจัดการความจุกจุก ก่อนที่มันจะส่งผลกระทบต่อการทํางาน โดยรักษาความสามารถในการจราจรที่คงที่ แม้กระทั่งในช่วงระยะสูงสุดของการสื่อสาร
เทคโนโลยี GPU Multi-Host:สามารถเชื่อมต่อเซอร์เวอร์ GPU หลายตัวผ่านตัวปรับตัวเดียว เพิ่มความหนาแน่นและลดต้นทุนด้านพื้นฐาน โดยยังคงความกว้างขวางแบบเต็ม

การปรับปรุงผลประกอบการที่สามารถปรับปริมาณได้ สําหรับภาระงาน AI

ผลของ Mellanox ได้ถูกปรับปรุงการเชื่อมต่อระหว่างประเทศความช้าต่ําเทคโนโลยีนี้สามารถวัดได้ผ่านตัวชี้วัดการทํางานสําคัญสําหรับกลุ่มฝึกอบรม AI. การจัดจําหน่ายในโลกจริงแสดงผลประโยชน์ที่สําคัญต่อวิธีการเชื่อมต่อระบบประจํา

เมทริกการทํางาน	เครือข่าย Ethernet มาตรฐาน	Mellanox AI-Optimized Network เครือข่ายที่ปรับปรุงให้ดีที่สุด	การปรับปรุง
All-Reduce Operation Time (1024 GPUs) การใช้งานในระยะยาว	85 ms	12 ms	การลด 86%
อัตราการใช้งาน GPU	65-75%	90-95%	~30% เพิ่มขึ้น
เวลาการฝึกอบรม (ResNet-50)	28 นาที	18 นาที	36% เร็วขึ้น
ประสิทธิภาพในการปรับขนาด (512 ถึง 1024 GPU)	72%	92%	28% การปรับขนาดที่ดีกว่า

การปรับปรุงเหล่านี้นําไปสู่การลดเวลาในการฝึกอบรมสําหรับรุ่น, ค่าคอมพิวเตอร์ในเมฆที่ต่ํากว่า, และวัฏจักรการทดลองที่รวดเร็วขึ้นสําหรับทีมวิจัย AI.

การแปลงเศรษฐกิจพื้นฐาน AI

ยกเว้นผลงานของเมลลาน็อกซ์เครือข่าย AIโดยการยกระดับอัตราการใช้งาน GPUองค์กรสามารถบรรลุผลการคํานวณที่เหมือนกัน ด้วยหน่วยงานที่น้อยลง หรือทํางานฝึกอบรมมากขึ้น ภายในการลงทุนในพื้นฐานเดียวกัน. การลดเวลาในการฝึกอบรมทําให้นักวิจัยสามารถซ้ําซ้ําได้อย่างรวดเร็วขึ้น โดยเร่งความเร็วของการนวัตกรรมโครงสร้างระบบเครือข่ายกลายเป็นทรัพย์สินทางกลยุทธ์ แทนที่จะเป็นข้อจํากัด, ทําให้องค์กรสามารถแก้ไขปัญหาที่ซับซ้อนมากขึ้น ซึ่งก่อนหน้านี้ไม่เป็นไปตามความเป็นไปได้ เนื่องจากความคับซ้อนในการสื่อสาร