สะกดทางเครือข่ายในกลุ่มฝึกอบรม AI: การแก้ไขจาก Mellanox
October 8, 2025
การแก้ไขปัญหาเครือข่าย AI Training Cluster: โซลูชั่นเครือข่ายที่มีประสิทธิภาพสูงของ Mellanox
ซานตาคลารา คาลิฟอร์เนียในขณะที่รูปแบบของความฉลาดประดิษฐ์เพิ่มขนาดและความซับซ้อนอย่างรวดเร็ว เครือข่ายศูนย์ข้อมูลแบบดั้งเดิมกําลังกลายเป็นอุปสรรคหลักในการฝึกอบรมความสามารถของ AIรูปแบบภาษาขนาดใหญ่และสถาปัตยกรรมการเรียนรู้ลึกที่ทันสมัยต้องการการสื่อสารที่เรียบร้อยผ่าน GPUs หลายพันMellanox Technologies, ตอนนี้เป็นส่วนหนึ่งของ NVIDIA ตอบโจทย์กับปัญหาเหล่านี้เครือข่าย AIการแก้ไขที่ออกแบบมาเพื่อกําจัดข้อขัดขวางในคลัสเตอร์ GPUการจัดจําหน่ายที่ทําให้นักวิจัยและบริษัทสามารถบรรลุผลการฝึกอบรมที่ไม่เคยมีมาก่อนการเชื่อมต่อระหว่างประเทศความช้าต่ําเทคโนโลยี
สะดวกในการเชื่อมโยงเครือข่าย AI: เมื่อ GPU คอยใช้ข้อมูล
ในการฝึกอบรม AI ที่กระจายตัว ลักษณะของงานที่คบกัน ระหว่างแอกเซลเลอเตอร์หลายร้อยหรือหลายพันแอกเซลเลอเตอร์ หมายความว่า การสื่อสารระหว่างโน้ดที่ช้าช้า จะส่งผลกระทบต่อเวลาในการเสร็จสิ้นงานโดยตรงระหว่างการฝึกทุกครั้ง, การปรับปรุงความถี่ต้องถูกปรับปรุงให้ตรงกันข้ามกับผู้ทํางานทั้งหมดปัญหาก็ยิ่งแย่ขึ้น เมื่อปารามิเตอร์ของโมเดลเพิ่มขึ้นเป็นพันล้านการศึกษาแสดงให้เห็นว่า เพียงการเพิ่มความช้า 100 ไมโครเซกอนด์คลัสเตอร์ GPUสามารถลดประสิทธิภาพการฝึกอบรมโดยรวมได้ถึง 15% ซึ่งแปลว่า ค่าคอมพิวเตอร์ที่สูงขึ้นมากและเวลาการแก้ไขที่ยาวนานสําหรับนโยบาย AI ที่สําคัญ
สถาปัตยกรรมเครือข่ายที่ปรับปรุงด้วย AI ของ Mellanox
Mellanox กําลังเข้าใกล้เครือข่าย AIการท้าทายผ่านสถาปัตยกรรมที่ครบถ้วนที่ออกแบบโดยเฉพาะสําหรับรูปแบบการสื่อสารที่โดดเด่นของภาระงาน AI ที่กระจายการแก้ไขรวมฮาร์ดแวร์ที่ทันสมัยกับซอฟต์แวร์ที่ฉลาด เพื่อสร้างองค์ประกอบการคํานวณที่เรียบร้อย.
- InfiniBand ด้วยเทคโนโลยี SHARP:โปรต็อกอลการรวมและลดระดับระดับระดับที่สามารถปรับขนาดได้ (SHARP) ทําการคํานวณในเครือข่าย, การลดอัตราการทํางานจากเซอร์เวอร์ GPU ไปยังสวิทช์เครือข่ายเอง.แนวทางปฏิวัตินี้กําจัดการโอนข้อมูลหลายครั้งระหว่างโน้ต, เร่งการดําเนินงานร่วมกันอย่างรวดเร็ว
- RDMA การสื่อสารเร่ง:Remote Direct Memory Access ทําให้ GPU สามารถแลกเปลี่ยนข้อมูลโดยตรงกับ GPU คู่มือทั่วเครือข่ายโดยมีส่วนร่วมของ CPU อย่างน้อย ลดความช้า และปลดปล่อยโปรเซสเซอร์โฮสต์สําหรับงานคํานวณ
- การปรับเปลี่ยนเส้นทางและการควบคุมความจุกจูงอัลกอริทึมที่ฉลาดจะนําการจราจรไปรอบจุดร้อนอย่างไดนามิค และจัดการความจุกจุก ก่อนที่มันจะส่งผลกระทบต่อการทํางาน โดยรักษาความสามารถในการจราจรที่คงที่ แม้กระทั่งในช่วงระยะสูงสุดของการสื่อสาร
- เทคโนโลยี GPU Multi-Host:สามารถเชื่อมต่อเซอร์เวอร์ GPU หลายตัวผ่านตัวปรับตัวเดียว เพิ่มความหนาแน่นและลดต้นทุนด้านพื้นฐาน โดยยังคงความกว้างขวางแบบเต็ม
การปรับปรุงผลประกอบการที่สามารถปรับปริมาณได้ สําหรับภาระงาน AI
ผลของ Mellanox ได้ถูกปรับปรุงการเชื่อมต่อระหว่างประเทศความช้าต่ําเทคโนโลยีนี้สามารถวัดได้ผ่านตัวชี้วัดการทํางานสําคัญสําหรับกลุ่มฝึกอบรม AI. การจัดจําหน่ายในโลกจริงแสดงผลประโยชน์ที่สําคัญต่อวิธีการเชื่อมต่อระบบประจํา
| เมทริกการทํางาน | เครือข่าย Ethernet มาตรฐาน | Mellanox AI-Optimized Network เครือข่ายที่ปรับปรุงให้ดีที่สุด | การปรับปรุง |
|---|---|---|---|
| All-Reduce Operation Time (1024 GPUs) การใช้งานในระยะยาว | 85 ms | 12 ms | การลด 86% |
| อัตราการใช้งาน GPU | 65-75% | 90-95% | ~30% เพิ่มขึ้น |
| เวลาการฝึกอบรม (ResNet-50) | 28 นาที | 18 นาที | 36% เร็วขึ้น |
| ประสิทธิภาพในการปรับขนาด (512 ถึง 1024 GPU) | 72% | 92% | 28% การปรับขนาดที่ดีกว่า |
การปรับปรุงเหล่านี้นําไปสู่การลดเวลาในการฝึกอบรมสําหรับรุ่น, ค่าคอมพิวเตอร์ในเมฆที่ต่ํากว่า, และวัฏจักรการทดลองที่รวดเร็วขึ้นสําหรับทีมวิจัย AI.
การแปลงเศรษฐกิจพื้นฐาน AI
ยกเว้นผลงานของเมลลาน็อกซ์เครือข่าย AIโดยการยกระดับอัตราการใช้งาน GPUองค์กรสามารถบรรลุผลการคํานวณที่เหมือนกัน ด้วยหน่วยงานที่น้อยลง หรือทํางานฝึกอบรมมากขึ้น ภายในการลงทุนในพื้นฐานเดียวกัน. การลดเวลาในการฝึกอบรมทําให้นักวิจัยสามารถซ้ําซ้ําได้อย่างรวดเร็วขึ้น โดยเร่งความเร็วของการนวัตกรรมโครงสร้างระบบเครือข่ายกลายเป็นทรัพย์สินทางกลยุทธ์ แทนที่จะเป็นข้อจํากัด, ทําให้องค์กรสามารถแก้ไขปัญหาที่ซับซ้อนมากขึ้น ซึ่งก่อนหน้านี้ไม่เป็นไปตามความเป็นไปได้ เนื่องจากความคับซ้อนในการสื่อสาร

