สะกดทางเครือข่ายในกลุ่มฝึกอบรม AI: การแก้ไขจาก Mellanox

October 8, 2025

ข่าว บริษัท ล่าสุดเกี่ยวกับ สะกดทางเครือข่ายในกลุ่มฝึกอบรม AI: การแก้ไขจาก Mellanox

การแก้ไขปัญหาเครือข่าย AI Training Cluster: โซลูชั่นเครือข่ายที่มีประสิทธิภาพสูงของ Mellanox

ซานตาคลารา คาลิฟอร์เนียในขณะที่รูปแบบของความฉลาดประดิษฐ์เพิ่มขนาดและความซับซ้อนอย่างรวดเร็ว เครือข่ายศูนย์ข้อมูลแบบดั้งเดิมกําลังกลายเป็นอุปสรรคหลักในการฝึกอบรมความสามารถของ AIรูปแบบภาษาขนาดใหญ่และสถาปัตยกรรมการเรียนรู้ลึกที่ทันสมัยต้องการการสื่อสารที่เรียบร้อยผ่าน GPUs หลายพันMellanox Technologies, ตอนนี้เป็นส่วนหนึ่งของ NVIDIA ตอบโจทย์กับปัญหาเหล่านี้เครือข่าย AIการแก้ไขที่ออกแบบมาเพื่อกําจัดข้อขัดขวางในคลัสเตอร์ GPUการจัดจําหน่ายที่ทําให้นักวิจัยและบริษัทสามารถบรรลุผลการฝึกอบรมที่ไม่เคยมีมาก่อนการเชื่อมต่อระหว่างประเทศความช้าต่ําเทคโนโลยี

สะดวกในการเชื่อมโยงเครือข่าย AI: เมื่อ GPU คอยใช้ข้อมูล

ในการฝึกอบรม AI ที่กระจายตัว ลักษณะของงานที่คบกัน ระหว่างแอกเซลเลอเตอร์หลายร้อยหรือหลายพันแอกเซลเลอเตอร์ หมายความว่า การสื่อสารระหว่างโน้ดที่ช้าช้า จะส่งผลกระทบต่อเวลาในการเสร็จสิ้นงานโดยตรงระหว่างการฝึกทุกครั้ง, การปรับปรุงความถี่ต้องถูกปรับปรุงให้ตรงกันข้ามกับผู้ทํางานทั้งหมดปัญหาก็ยิ่งแย่ขึ้น เมื่อปารามิเตอร์ของโมเดลเพิ่มขึ้นเป็นพันล้านการศึกษาแสดงให้เห็นว่า เพียงการเพิ่มความช้า 100 ไมโครเซกอนด์คลัสเตอร์ GPUสามารถลดประสิทธิภาพการฝึกอบรมโดยรวมได้ถึง 15% ซึ่งแปลว่า ค่าคอมพิวเตอร์ที่สูงขึ้นมากและเวลาการแก้ไขที่ยาวนานสําหรับนโยบาย AI ที่สําคัญ

สถาปัตยกรรมเครือข่ายที่ปรับปรุงด้วย AI ของ Mellanox

Mellanox กําลังเข้าใกล้เครือข่าย AIการท้าทายผ่านสถาปัตยกรรมที่ครบถ้วนที่ออกแบบโดยเฉพาะสําหรับรูปแบบการสื่อสารที่โดดเด่นของภาระงาน AI ที่กระจายการแก้ไขรวมฮาร์ดแวร์ที่ทันสมัยกับซอฟต์แวร์ที่ฉลาด เพื่อสร้างองค์ประกอบการคํานวณที่เรียบร้อย.

  • InfiniBand ด้วยเทคโนโลยี SHARP:โปรต็อกอลการรวมและลดระดับระดับระดับที่สามารถปรับขนาดได้ (SHARP) ทําการคํานวณในเครือข่าย, การลดอัตราการทํางานจากเซอร์เวอร์ GPU ไปยังสวิทช์เครือข่ายเอง.แนวทางปฏิวัตินี้กําจัดการโอนข้อมูลหลายครั้งระหว่างโน้ต, เร่งการดําเนินงานร่วมกันอย่างรวดเร็ว
  • RDMA การสื่อสารเร่ง:Remote Direct Memory Access ทําให้ GPU สามารถแลกเปลี่ยนข้อมูลโดยตรงกับ GPU คู่มือทั่วเครือข่ายโดยมีส่วนร่วมของ CPU อย่างน้อย ลดความช้า และปลดปล่อยโปรเซสเซอร์โฮสต์สําหรับงานคํานวณ
  • การปรับเปลี่ยนเส้นทางและการควบคุมความจุกจูงอัลกอริทึมที่ฉลาดจะนําการจราจรไปรอบจุดร้อนอย่างไดนามิค และจัดการความจุกจุก ก่อนที่มันจะส่งผลกระทบต่อการทํางาน โดยรักษาความสามารถในการจราจรที่คงที่ แม้กระทั่งในช่วงระยะสูงสุดของการสื่อสาร
  • เทคโนโลยี GPU Multi-Host:สามารถเชื่อมต่อเซอร์เวอร์ GPU หลายตัวผ่านตัวปรับตัวเดียว เพิ่มความหนาแน่นและลดต้นทุนด้านพื้นฐาน โดยยังคงความกว้างขวางแบบเต็ม

การปรับปรุงผลประกอบการที่สามารถปรับปริมาณได้ สําหรับภาระงาน AI

ผลของ Mellanox ได้ถูกปรับปรุงการเชื่อมต่อระหว่างประเทศความช้าต่ําเทคโนโลยีนี้สามารถวัดได้ผ่านตัวชี้วัดการทํางานสําคัญสําหรับกลุ่มฝึกอบรม AI. การจัดจําหน่ายในโลกจริงแสดงผลประโยชน์ที่สําคัญต่อวิธีการเชื่อมต่อระบบประจํา

เมทริกการทํางาน เครือข่าย Ethernet มาตรฐาน Mellanox AI-Optimized Network เครือข่ายที่ปรับปรุงให้ดีที่สุด การปรับปรุง
All-Reduce Operation Time (1024 GPUs) การใช้งานในระยะยาว 85 ms 12 ms การลด 86%
อัตราการใช้งาน GPU 65-75% 90-95% ~30% เพิ่มขึ้น
เวลาการฝึกอบรม (ResNet-50) 28 นาที 18 นาที 36% เร็วขึ้น
ประสิทธิภาพในการปรับขนาด (512 ถึง 1024 GPU) 72% 92% 28% การปรับขนาดที่ดีกว่า

การปรับปรุงเหล่านี้นําไปสู่การลดเวลาในการฝึกอบรมสําหรับรุ่น, ค่าคอมพิวเตอร์ในเมฆที่ต่ํากว่า, และวัฏจักรการทดลองที่รวดเร็วขึ้นสําหรับทีมวิจัย AI.

การแปลงเศรษฐกิจพื้นฐาน AI

ยกเว้นผลงานของเมลลาน็อกซ์เครือข่าย AIโดยการยกระดับอัตราการใช้งาน GPUองค์กรสามารถบรรลุผลการคํานวณที่เหมือนกัน ด้วยหน่วยงานที่น้อยลง หรือทํางานฝึกอบรมมากขึ้น ภายในการลงทุนในพื้นฐานเดียวกัน. การลดเวลาในการฝึกอบรมทําให้นักวิจัยสามารถซ้ําซ้ําได้อย่างรวดเร็วขึ้น โดยเร่งความเร็วของการนวัตกรรมโครงสร้างระบบเครือข่ายกลายเป็นทรัพย์สินทางกลยุทธ์ แทนที่จะเป็นข้อจํากัด, ทําให้องค์กรสามารถแก้ไขปัญหาที่ซับซ้อนมากขึ้น ซึ่งก่อนหน้านี้ไม่เป็นไปตามความเป็นไปได้ เนื่องจากความคับซ้อนในการสื่อสาร