สะกดทางเครือข่ายในกลุ่มฝึกอบรม AI: การแก้ไขจาก Mellanox
September 23, 2025
ข่าวประชาสัมพันธ์:เนื่องจากแบบจำลองปัญญาประดิษฐ์ (AI) เติบโตขึ้นอย่างทวีคูณในด้านความซับซ้อน ความต้องการด้านการประมวลผลที่มีประสิทธิภาพสูงและปรับขนาดได้จึงไม่เคยมีมาก่อน ส่วนประกอบที่สำคัญแต่ถูกมองข้ามบ่อยครั้งคือโครงสร้างพื้นฐานเครือข่าย AI ที่เชื่อมต่อ GPU หลายพันตัว Mellanox ผู้บุกเบิกโซลูชันการเชื่อมต่อประสิทธิภาพสูง กำลังจัดการกับความท้าทายนี้อย่างแม่นยำด้วยเทคโนโลยีการเชื่อมต่อที่มี การเชื่อมต่อความหน่วงต่ำที่ล้ำสมัย ซึ่งออกแบบมาเพื่อกำจัดปัญหาคอขวดและเพิ่มประสิทธิภาพของ คลัสเตอร์ GPUทุกตัวการฝึกอบรม AI สมัยใหม่ โดยเฉพาะอย่างยิ่งสำหรับ Large Language Models (LLMs) และ computer vision อาศัยการประมวลผลแบบขนานในอาร์เรย์ GPU จำนวนมาก การวิเคราะห์อุตสาหกรรมระบุว่าในคลัสเตอร์ 1024-GPU ปัญหาคอขวดที่เกี่ยวข้องกับเครือข่ายอาจทำให้การใช้ GPU ลดลงจาก 95% ที่เป็นไปได้เหลือต่ำกว่า 40% ความไร้ประสิทธิภาพนี้แปลเป็นเวลาการฝึกอบรมที่ยาวนานขึ้น การใช้พลังงานที่เพิ่มขึ้น และต้นทุนการดำเนินงานที่สูงขึ้นอย่างมาก ทำให้
ที่ปรับให้เหมาะสมไม่ใช่แค่ข้อได้เปรียบแต่เป็นสิ่งจำเป็นการเชื่อมต่อความหน่วงต่ำแนวทางของ Mellanox เป็นแบบองค์รวม โดยนำเสนอสแต็กโครงสร้างพื้นฐานที่สมบูรณ์ซึ่งออกแบบมาสำหรับเวิร์กโหลด AI หัวใจสำคัญของโซลูชันนี้คือตระกูลสวิตช์ Ethernet Spectrum และ ConnectX series of Smart Network Interface Cards (NIC) ส่วนประกอบเหล่านี้ได้รับการออกแบบมาโดยเฉพาะเพื่อให้ทำงานร่วมกัน สร้างไปป์ไลน์ข้อมูลที่ไม่ยุ่งยากระหว่างเซิร์ฟเวอร์
In-Network Computing:
ยกเลิกงานประมวลผลข้อมูลจาก CPU ไปยัง NIC ลดความหน่วงลงอย่างมาก
- Adaptive Routing & RoCE:ช่วยให้มั่นใจได้ถึงการเลือกเส้นทางข้อมูลที่เหมาะสมที่สุดและใช้ RDMA over Converged Ethernet (RoCE) เพื่อการสื่อสาร
- ความหน่วงต่ำที่มีประสิทธิภาพคลัสเตอร์ GPUรองรับสถาปัตยกรรม Clos (leaf-spine) ที่ไม่ปิดกั้นซึ่งสามารถปรับขนาดได้ถึงหลายหมื่นพอร์ตโดยไม่ทำให้ประสิทธิภาพลดลง
- การเพิ่มประสิทธิภาพเชิงปริมาณสำหรับเวิร์กโหลด AIประสิทธิภาพของโซลูชันของ Mellanox ได้รับการพิสูจน์แล้วในการใช้งานจริง ตารางต่อไปนี้แสดงให้เห็นถึงการเปรียบเทียบประสิทธิภาพระหว่างเครือข่าย TCP/IP มาตรฐานและโครงสร้าง RoCE ที่เปิดใช้งาน Mellanox ในสภาพแวดล้อมการฝึกอบรม AI ขนาดใหญ่
โครงสร้าง TCP/IP มาตรฐาน
| โครงสร้าง Mellanox RoCE | การปรับปรุง | เวลาเสร็จสิ้นงาน (1024 GPUs) | 48 ชั่วโมง |
|---|---|---|---|
| 29 ชั่วโมง | เร็วขึ้น ~40% | การใช้ GPU โดยเฉลี่ย | 45% |
| 90% | สูงขึ้น 2 เท่า | ความหน่วงระหว่างโหนด | > 100 µs |
| < 1.5 µs | ลดลง ~99% | บทสรุปและมูลค่าเชิงกลยุทธ์ | สำหรับองค์กรและสถาบันวิจัยที่ลงทุนหลายล้านในทรัพยากรการคำนวณ GPU เครือข่ายคือระบบประสาทส่วนกลางที่กำหนด ROI โดยรวม โซลูชัน |
ของ Mellanox มอบ การเชื่อมต่อความหน่วงต่ำที่สำคัญซึ่งจำเป็นเพื่อให้แน่ใจว่า คลัสเตอร์ GPUแบบหลายโหนดทำงานเป็นซุปเปอร์คอมพิวเตอร์เดียวที่สอดคล้องกัน ซึ่งแปลเป็นเวลาในการรับข้อมูลเชิงลึกที่เร็วขึ้น ลดต้นทุนการเป็นเจ้าของทั้งหมด (TCO) และความสามารถในการจัดการกับความท้าทาย AI ที่ทะเยอทะยานมากขึ้น

