สะกดทางเครือข่ายในกลุ่มฝึกอบรม AI: การแก้ไขจาก Mellanox

September 23, 2025

ข่าว บริษัท ล่าสุดเกี่ยวกับ สะกดทางเครือข่ายในกลุ่มฝึกอบรม AI: การแก้ไขจาก Mellanox
ปลดล็อกศักยภาพ AI: Mellanox จัดการกับปัญหาคอขวดเครือข่ายในคลัสเตอร์ GPU ขนาดใหญ่

ข่าวประชาสัมพันธ์:เนื่องจากแบบจำลองปัญญาประดิษฐ์ (AI) เติบโตขึ้นอย่างทวีคูณในด้านความซับซ้อน ความต้องการด้านการประมวลผลที่มีประสิทธิภาพสูงและปรับขนาดได้จึงไม่เคยมีมาก่อน ส่วนประกอบที่สำคัญแต่ถูกมองข้ามบ่อยครั้งคือโครงสร้างพื้นฐานเครือข่าย AI ที่เชื่อมต่อ GPU หลายพันตัว Mellanox ผู้บุกเบิกโซลูชันการเชื่อมต่อประสิทธิภาพสูง กำลังจัดการกับความท้าทายนี้อย่างแม่นยำด้วยเทคโนโลยีการเชื่อมต่อที่มี การเชื่อมต่อความหน่วงต่ำที่ล้ำสมัย ซึ่งออกแบบมาเพื่อกำจัดปัญหาคอขวดและเพิ่มประสิทธิภาพของ คลัสเตอร์ GPUทุกตัวการฝึกอบรม AI สมัยใหม่ โดยเฉพาะอย่างยิ่งสำหรับ Large Language Models (LLMs) และ computer vision อาศัยการประมวลผลแบบขนานในอาร์เรย์ GPU จำนวนมาก การวิเคราะห์อุตสาหกรรมระบุว่าในคลัสเตอร์ 1024-GPU ปัญหาคอขวดที่เกี่ยวข้องกับเครือข่ายอาจทำให้การใช้ GPU ลดลงจาก 95% ที่เป็นไปได้เหลือต่ำกว่า 40% ความไร้ประสิทธิภาพนี้แปลเป็นเวลาการฝึกอบรมที่ยาวนานขึ้น การใช้พลังงานที่เพิ่มขึ้น และต้นทุนการดำเนินงานที่สูงขึ้นอย่างมาก ทำให้

เครือข่าย AI

ที่ปรับให้เหมาะสมไม่ใช่แค่ข้อได้เปรียบแต่เป็นสิ่งจำเป็นการเชื่อมต่อความหน่วงต่ำแนวทางของ Mellanox เป็นแบบองค์รวม โดยนำเสนอสแต็กโครงสร้างพื้นฐานที่สมบูรณ์ซึ่งออกแบบมาสำหรับเวิร์กโหลด AI หัวใจสำคัญของโซลูชันนี้คือตระกูลสวิตช์ Ethernet Spectrum และ ConnectX series of Smart Network Interface Cards (NIC) ส่วนประกอบเหล่านี้ได้รับการออกแบบมาโดยเฉพาะเพื่อให้ทำงานร่วมกัน สร้างไปป์ไลน์ข้อมูลที่ไม่ยุ่งยากระหว่างเซิร์ฟเวอร์

ความแตกต่างทางเทคโนโลยีที่สำคัญ ได้แก่:

In-Network Computing:

ยกเลิกงานประมวลผลข้อมูลจาก CPU ไปยัง NIC ลดความหน่วงลงอย่างมาก

  • Adaptive Routing & RoCE:ช่วยให้มั่นใจได้ถึงการเลือกเส้นทางข้อมูลที่เหมาะสมที่สุดและใช้ RDMA over Converged Ethernet (RoCE) เพื่อการสื่อสาร
  • ความหน่วงต่ำที่มีประสิทธิภาพคลัสเตอร์ GPUรองรับสถาปัตยกรรม Clos (leaf-spine) ที่ไม่ปิดกั้นซึ่งสามารถปรับขนาดได้ถึงหลายหมื่นพอร์ตโดยไม่ทำให้ประสิทธิภาพลดลง
  • การเพิ่มประสิทธิภาพเชิงปริมาณสำหรับเวิร์กโหลด AIประสิทธิภาพของโซลูชันของ Mellanox ได้รับการพิสูจน์แล้วในการใช้งานจริง ตารางต่อไปนี้แสดงให้เห็นถึงการเปรียบเทียบประสิทธิภาพระหว่างเครือข่าย TCP/IP มาตรฐานและโครงสร้าง RoCE ที่เปิดใช้งาน Mellanox ในสภาพแวดล้อมการฝึกอบรม AI ขนาดใหญ่
ตัวชี้วัด

โครงสร้าง TCP/IP มาตรฐาน

โครงสร้าง Mellanox RoCE การปรับปรุง เวลาเสร็จสิ้นงาน (1024 GPUs) 48 ชั่วโมง
29 ชั่วโมง เร็วขึ้น ~40% การใช้ GPU โดยเฉลี่ย 45%
90% สูงขึ้น 2 เท่า ความหน่วงระหว่างโหนด > 100 µs
< 1.5 µs ลดลง ~99% บทสรุปและมูลค่าเชิงกลยุทธ์ สำหรับองค์กรและสถาบันวิจัยที่ลงทุนหลายล้านในทรัพยากรการคำนวณ GPU เครือข่ายคือระบบประสาทส่วนกลางที่กำหนด ROI โดยรวม โซลูชัน
เครือข่าย AI

ของ Mellanox มอบ การเชื่อมต่อความหน่วงต่ำที่สำคัญซึ่งจำเป็นเพื่อให้แน่ใจว่า คลัสเตอร์ GPUแบบหลายโหนดทำงานเป็นซุปเปอร์คอมพิวเตอร์เดียวที่สอดคล้องกัน ซึ่งแปลเป็นเวลาในการรับข้อมูลเชิงลึกที่เร็วขึ้น ลดต้นทุนการเป็นเจ้าของทั้งหมด (TCO) และความสามารถในการจัดการกับความท้าทาย AI ที่ทะเยอทะยานมากขึ้น