การวิเคราะห์สถาปัตยกรรมเครือข่าย Mellanox ที่สนับสนุนการฝึกแบบตัวอย่างขนาดใหญ่ของ AI
October 5, 2025
วันที่: 18 พฤศจิกายน 2023
เนื่องจากโมเดลปัญญาประดิษฐ์ (AI) เติบโตขึ้นอย่างทวีคูณในด้านขนาดและความซับซ้อน โครงสร้างเครือข่ายที่เชื่อมต่อ GPU หลายพันตัวจึงกลายเป็นตัวกำหนดประสิทธิภาพการฝึกอบรมที่สำคัญ เทคโนโลยี Mellanox InfiniBand ได้กลายเป็นกระดูกสันหลังพื้นฐานสำหรับคลัสเตอร์ซูเปอร์คอมพิวติ้ง AI สมัยใหม่ ซึ่งได้รับการออกแบบมาโดยเฉพาะเพื่อเอาชนะปัญหาคอขวดด้านการสื่อสารที่ส่งผลกระทบต่อ ฝึกอบรมโมเดล AI ในระดับขนาดใหญ่ บทความนี้จะแยกย่อยนวัตกรรมการออกแบบที่ทำให้ InfiniBand เป็นมาตรฐานโดยพฤตินัยสำหรับการเร่งเวิร์กโหลด AI ที่ต้องการมากที่สุดในโลก
การ ฝึกอบรมโมเดล AI สมัยใหม่ เช่น สำหรับ Large Language Models (LLMs) อาศัยกลยุทธ์แบบขนานของข้อมูล โดยที่พารามิเตอร์ของโมเดลจะถูกซิงโครไนซ์ใน GPU หลายพันตัวหลังจากประมวลผลข้อมูลชุดย่อยแต่ละชุด เวลาที่ใช้ในเฟสการซิงโครไนซ์นี้ หรือที่เรียกว่า all-reduce นั้นเป็นค่าใช้จ่ายเพิ่มเติมล้วนๆ ด้วย เครือข่าย GPU แบบดั้งเดิม ค่าใช้จ่ายเพิ่มเติมในการสื่อสารนี้อาจใช้เวลามากกว่า 50% ของวงจรการฝึกอบรมทั้งหมด ซึ่งช่วยลดการใช้ GPU โดยรวมอย่างมากและยืดเวลาในการรับข้อมูลเชิงลึกจากหลายสัปดาห์เป็นหลายเดือน เครือข่ายไม่ใช่แค่ท่อส่งข้อมูลอีกต่อไป แต่เป็นส่วนประกอบการคำนวณหลัก
Mellanox InfiniBand แก้ไขปัญหาคอขวดนี้โดยตรงด้วยชุดเครื่องมือเร่งความเร็วที่ใช้ฮาร์ดแวร์ ซึ่งเปลี่ยนเครือข่ายจากผู้เข้าร่วมแบบพาสซีฟให้เป็นสินทรัพย์การคำนวณแบบแอคทีฟ
- SHARP (Scalable Hierarchical Aggregation and Reduction Protocol): เทคโนโลยีปฏิวัติวงการนี้ดำเนินการรวมการทำงาน (เช่น ผลรวม ค่าเฉลี่ย) โดยตรงภายในสวิตช์ InfiniBand แทนที่จะส่งข้อมูลไล่ระดับสีทั้งหมดกลับไปยัง GPU แต่ละตัว SHARP จะลดข้อมูลในโครงสร้างเครือข่าย ซึ่งช่วยลดปริมาณข้อมูลที่ถ่ายโอนและเวลาที่ต้องใช้ในการซิงโครไนซ์อย่างมาก ซึ่งสามารถเร่งการทำงานร่วมกันได้ถึง 50%
- การกำหนดเส้นทางแบบปรับได้และการควบคุมความแออัด: ความสามารถในการกำหนดเส้นทางแบบไดนามิกของ InfiniBand จะนำทางการรับส่งข้อมูลโดยอัตโนมัติรอบๆ จุดที่มีความแออัด เพื่อให้มั่นใจถึงการใช้โครงสร้างเครือข่ายอย่างสม่ำเสมอและป้องกันไม่ให้ลิงก์เดียวกลายเป็นปัญหาคอขวดในช่วงการสื่อสารแบบ all-to-all ที่เข้มข้น
- เวลาแฝงต่ำพิเศษและแบนด์วิดท์สูง: ด้วยเวลาแฝงแบบ end-to-end ต่ำกว่า 600 นาโนวินาที และรองรับ 400 Gb/s ขึ้นไป Mellanox InfiniBand มอบความเร็วดิบที่จำเป็นสำหรับการแลกเปลี่ยนพารามิเตอร์ระหว่าง GPU แบบเกือบเรียลไทม์
ข้อได้เปรียบด้านการออกแบบของ InfiniBand แปลเป็นผลลัพธ์ทางธุรกิจและการวิจัยที่เหนือกว่าสำหรับองค์กรที่ใช้งานเวิร์กโหลด AI ขนาดใหญ่
| ตัวชี้วัด | โครงสร้าง Ethernet มาตรฐาน | โครงสร้าง Mellanox InfiniBand | การปรับปรุง |
|---|---|---|---|
| การใช้ GPU (ในการฝึกอบรมขนาดใหญ่) | 40-60% | 90-95% | เพิ่มขึ้น >50% |
| เวลาในการฝึกอบรมโมเดล (เช่น LLM พารามิเตอร์ 1B) | 30 วัน | 18 วัน | ลดลง 40% |
| แบนด์วิดท์ที่มีประสิทธิภาพสำหรับ All-Reduce | ~120 Gb/s | ~380 Gb/s | การใช้งานสูงขึ้น 3 เท่า |
| การใช้พลังงานต่องานฝึกอบรม | 1.0x (พื้นฐาน) | ~0.7x | ลดลง 30% |
ตัวชี้วัดเหล่านี้แสดงให้เห็นว่ากลยุทธ์ เครือข่าย GPU ที่เหมาะสมที่สุดไม่ใช่ความหรูหรา แต่เป็นสิ่งจำเป็นสำหรับการบรรลุ ROI ที่ใช้งานได้จริงในการลงทุนคลัสเตอร์ AI หลายล้านดอลลาร์
ยุคของการออกแบบศูนย์ข้อมูลอเนกประสงค์กำลังสิ้นสุดลงสำหรับการวิจัย AI ลักษณะที่ต้องการของการ ฝึกอบรมโมเดล AI ต้องใช้วิธีการออกแบบร่วมกัน โดยที่พลังการคำนวณของ GPU จะถูกจับคู่กับการสร้างเครือข่ายอัจฉริยะที่เร่งความเร็วของ Mellanox InfiniBand ด้วยการลดค่าใช้จ่ายเพิ่มเติมในการสื่อสารและเพิ่มการใช้ GPU ให้สูงสุด สถาปัตยกรรม InfiniBand เป็นกุญแจสำคัญในการปลดล็อกนวัตกรรมที่เร็วขึ้น ลดต้นทุนการฝึกอบรม และบรรลุขนาด AI ที่เป็นไปไม่ได้ก่อนหน้านี้ เป็นรากฐานที่ขาดไม่ได้สำหรับนวัตกรรม AI รุ่นต่อไป

