Mellanox InfiniBand Network Architecture สําหรับการฝึกแบบ AI ที่รวดเร็ว NVIDIA

การวิเคราะห์สถาปัตยกรรมเครือข่าย Mellanox ที่สนับสนุนการฝึกแบบตัวอย่างขนาดใหญ่ของ AI

October 5, 2025

การออกแบบอนาคต: วิธีการที่ Mellanox InfiniBand เร่งการฝึกอบรมโมเดล AI ในระดับขนาดใหญ่

วันที่: 18 พฤศจิกายน 2023

เนื่องจากโมเดลปัญญาประดิษฐ์ (AI) เติบโตขึ้นอย่างทวีคูณในด้านขนาดและความซับซ้อน โครงสร้างเครือข่ายที่เชื่อมต่อ GPU หลายพันตัวจึงกลายเป็นตัวกำหนดประสิทธิภาพการฝึกอบรมที่สำคัญ เทคโนโลยี Mellanox InfiniBand ได้กลายเป็นกระดูกสันหลังพื้นฐานสำหรับคลัสเตอร์ซูเปอร์คอมพิวติ้ง AI สมัยใหม่ ซึ่งได้รับการออกแบบมาโดยเฉพาะเพื่อเอาชนะปัญหาคอขวดด้านการสื่อสารที่ส่งผลกระทบต่อ ฝึกอบรมโมเดล AI ในระดับขนาดใหญ่ บทความนี้จะแยกย่อยนวัตกรรมการออกแบบที่ทำให้ InfiniBand เป็นมาตรฐานโดยพฤตินัยสำหรับการเร่งเวิร์กโหลด AI ที่ต้องการมากที่สุดในโลก

ปัญหาคอขวดของเครือข่ายในการฝึกอบรม AI แบบกระจาย

การ ฝึกอบรมโมเดล AI สมัยใหม่ เช่น สำหรับ Large Language Models (LLMs) อาศัยกลยุทธ์แบบขนานของข้อมูล โดยที่พารามิเตอร์ของโมเดลจะถูกซิงโครไนซ์ใน GPU หลายพันตัวหลังจากประมวลผลข้อมูลชุดย่อยแต่ละชุด เวลาที่ใช้ในเฟสการซิงโครไนซ์นี้ หรือที่เรียกว่า all-reduce นั้นเป็นค่าใช้จ่ายเพิ่มเติมล้วนๆ ด้วย เครือข่าย GPU แบบดั้งเดิม ค่าใช้จ่ายเพิ่มเติมในการสื่อสารนี้อาจใช้เวลามากกว่า 50% ของวงจรการฝึกอบรมทั้งหมด ซึ่งช่วยลดการใช้ GPU โดยรวมอย่างมากและยืดเวลาในการรับข้อมูลเชิงลึกจากหลายสัปดาห์เป็นหลายเดือน เครือข่ายไม่ใช่แค่ท่อส่งข้อมูลอีกต่อไป แต่เป็นส่วนประกอบการคำนวณหลัก

Mellanox InfiniBand: การคำนวณในเครือข่ายสำหรับ AI

Mellanox InfiniBand แก้ไขปัญหาคอขวดนี้โดยตรงด้วยชุดเครื่องมือเร่งความเร็วที่ใช้ฮาร์ดแวร์ ซึ่งเปลี่ยนเครือข่ายจากผู้เข้าร่วมแบบพาสซีฟให้เป็นสินทรัพย์การคำนวณแบบแอคทีฟ

SHARP (Scalable Hierarchical Aggregation and Reduction Protocol): เทคโนโลยีปฏิวัติวงการนี้ดำเนินการรวมการทำงาน (เช่น ผลรวม ค่าเฉลี่ย) โดยตรงภายในสวิตช์ InfiniBand แทนที่จะส่งข้อมูลไล่ระดับสีทั้งหมดกลับไปยัง GPU แต่ละตัว SHARP จะลดข้อมูลในโครงสร้างเครือข่าย ซึ่งช่วยลดปริมาณข้อมูลที่ถ่ายโอนและเวลาที่ต้องใช้ในการซิงโครไนซ์อย่างมาก ซึ่งสามารถเร่งการทำงานร่วมกันได้ถึง 50%
การกำหนดเส้นทางแบบปรับได้และการควบคุมความแออัด: ความสามารถในการกำหนดเส้นทางแบบไดนามิกของ InfiniBand จะนำทางการรับส่งข้อมูลโดยอัตโนมัติรอบๆ จุดที่มีความแออัด เพื่อให้มั่นใจถึงการใช้โครงสร้างเครือข่ายอย่างสม่ำเสมอและป้องกันไม่ให้ลิงก์เดียวกลายเป็นปัญหาคอขวดในช่วงการสื่อสารแบบ all-to-all ที่เข้มข้น
เวลาแฝงต่ำพิเศษและแบนด์วิดท์สูง: ด้วยเวลาแฝงแบบ end-to-end ต่ำกว่า 600 นาโนวินาที และรองรับ 400 Gb/s ขึ้นไป Mellanox InfiniBand มอบความเร็วดิบที่จำเป็นสำหรับการแลกเปลี่ยนพารามิเตอร์ระหว่าง GPU แบบเกือบเรียลไทม์

ผลกระทบเชิงปริมาณต่อประสิทธิภาพการฝึกอบรมและต้นทุนรวมในการเป็นเจ้าของ (TCO)

ข้อได้เปรียบด้านการออกแบบของ InfiniBand แปลเป็นผลลัพธ์ทางธุรกิจและการวิจัยที่เหนือกว่าสำหรับองค์กรที่ใช้งานเวิร์กโหลด AI ขนาดใหญ่

ตัวชี้วัด	โครงสร้าง Ethernet มาตรฐาน	โครงสร้าง Mellanox InfiniBand	การปรับปรุง
การใช้ GPU (ในการฝึกอบรมขนาดใหญ่)	40-60%	90-95%	เพิ่มขึ้น >50%
เวลาในการฝึกอบรมโมเดล (เช่น LLM พารามิเตอร์ 1B)	30 วัน	18 วัน	ลดลง 40%
แบนด์วิดท์ที่มีประสิทธิภาพสำหรับ All-Reduce	~120 Gb/s	~380 Gb/s	การใช้งานสูงขึ้น 3 เท่า
การใช้พลังงานต่องานฝึกอบรม	1.0x (พื้นฐาน)	~0.7x	ลดลง 30%

ตัวชี้วัดเหล่านี้แสดงให้เห็นว่ากลยุทธ์ เครือข่าย GPU ที่เหมาะสมที่สุดไม่ใช่ความหรูหรา แต่เป็นสิ่งจำเป็นสำหรับการบรรลุ ROI ที่ใช้งานได้จริงในการลงทุนคลัสเตอร์ AI หลายล้านดอลลาร์

บทสรุป: การสร้างศูนย์ข้อมูลเฉพาะ AI

ยุคของการออกแบบศูนย์ข้อมูลอเนกประสงค์กำลังสิ้นสุดลงสำหรับการวิจัย AI ลักษณะที่ต้องการของการ ฝึกอบรมโมเดล AI ต้องใช้วิธีการออกแบบร่วมกัน โดยที่พลังการคำนวณของ GPU จะถูกจับคู่กับการสร้างเครือข่ายอัจฉริยะที่เร่งความเร็วของ Mellanox InfiniBand ด้วยการลดค่าใช้จ่ายเพิ่มเติมในการสื่อสารและเพิ่มการใช้ GPU ให้สูงสุด สถาปัตยกรรม InfiniBand เป็นกุญแจสำคัญในการปลดล็อกนวัตกรรมที่เร็วขึ้น ลดต้นทุนการฝึกอบรม และบรรลุขนาด AI ที่เป็นไปไม่ได้ก่อนหน้านี้ เป็นรากฐานที่ขาดไม่ได้สำหรับนวัตกรรม AI รุ่นต่อไป