โซลูชั่นเครือข่ายคอมพิวเตอร์ประสิทธิภาพสูง (HPC): InfiniBand ทําให้การทํางานของซูเปอร์คอมพิวเตอร์สามารถเปลี่ยนแปลงได้
September 27, 2025
ขอบเขตของวิทยาศาสตร์ วิศวกรรมศาสตร์ และปัญญาประดิษฐ์กำลังถูกผลักดันไปข้างหน้าด้วยการประมวลผลสมรรถนะสูง (HPC) ตั้งแต่การจำลองแบบจำลองสภาพอากาศและการค้นพบยาใหม่ ไปจนถึงการฝึกอบรมแบบจำลอง AI เชิงกำเนิดขนาดใหญ่ ความซับซ้อนและขนาดของเวิร์กโหลดเหล่านี้กำลังเติบโตแบบทวีคูณ การเพิ่มขึ้นนี้สร้างแรงกดดันอย่างมากต่อ เครือข่ายซูเปอร์คอมพิวเตอร์ ซึ่งต้องเคลื่อนย้ายชุดข้อมูลจำนวนมหาศาลระหว่างโหนดการคำนวณหลายพันโหนดอย่างมีประสิทธิภาพโดยไม่กลายเป็นคอขวด อินเทอร์คอนเนคไม่ใช่แค่ส่วนประกอบท่อประปาอีกต่อไป มันคือระบบประสาทส่วนกลางของซูเปอร์คอมพิวเตอร์สมัยใหม่
สถาปัตยกรรมเครือข่ายแบบดั้งเดิมมักจะไม่สามารถตามความต้องการของการประมวลผลระดับ exascale และ AI ได้ สถาปนิกและนักวิจัย HPC ต้องเผชิญกับความท้าทายที่ต่อเนื่องหลายประการ:
- ความไวต่อความหน่วง: แอปพลิเคชันแบบขนานที่เชื่อมต่อกันอย่างใกล้ชิด ซึ่งใช้ Message Passing Interface (MPI) มีความอ่อนไหวต่อความหน่วงสูง ความล่าช้าเพียงไม่กี่ไมโครวินาทีสามารถทำให้เวลาในการแก้ปัญหาโดยรวมช้าลงอย่างมาก
- ปริมาณงานที่ไม่สามารถคาดเดาได้: ความแออัดของเครือข่ายอาจทำให้ประสิทธิภาพไม่แน่นอน ทำให้โหนดการคำนวณต้องหยุดทำงานในขณะที่รอข้อมูล ทำให้เสียทรัพยากรการคำนวณอันมีค่าและเพิ่มเวลาในการทำงานให้เสร็จสิ้น
- การดำเนินการแบบรวมที่ไม่ดี: การดำเนินการต่างๆ เช่น การลดและการกั้นที่เกี่ยวข้องกับหลายโหนดสามารถใช้ทรัพยากร CPU ของโฮสต์จำนวนมาก โดยเปลี่ยนรอบการทำงานออกจากงานการคำนวณหลัก
- ขีดจำกัดการปรับขนาด: เครือข่ายจำนวนมากประสบปัญหาในการรักษาประสิทธิภาพและความหน่วงที่สม่ำเสมอเมื่อขนาดคลัสเตอร์ขยายไปถึงหลายหมื่นโหนด ซึ่งเป็นอุปสรรคต่อเส้นทางสู่ exascale และอื่นๆ
NVIDIA Mellanox InfiniBand มอบแพลตฟอร์มเครือข่ายแบบ end-to-end ที่สร้างขึ้นโดยมีวัตถุประสงค์เพื่อเอาชนะคอขวด HPC เหล่านี้โดยเฉพาะ มันเป็นมากกว่าแค่ NIC มันเป็นโครงสร้างที่ครอบคลุมซึ่งช่วยเร่งการเคลื่อนย้ายข้อมูลและการคำนวณอย่างชาญฉลาด
- การคำนวณในเครือข่าย (NVIDIA SHARP™): นี่คือคุณสมบัติปฏิวัติวงการที่ทำให้ InfiniBand แตกต่างออกไป Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) จะยกเลิกการดำเนินการแบบรวม (เช่น MPI Allreduce, Barrier) จาก CPU ไปยังเครือข่ายสวิตช์ ซึ่งช่วยลดความหน่วงลงอย่างมากและเพิ่มทรัพยากร CPU ของโฮสต์สำหรับการคำนวณแอปพลิเคชัน
- การเข้าถึงหน่วยความจำโดยตรงระยะไกล (RDMA): Mellanox InfiniBand มีการรองรับ RDMA ดั้งเดิม ทำให้สามารถย้ายข้อมูลได้โดยตรงจากหน่วยความจำของโหนดหนึ่งไปยังอีกโหนดหนึ่งโดยไม่ต้องใช้ CPU เทคนิค "บายพาสเคอร์เนล" นี้เป็นพื้นฐานในการบรรลุความหน่วงต่ำเป็นพิเศษและแบนด์วิดท์สูง
- การกำหนดเส้นทางแบบปรับได้และการควบคุมความแออัด: โครงสร้างจะกำหนดเส้นทางการรับส่งข้อมูลแบบไดนามิกรอบฮอตสปอต ทำให้มั่นใจได้ถึงการใช้เครือข่ายอย่างสม่ำเสมอและป้องกันความแออัดก่อนที่จะส่งผลกระทบต่อประสิทธิภาพของแอปพลิเคชัน สิ่งนี้นำไปสู่ประสิทธิภาพที่คาดการณ์ได้และสอดคล้องกัน
- การรวม GPU ที่ราบรื่น (GPUDirect®): เทคโนโลยีอย่าง GPUDirect RDMA ช่วยให้ข้อมูลไหลโดยตรงระหว่างหน่วยความจำ GPU ของเซิร์ฟเวอร์ต่างๆ ทั่วโครงสร้าง InfiniBand ซึ่งมีความสำคัญอย่างยิ่งในการเร่งเวิร์กโหลดการฝึกอบรม AI และการคำนวณทางวิทยาศาสตร์แบบหลาย GPU และหลายโหนด
การปรับใช้ Mellanox InfiniBand ในศูนย์ซูเปอร์คอมพิวเตอร์ชั้นนำและสถาบันวิจัยได้ให้ผลลัพธ์ที่วัดผลได้และน่าทึ่ง:
| ตัวชี้วัด | การปรับปรุงด้วย Mellanox InfiniBand | ผลกระทบต่องาน HPC |
|---|---|---|
| ประสิทธิภาพของแอปพลิเคชัน | เร็วขึ้นถึง 2.5 เท่า | ลดเวลาในการแก้ปัญหาสำหรับการจำลองที่ซับซ้อนและงานฝึกอบรม AI |
| ความหน่วง | ต่ำกว่า 1 ไมโครวินาทีแบบ end-to-end | กำจัดความล่าช้าในการสื่อสารสำหรับแอปพลิเคชัน MPI |
| การใช้ CPU | ลดภาระงาน CPU ลงถึง 30% | เพิ่มชั่วโมงการทำงานของ CPU หลายล้านชั่วโมงสำหรับการคำนวณแทนการสื่อสาร |
| ความสามารถในการปรับขนาด | รองรับในคลัสเตอร์ที่มีโหนดมากกว่า 10,000 โหนด | มอบเส้นทางที่พิสูจน์แล้วสู่การปรับใช้การประมวลผลระดับ exascale |
| การใช้โครงสร้าง | ประสิทธิภาพมากกว่า 90% | เพิ่มผลตอบแทนจากการลงทุนโครงสร้างพื้นฐานให้สูงสุด |
Mellanox InfiniBand ได้สร้างตัวเองให้เป็นมาตรฐานทองคำสำหรับ เครือข่ายซูเปอร์คอมพิวเตอร์ โดยให้ประสิทธิภาพ ความสามารถในการปรับขนาด และสติปัญญาที่จำเป็นสำหรับ HPC และเวิร์กโหลด AI ที่ต้องการมากที่สุดในโลก ด้วยการแก้ปัญหาคอขวดเครือข่ายที่สำคัญผ่านนวัตกรรมต่างๆ เช่น การคำนวณในเครือข่าย ช่วยให้นักวิจัยและนักวิทยาศาสตร์บรรลุผลลัพธ์ที่ก้าวล้ำได้เร็วขึ้น ไม่ใช่แค่การเชื่อมต่อเท่านั้น มันเป็นตัวเร่งที่จำเป็นสำหรับความรู้และนวัตกรรมของมนุษย์

