ปัญหาคอขวดของเครือข่ายคลัสเตอร์การฝึกอบรม AI: โซลูชันของ Mellanox

September 16, 2025

การเปิดตัวศักยภาพของ AI: Mellanox ชนะช่องทางขัดขวางในเครือข่ายใน GPU Cluster ขนาดใหญ่

นําการชาร์จในความสามารถสูงเครือข่าย AI, Mellanox เทคโนโลยี ตอนนี้เป็นส่วนหนึ่งของ NVIDIA,เปิดเผยทางด้าน InfiniBand และ Ethernet ที่เป็นทางออกที่ครบวงจร และถูกออกแบบมาเพื่อกําจัดข้อขัดขวางข้อมูล และยกระดับประสิทธิภาพการคํานวณในกลุ่มฝึกอบรม AI รุ่นใหม่.ในขณะที่รูปแบบเติบโตเป็นหลายพันล้านปารามิเตอร์ โครงสร้างระบบเครือข่ายแบบดั้งเดิมกําลังล้มเหลวการเชื่อมต่อระหว่างประเทศความช้าต่ําเทคโนโลยีที่ทําให้แน่ใจว่าไม่มี GPU ที่รอข้อมูล

ความเจ็บปวดที่เติบโตของการฝึกอบรม AI: เครือข่ายเป็นช่องทาง

การฝึกอบรม AI ที่ทันสมัยพึ่งพาการขยายตัวคลัสเตอร์ GPUสภาพแวดล้อมบางครั้งประกอบด้วยหลายพันโน้ต ข้อมูลของอุตสาหกรรมชี้ให้เห็นว่าในกลุ่มดังกล่าวแทนที่จะใช้การคํานวณเองความไม่ประสิทธิภาพนี้แปลโดยตรงเป็นเวลาการฝึกอบรมที่เพิ่มขึ้น ค่าใช้จ่ายในการดําเนินงานที่สูงขึ้น (เช่นการบริโภคพลังงาน) และวงจรนวัตกรรมที่ช้าลงผู้กระทําผิดหลักมักจะเป็นเนื้อเยื่อของเครือข่ายซึ่งไม่สามารถติดตามความเร็วของข้อมูลที่มากมายที่ต้องการจากอัลการิทึมการฝึกซ้อมแบบคู่เคียงได้

การแก้ไขของเมลลาน็อกซ์: ผ้าที่สร้างขึ้นเพื่อ AI

แนวทางของ Mellanox คือการปฏิบัติกับเครือข่าย ไม่ใช่แค่เนื้อเยื่อเชื่อม แต่เป็นองค์ประกอบที่มีความรู้และยุทธศาสตร์ของสถาปัตยกรรมคอมพิวเตอร์

อัลตราล็อคเทนตี้:การลดความช้าในการสื่อสารเป็นไมโครเซกอนด์คลัสเตอร์ GPU.
ความกว้างของแบนด์บิดสูงสุด:ให้บริการถึง 400Gb / s (และมากกว่า) ต่อพอร์ต เพื่อจัดการกับการไหลของข้อมูลขนาดใหญ่ระหว่างโน้ดโดยไม่ต้องมีความจุกจุก
การคํานวณในเครือข่ายที่ก้าวหน้าการลดอัตราการดําเนินงานรวม (เช่น เทคโนโลยี SHARP) จาก GPU ไปยังสวิตช์เครือข่าย, ปลดปล่อยวงจร GPU ที่มีค่าสําหรับงานคํานวณหลัก

การเพิ่มผลประกอบการที่สามารถปรับปริมาณได้ในการจัดจําหน่ายในโลกจริง

ประสิทธิภาพของ Mellanoxเครือข่าย AIเทคโนโลยีที่พิสูจน์ในสภาพแวดล้อมการผลิตตารางต่อไปนี้สรุปเมตรการทํางานที่สังเกตในกลุ่มการฝึกแบบภาษาขนาดใหญ่ ก่อนและหลังการปรับปรุงเนื้อหาเครือข่ายไปยัง Mellanox InfiniBand.

เมทริก	เนื้อผ้า Ethernet แบบดั้งเดิม	แผ่น Mellanox InfiniBand	การปรับปรุง
อัตราเฉลี่ยของเวลาในการเสร็จสิ้นงานฝึกอบรม	120 ชั่วโมง	82 ชั่วโมง	~32% ลด
ประสิทธิภาพการคํานวณ GPU (การใช้งาน)	65%	92%	+27 คะแนน
ความช้าในการสื่อสารระหว่างหน่วย	1.8 ms	0.6 ms	~ 67% การลด

สรุปและคุณค่ายุทธศาสตร์

สําหรับธุรกิจและสถาบันวิจัยที่ลงทุนหลายล้านในพื้นฐาน AI เครือข่ายไม่สามารถเป็นความคิดในภายหลังอีกต่อไประดับการกําหนดผลงานที่รับประกันผลตอบแทนสูงสุดจากการลงทุนสําหรับทรัพยากรการคํานวณ GPU ที่แพงโดยการใช้เครื่องมือที่สร้างขึ้นเพื่อการเชื่อมต่อระหว่างประเทศความช้าต่ํา, องค์กรสามารถเร่งเวลาในการแก้ไขให้กับรุ่น AI ได้อย่างสําคัญ ลดต้นทุนการครอบครองทั้งหมด และเปิดทางให้กับการจัดการกับปัญหา AI ที่ซับซ้อนยิ่งกว่าที่รออยู่

ทําขั้นตอนต่อไปในการปรับปรุงพื้นฐาน AI ของคุณ

เครือข่ายของคุณพร้อมสําหรับรุ่นต่อไปของ AI ไหม? ติดต่อเราวันนี้สําหรับการประเมินสถาปัตยกรรมที่บุคคลิปและค้นพบวิธีการของเราเครือข่าย AIการแก้ไขสามารถเปลี่ยนผลงานและประสิทธิภาพของกลุ่มของคุณได้