หนังสือขาวทางเทคนิค: NVIDIA Mellanox 920-9B210-00FN-0D0 InfiniBand Switch Solution

January 6, 2026

หนังสือขาวทางเทคนิค: NVIDIA Mellanox 920-9B210-00FN-0D0 InfiniBand Switch Solution
1. สถานการณ์โครงการและการวิเคราะห์ความต้องการ

การพัฒนาของภาระงานคอมพิวเตอร์ไปสู่การฝึกอบรม AI exascale และการจําลอง HPC ความซื่อสัตย์สูงได้เปลี่ยนข้อจํากัดการทํางานจากคอมพิวเตอร์ไปยังการเชื่อมต่อกันคลัสเตอร์ที่พึ่งพา RDMA ที่ทันสมัยต้องการผ้าที่ไม่เพียงแค่ให้ความกว้างแบนด์วิทสูง แต่ยังมีความช้าต่ําสุดเครือข่ายเก่ามักนํามาซึ่งความยืดหยุ่นที่แปรปรวน การสูญเสียแพ็คเก็ตที่เกิดจากความจุกจุก และความซับซ้อนในการจัดการซึ่งตรงไปตรงมาแปลว่าเวลาในการแก้ไขที่ยาวนานขึ้น, ทรัพยากร GPU / CPU ที่ใช้งานไม่พอ และต้นทุนการดําเนินงานเพิ่มขึ้น

การแก้ไขทางเทคนิคนี้ตอบโจทย์ความต้องการหลักของศูนย์ข้อมูลรุ่นใหม่และสถานศึกษาวิจัยเนื้อผ้าที่มีประสิทธิภาพสูง สามารถนําภาระงาน HPC คลาสสิก (พื้นฐาน MPI) และ AI ใหม่ (การสื่อสารรวม) มาเข้าด้วยกันความต้องการทางเทคนิคสําคัญประกอบด้วย ความช้าในการสวิตช์ในระยะต่ํากว่าไมโครเซกอนด์และกรอบการจัดการที่ให้ความเห็นและอัตโนมัติที่ลึก.920-9B210-00FN-0D0 โซลูชั่น OPN สวิตช์ InfiniBandได้ถูกออกแบบมาเพื่อตอบสนองกับมาตรฐานที่เข้มงวดนี้

2. การออกแบบระบบระบบ/เครือข่ายทั่วไป

สถาปัตยกรรมที่นําเสนอคือผ้ากระดูกสันหลังที่ออกแบบมาเพื่อความกว้างแบนด์วิดและความสามารถในการปรับขนาดได้สูงสุด NDR 400Gb / s เทคโนโลยี InfiniBandNVIDIA Mellanox 920-9B210-00FN-0D0สวิตช์, สร้างเนื้อหาความกว้างความถี่สูงสุด. ชั้นใบสามารถประกอบด้วยการผสมผสานของสวิตช์ NDR หรือ HDR, เชื่อมต่อหน่วยคอมพิวเตอร์ (GPU เซอร์เวอร์เช่นระบบ NVIDIA DGX, คลัสเตอร์ CPU),เครื่องเก็บข้อมูลปานกลางที่มีประสิทธิภาพสูง (NVMe-oF)และหน่วยบริหาร

การออกแบบที่แยกออกจากกันนี้ทําให้ความช้าที่คาดการณ์ได้ และกําจัดการสมัครสมาชิกเกินจํานวนภายในผ้า. หลักการสถาปัตยกรรมสําคัญประกอบด้วย:

  • ผ้าแบบรวม:เครือข่ายเดียวสําหรับการคํานวณ (ตะวันออก-ตะวันตก) และการจดจอดข้อมูล ที่ทําให้การจัดการง่ายขึ้นและลดค่าใช้จ่าย CAPEX
  • การดําเนินงานที่ขาดทุนการนํามาใช้การควบคุมความจุกจุกของ InfiniBand และการจัดการกระแสการจราจรเพื่อรับประกันการสูญเสียแพ็คเก็ตที่ไม่มีค่า ซึ่งเป็นสิ่งสําคัญสําหรับผลงาน RDMA และ MPI
  • เครือข่ายที่กําหนดด้วยโปรแกรม:การบูรณาการกับ NVIDIA Cumulus Linux และแพลตฟอร์ม UFM® ทําให้สามารถทําโปรแกรมได้สําหรับการอัตโนมัติผ้าและการบริหารตามนโยบาย
3. บทบาทและลักษณะสําคัญของ NVIDIA Mellanox 920-9B210-00FN-0D0

รายการ920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDRสวิตช์เป็นหินมุมทางกลยุทธ์ของสถาปัตยกรรมนี้ ทําหน้าที่เป็นกระดูกสันหลังที่มีประสิทธิภาพสูง

คุณสมบัติทางเทคนิคหลักของมัน ตามรายละเอียดในใบข้อมูล 920-9B210-00FN-0D0, แก้ไขโดยตรงการปรับปรุงความช้าต่ํา:

  • การสลับตัดผ่านและความช้าต่ําสุดสวิตช์ใช้สถาปัตยกรรมการสวิตช์แบบตัดผ่านที่ก้าวหน้า, ประสบความช้า Port-to-Port ต่ํากว่า 100 นาโนวินาที..
  • NDR 400Gb/s ความกว้างแบนด์เวท:แต่ละท่าทางส่ง 400Gb / s, ให้พื้นที่ที่จําเป็นในการป้องกันความจุกจูงในช่วงภาระงานสูงสุด เช่น จุดตรวจสอบการฝึกอบรม AI หรือการปฏิบัติการ MPI_allreduce ในขนาดใหญ่
  • การปรับเปลี่ยนเส้นทางและการควบคุมความจุกจูงเทคโนโลยี SHARP (Scalable Hierarchical Aggregation and Reduction Protocol) TM v3 ของ NVIDIA ที่ติดอยู่ในสวิตช์ลดค่าใช้จ่ายในการทํางานร่วมกันอย่างมากรวมไปถึงการนําทางแบบปรับปรุงแบบไดนามิก มันป้องกันจุดร้อนและรับประกันการใช้งานผ้าที่สมดุล
  • ความเหมาะสมในอดีตและอนาคต:การเปลี่ยนเป็นส่วนสําคัญของยุทธศาสตร์การย้ายที่เรียบร้อยรองรับได้ด้วยอุปกรณ์ HDR (200Gb/s) และ EDR (100Gb/s) ที่มีอยู่รายละเอียด 920-9B210-00FN-0D0เป็นสิ่งสําคัญสําหรับการวางแผนการเชื่อมต่อท่าเรือและชนิดของเคเบิล
4. แนะนําการจัดจําหน่ายและการปรับขนาด (รวมถึงการอธิบายทอปโลจีทั่วไป)

การจัดจําหน่ายครั้งแรกควรปฏิบัติตามแนวทาง "pod" แบบโมดูล920-9B210-00FN-0D0สวิตช์ในตําแหน่งกระดูกสันหลังเพื่อการขยายตัว เชื่อมต่อกับสวิตช์แผ่น HDR หรือ NDR หลายชิ้น ที่รองรับหลายสิบจุดคอมพิวเตอร์

โตโปโลยีที่แนะนําสําหรับการทํางานที่ดีที่สุด:โตโปโลยี Clos (Fat-Tree) สองชั้นที่ไม่กั้นจํานวนสวิตช์กระดูกสันหลัง (920-9B210-00FN-0D0 หน่วย) กําหนดโดยจํานวนการเชื่อมต่อขึ้นจากสวิตช์ใบแต่ละใบและอัตราการสมัครสมาชิกเกินที่ต้องการ (เป็นทางเลือก 1:1 สําหรับ HPC/AI)

  • การขยายขนาดเพื่อปรับขนาดคลาสเตอร์ เพิ่มสวิตช์ใบมากขึ้นและเพิ่มมากขึ้นตามสัดส่วน920-9B210-00FN-0D0หน่วยกระดูกสันหลังเพื่อรักษาสัดส่วนที่ไม่ปิด โปรแกรมการแก้ไขและเส้นทางของผ้า
  • ขยายขนาด:หน่วยเดี่ยวสามารถปรับปรุงเป็น NDR NICs ได้ โดยใช้ความกว้างแบนด์วิทเต็ม 400Gb / s ไปยังกระดูกสันหลังทันทีรองรับได้ธรรมชาติสนับสนุนสภาพแวดล้อมที่แตกต่างกันนี้
  • สายไฟฟ้าและไฟฟ้า:การวางแผนการใช้งานต้องคํานึงถึงสายไฟฟ้าออปติกที่สอดคล้องกับ NDR (เช่น OSFP)รายละเอียด 920-9B210-00FN-0D0ให้บริการข้อมูลการใช้พลังงานและความร้อนที่แม่นยํา สําหรับการออกแบบพลังงานและความเย็นของศูนย์ข้อมูลที่แม่นยํา

เมื่อวิธีแก้ไขนี้มีสําหรับขายการประสานงานกับพันธมิตรที่ได้รับการรับรอง920-9B210-00FN-0D0 ราคาและปริมาณสําหรับแผนการปรับขนาดของคุณ

5การดําเนินงาน ติดตาม แก้ไขปัญหา และแนะนําการปรับปรุง

การดําเนินงานที่ดีที่สุดได้รับการบรรลุผ่าน NVIDIA UFM® ระบบที่ให้บริการจัดการรอบชีวิตครบวงจรสําหรับผ้าทั้งหมด920-9B210-00FN-0D0เปลี่ยน

  • การติดตามแบบประสานงานUFM® ให้บริการเทเลเมทรีในเวลาจริง เกี่ยวกับสภาพสวิตช์ การใช้งานพอร์ต อุณหภูมิ เครื่องนับความผิดพลาด และการวิเคราะห์อย่างลึกซึ้งรูปแบบการจราจรในระดับแอปพลิเคชั่นรวมถึงเมทริกซ์การสื่อสาร MPI และ RDMA.
  • การจัดการผ้าแบบอัตโนมัติจากการจัดหาเบื้องต้นและการยืนยันการใช้งานของสายไฟฟ้า ถึงการอัพเดทฟอร์มแวร์และการสํารองการตั้งค่า UFM® ทําให้งานประจําวันเป็นระบบอัตโนมัติ โดยลดความผิดพลาดจากมนุษย์และต้นทุนการดําเนินงาน
  • การแก้ไขปัญหา:อุปกรณ์ที่ทันสมัยสามารถระบุความผิดปกติในการทํางาน ระบุการเคลื่อนไหวที่ผิดปกติที่ทําให้เกิดการจราจร และจินตนาการทอปโลยีของผ้าเพื่อแยกแยกสายหรือองค์ประกอบที่ล้มเหลวอย่างรวดเร็ว
  • การปรับปรุงอย่างต่อเนื่อง:ส่งผลประโยชน์จากความรู้ UFM® ให้กับภาระงานขนาดถูกต้อง ยืนยันว่าผลงานตรงกับใบข้อมูลความคาดหวังและวางแผนการปรับปรุงความจุในอนาคต การตรวจสอบมาตรฐานความจุและความช้าช้าเป็นหลักในการรักษาผลงานสูงสุดของผ้า
6สรุปและการประเมินค่า

การใช้งานสถาปัตยกรรมผ้าที่เน้นNVIDIA Mellanox 920-9B210-00FN-0D0สวิตช์ InfiniBand ให้ข้อดีในการแข่งขันพื้นฐานสําหรับองค์กรที่ขึ้นอยู่กับคอมพิวเตอร์ประสิทธิภาพสูงการแก้ไขทางเทคนิคนี้นําเสนอคุณค่าที่สามารถคณิตประเมินได้ในหลายมิติ:

มิติค่า ผล ประสบ ได้
ผลงานทางเทคนิค ความช้าระยะเวลาที่ไม่เกินไมโครเซกอนด์, ความกว้างแบนด์ 400Gb/s ที่ไม่กักขัด และการทํางานที่ไม่ติดต่อ RDMA และ MPI
การเร่งขันธุรกิจ/วิจัย ลดเวลาทํางานของแอพลิเคชันลง 20-40% เร่งเวลาในการค้นพบและรอบการพัฒนาสินค้า
ประสิทธิภาพการดําเนินงาน การบริหารจัดการแบบรวมกัน การจัดหาสินค้าแบบอัตโนมัติ และเทเลเมตรีลึก ช่วยลด TCO และลดเวลาหยุดทํางานให้น้อยที่สุด
การคุ้มครองการลงทุน ความเข้ากันได้ในอดีตและสถาปัตยกรรมที่สามารถปรับขนาดได้ ป้องกันการลงทุนที่มีอยู่ขณะที่ให้ทางที่ชัดเจนไปยังเทคโนโลยีอนาคต

สรุปคือ920-9B210-00FN-0D0ไม่เพียงแค่ส่วนประกอบ แต่เป็นตัวช่วยในการสร้างพื้นฐานที่มีประสิทธิภาพสูงและเข้าใกล้กันมันเปลี่ยนเครือข่ายจากความรับผิดชอบที่เป็นไปได้ เป็นทรัพย์สินยุทธศาสตร์ ที่ปล่อยพลังงานของคลาสเตอร์คอมพิวเตอร์ที่ทันสมัย.