พิมพ์เขียวโซลูชันทางเทคนิค: อะแดปเตอร์เซิร์ฟเวอร์ Mellanox (NVIDIA) MCX631102AN-ADAT สำหรับการส่งข้อมูล RDMA/RoCE ที่มีความหน่วงต่ำ
March 12, 2026
สถาปัตยกรรมศูนย์ข้อมูลสมัยใหม่กำลังเผชิญกับแรงกดดันอย่างต่อเนื่องในการส่งมอบประสิทธิภาพที่สูงขึ้น ในขณะที่ยังคงรักษาประสิทธิภาพการดำเนินงาน การเติบโตแบบทวีคูณของปริมาณงานที่ต้องใช้ข้อมูลจำนวนมาก ตั้งแต่การวิเคราะห์แบบเรียลไทม์และการฝึกอบรม AI ไปจนถึงการจัดเก็บข้อมูลแบบกระจายและการซื้อขายทางการเงิน ได้เปิดเผยข้อจำกัดของโครงสร้างพื้นฐานเครือข่ายแบบดั้งเดิม คอขวดหลักอยู่ที่สแต็กเครือข่าย TCP/IP แบบดั้งเดิม ซึ่งใช้ทรัพยากร CPU จำนวนมาก สร้างความล่าช้าที่คาดเดาไม่ได้ และจำกัดปริมาณงานโดยรวมของระบบ
สถาปนิกองค์กรเผชิญกับความท้าทายที่สำคัญ: จะปรับขนาดประสิทธิภาพเครือข่ายได้อย่างไรโดยไม่ต้องเพิ่มต้นทุนและความซับซ้อนตามสัดส่วน โซลูชันนี้ต้องการการเปลี่ยนแปลงพื้นฐานจากเครือข่ายที่เน้น CPU ไปสู่โมเดลการสื่อสารที่เน้นข้อมูลและเร่งด้วยฮาร์ดแวร์ เอกสารทางเทคนิคฉบับนี้เสนอโซลูชันที่ครอบคลุมซึ่งสร้างขึ้นรอบๆ Mellanox (NVIDIA) MCX631102AN-ADAT ซึ่งตอบสนองความต้องการหลักสำหรับการส่งข้อมูลที่มีความหน่วงต่ำและการเพิ่มปริมาณงานของเซิร์ฟเวอร์ผ่านเทคโนโลยี RDMA/RoCE
สถาปัตยกรรมที่นำเสนอใช้โทโพโลยีแบบ leaf-spine ที่ปรับให้เหมาะสมสำหรับการเชื่อมต่อ 25GbE พร้อมการรองรับ RDMA/RoCE หัวใจของการออกแบบนี้คือหลักการของการกำจัดค่าใช้จ่าย CPU ที่เกี่ยวข้องกับเครือข่าย ในขณะที่ยังคงการรวมเข้ากับโครงสร้างพื้นฐานที่มีอยู่ได้อย่างราบรื่น
- ชั้น Leaf: สวิตช์ Top-of-rack ที่กำหนดค่าด้วย PFC (Priority Flow Control) และ ECN (Explicit Congestion Notification) เพื่อรองรับการรับส่งข้อมูล RoCE v2 แบบไม่สูญเสีย
- ชั้น Spine: สวิตช์ความจุสูงที่ให้การเชื่อมต่อแบบ any-to-any แบบไม่ปิดกั้นพร้อมอัปลิงก์ 100GbE
- ชั้น Server: โหนดประมวลผลและจัดเก็บข้อมูลที่ติดตั้งอะแดปเตอร์ NVIDIA Mellanox MCX631102AN-ADAT ConnectX-6 Lx แบบ dual-port 25GbE SFP28
- เครือข่ายจัดเก็บข้อมูล: ผ้าที่เปิดใช้งาน RoCE โดยเฉพาะสำหรับการเข้าถึง NVMe-oF ไปยังอาร์เรย์จัดเก็บข้อมูลแบบ all-flash
สถาปัตยกรรมรองรับโดเมนปริมาณงานหลายประเภท รวมถึงสภาพแวดล้อมเสมือนจริง, bare-metal และคอนเทนเนอร์ ผ่านการแบ่งส่วนปริมาณงานอัจฉริยะและนโยบาย QoS เซิร์ฟเวอร์แต่ละเครื่องใช้ประโยชน์จากความสามารถแบบ dual-port ของ MCX631102AN-ADAT สำหรับการกระจายโหลดแบบ active-active หรือการกำหนดค่าความพร้อมใช้งานสูงแบบ active-passive
การ์ดอะแดปเตอร์ Ethernet MCX631102AN-ADAT ทำหน้าที่เป็นอินเทอร์เฟซที่สำคัญระหว่างทรัพยากรเซิร์ฟเวอร์และผ้าเครือข่าย อะแดปเตอร์ขั้นสูงนี้ สร้างขึ้นบนสถาปัตยกรรม ConnectX-6 Lx นำเสนอความสามารถในการเปลี่ยนแปลงหลายประการ:
- การ Offload RDMA/RoCE แบบฮาร์ดแวร์: อะแดปเตอร์ใช้การ offload RoCE v2 แบบเต็มในฮาร์ดแวร์ ทำให้สามารถถ่ายโอนข้อมูลจากหน่วยความจำไปยังหน่วยความจำได้โดยตรงโดยไม่ต้องใช้ CPU ซึ่งช่วยลดความหน่วงให้เหลือเพียงเลขหลักเดียวไมโครวินาที ในขณะที่ปล่อยคอร์ CPU สำหรับการประมวลผลแอปพลิเคชัน
- การปรับ PCIe อัจฉริยะ: ด้วยอินเทอร์เฟซโฮสต์ PCIe 3.0/4.0 x8 ข้อมูลจำเพาะของ MCX631102AN-ADAT แสดงการรองรับปริมาณงานแบบสองทิศทางสูงสุด 50Gb/s ซึ่งช่วยขจัดคอขวด PCIe ในเซิร์ฟเวอร์ประสิทธิภาพสูง
- การรองรับเวอร์ชวลไลเซชันขั้นสูง: อะแดปเตอร์ให้ SR-IOV แบบฮาร์ดแวร์พร้อมฟังก์ชันเสมือนสูงสุด 512 ฟังก์ชัน ทำให้มั่นใจได้ถึงประสิทธิภาพที่คาดเดาได้สำหรับสภาพแวดล้อมแบบ multi-tenant
- การเร่งความเร็วในการจัดเก็บข้อมูล: การรองรับ NVMe-oF และ iSER แบบเนทีฟ ช่วยให้รูปแบบการเข้าถึงที่จัดเก็บข้อมูลมีประสิทธิภาพ ซึ่งจำเป็นสำหรับโครงสร้างพื้นฐานแบบ hyper-converged สมัยใหม่
การกำหนดค่า dual-port 25GbE SFP28 ให้ความยืดหยุ่นในการใช้งาน พอร์ตสามารถกำหนดค่าสำหรับเครือข่ายแยกต่างหาก (เช่น หนึ่งสำหรับจัดเก็บข้อมูล หนึ่งสำหรับประมวลผล) หรือรวมกันเพื่อเพิ่มแบนด์วิดท์และความซ้ำซ้อน
การติดตั้งโซลูชัน MCX631102AN-ADAT ConnectX-6 Lx dual-port 25GbE SFP28 ที่ประสบความสำเร็จ จำเป็นต้องมีการวางแผนอย่างรอบคอบในทุกชั้นของเครือข่าย เซิร์ฟเวอร์ และแอปพลิเคชัน ขอแนะนำแนวทางแบบเป็นระยะดังนี้:
| ระยะ | กิจกรรม | ข้อควรพิจารณาที่สำคัญ |
|---|---|---|
| 1. ความพร้อมของโครงสร้างพื้นฐาน | ตรวจสอบการรองรับสวิตช์สำหรับ RoCE (PFC/ECN), สายเคเบิล (SFP28) และความจุพลังงาน/การระบายความร้อน | อ้างอิงรายการสวิตช์ที่เข้ากันได้กับ MCX631102AN-ADAT จาก NVIDIA Mellanox |
| 2. การติดตั้งนำร่อง | ติดตั้งในคลัสเตอร์ปริมาณงานที่เป็นตัวแทน (เช่น โหนดฐานข้อมูลหรือวิเคราะห์) | ตรวจสอบข้อมูลจำเพาะของ MCX631102AN-ADAT เทียบกับข้อกำหนดปริมาณงาน |
| 3. การปรับแต่ง RoCE | กำหนดค่าลำดับความสำคัญของ PFC, เกณฑ์ ECN และการจัดสรรบัฟเฟอร์ | ใช้คู่มือการปรับแต่งประสิทธิภาพของ NVIDIA จากเอกสารข้อมูล MCX631102AN-ADAT |
| 4. การเปิดตัวการผลิต | ปรับขนาดไปยังคลัสเตอร์ทั้งหมดด้วยการจัดการการกำหนดค่าที่สอดคล้องกัน | ใช้การตรวจสอบและการแจ้งเตือนสำหรับสถานะปริมาณงาน RDMA |
สำหรับการติดตั้งหลายไซต์ ให้พิจารณาการใช้งาน RoCE บนเครือข่าย L3 โดยใช้คุณสมบัติขั้นสูง เช่น QoS ตาม DSCP และการเผยแพร่การแจ้งเตือนความแออัด โซลูชันการ์ดอะแดปเตอร์ Ethernet MCX631102AN-ADAT รวมถึงการรองรับคุณสมบัติเหล่านี้อย่างครอบคลุม
การรักษาประสิทธิภาพที่เหมาะสมที่สุดต้องอาศัยการมองเห็นรูปแบบปริมาณงาน RDMA/RoCE และสถานะของอะแดปเตอร์ แนวปฏิบัติดังต่อไปนี้ช่วยให้การดำเนินงานที่เชื่อถือได้:
- การตรวจสอบประสิทธิภาพ: ใช้เครื่องมือ NVIDIA Mellanox (mlxtool, ethtool) และยูทิลิตี้ Linux มาตรฐานเพื่อตรวจสอบสถิติพอร์ต, ตัวนับ RDMA และข้อผิดพลาด PCIe ตัวชี้วัดสำคัญ ได้แก่ การลดลงของความแออัดของ RoCE, เฟรมการหยุดพักของ PFC และแพ็กเก็ตที่ถูกทำเครื่องหมาย ECN
- การจัดการเฟิร์มแวร์และไดรเวอร์: การอัปเดตเป็นประจำช่วยให้เข้าถึงคุณสมบัติล่าสุดและการแก้ไขข้อบกพร่อง MCX631102AN-ADAT ที่ขายผ่านช่องทางที่ได้รับอนุญาต รวมถึงสิทธิ์ในการเข้าถึงคลังซอฟต์แวร์ระดับองค์กรของ NVIDIA
- การจัดการความแออัด: ใช้การปรับแต่งเกณฑ์แบบไดนามิกสำหรับบัฟเฟอร์ PFC ตามรูปแบบปริมาณงาน สำหรับแอปพลิเคชันที่ไวต่อความหน่วง ให้กำหนดกลุ่มลำดับความสำคัญแยกต่างหากสำหรับ RDMA และปริมาณงาน TCP แบบดั้งเดิม
- กรอบการแก้ไขปัญหา: พัฒนาแนวทางที่เป็นระบบสำหรับปัญหาทั่วไป:
- ปัญหาลิงก์: ตรวจสอบโมดูล SFP28, คุณภาพสายเคเบิล และการเจรจาความเร็ว
- การเชื่อมต่อ RoCE: ตรวจสอบความสมมาตรของการกำหนดค่า PFC ทั่วทั้งสวิตช์ทั้งหมด
- ประสิทธิภาพลดลง: ตรวจสอบการหมดบัฟเฟอร์หรือความแออัดของ incast
ข้อมูลจำเพาะของ MCX631102AN-ADAT ที่ครอบคลุมรวมถึงความสามารถในการวินิจฉัยที่กว้างขวางผ่านตัวนับฮาร์ดแวร์และรีจิสเตอร์ดีบักที่สามารถเข้าถึงได้ผ่านอินเทอร์เฟซการจัดการมาตรฐาน
อะแดปเตอร์เซิร์ฟเวอร์ Mellanox (NVIDIA) MCX631102AN-ADAT เป็นส่วนประกอบพื้นฐานสำหรับสถาปัตยกรรมศูนย์ข้อมูลยุคถัดไป ด้วยการเปิดใช้งานการสื่อสารที่ใช้ RDMA/RoCE ที่ความหนาแน่น 25GbE โซลูชันนี้ส่งมอบ:
- ลดค่าใช้จ่าย CPU ที่เกี่ยวข้องกับเครือข่ายลง 80-90% ทำให้สามารถรวมเซิร์ฟเวอร์และลดต้นทุนใบอนุญาต
- ความหน่วงต่ำกว่า 10 ไมโครวินาที สำหรับการสื่อสารระหว่างเซิร์ฟเวอร์ ทำให้เกิดแอปพลิเคชันแบบกระจายประเภทใหม่
- การปรับขนาดปริมาณงานแบบเชิงเส้น ตามขนาดคลัสเตอร์ ขจัดคอขวดเครือข่ายแบบดั้งเดิม
- การลงทุนที่พร้อมสำหรับอนาคต ด้วยความเข้ากันได้กับโครงสร้างพื้นฐานเซิร์ฟเวอร์และที่จัดเก็บข้อมูลหลายรุ่น
องค์กรที่พิจารณาการติดตั้งสามารถรับข้อมูลราคา MCX631102AN-ADAT โดยละเอียดและการให้คำปรึกษาทางเทคนิคจากพันธมิตร NVIDIA Mellanox ที่ได้รับอนุญาต สถาปัตยกรรมที่ได้รับการพิสูจน์แล้วของโซลูชันและการสนับสนุนระบบนิเวศที่กว้างขวางทำให้เป็นตัวเลือกที่ต้องการสำหรับองค์กรที่เปลี่ยนไปใช้โมเดลการประมวลผลที่เน้นข้อมูล

