พิมพ์เขียวโซลูชันทางเทคนิค: อะแดปเตอร์เซิร์ฟเวอร์ Mellanox (NVIDIA) MCX631102AN-ADAT สำหรับการส่งข้อมูล RDMA/RoCE ที่มีความหน่วงต่ำ

March 12, 2026

พิมพ์เขียวโซลูชันทางเทคนิค: อะแดปเตอร์เซิร์ฟเวอร์ Mellanox (NVIDIA) MCX631102AN-ADAT สำหรับการส่งข้อมูล RDMA/RoCE ที่มีความหน่วงต่ำ
1. ความเป็นมาของโครงการและการวิเคราะห์ข้อกำหนด

สถาปัตยกรรมศูนย์ข้อมูลสมัยใหม่กำลังเผชิญกับแรงกดดันอย่างต่อเนื่องในการส่งมอบประสิทธิภาพที่สูงขึ้น ในขณะที่ยังคงรักษาประสิทธิภาพการดำเนินงาน การเติบโตแบบทวีคูณของปริมาณงานที่ต้องใช้ข้อมูลจำนวนมาก ตั้งแต่การวิเคราะห์แบบเรียลไทม์และการฝึกอบรม AI ไปจนถึงการจัดเก็บข้อมูลแบบกระจายและการซื้อขายทางการเงิน ได้เปิดเผยข้อจำกัดของโครงสร้างพื้นฐานเครือข่ายแบบดั้งเดิม คอขวดหลักอยู่ที่สแต็กเครือข่าย TCP/IP แบบดั้งเดิม ซึ่งใช้ทรัพยากร CPU จำนวนมาก สร้างความล่าช้าที่คาดเดาไม่ได้ และจำกัดปริมาณงานโดยรวมของระบบ

สถาปนิกองค์กรเผชิญกับความท้าทายที่สำคัญ: จะปรับขนาดประสิทธิภาพเครือข่ายได้อย่างไรโดยไม่ต้องเพิ่มต้นทุนและความซับซ้อนตามสัดส่วน โซลูชันนี้ต้องการการเปลี่ยนแปลงพื้นฐานจากเครือข่ายที่เน้น CPU ไปสู่โมเดลการสื่อสารที่เน้นข้อมูลและเร่งด้วยฮาร์ดแวร์ เอกสารทางเทคนิคฉบับนี้เสนอโซลูชันที่ครอบคลุมซึ่งสร้างขึ้นรอบๆ Mellanox (NVIDIA) MCX631102AN-ADAT ซึ่งตอบสนองความต้องการหลักสำหรับการส่งข้อมูลที่มีความหน่วงต่ำและการเพิ่มปริมาณงานของเซิร์ฟเวอร์ผ่านเทคโนโลยี RDMA/RoCE

2. การออกแบบสถาปัตยกรรมเครือข่ายและระบบโดยรวม

สถาปัตยกรรมที่นำเสนอใช้โทโพโลยีแบบ leaf-spine ที่ปรับให้เหมาะสมสำหรับการเชื่อมต่อ 25GbE พร้อมการรองรับ RDMA/RoCE หัวใจของการออกแบบนี้คือหลักการของการกำจัดค่าใช้จ่าย CPU ที่เกี่ยวข้องกับเครือข่าย ในขณะที่ยังคงการรวมเข้ากับโครงสร้างพื้นฐานที่มีอยู่ได้อย่างราบรื่น

  • ชั้น Leaf: สวิตช์ Top-of-rack ที่กำหนดค่าด้วย PFC (Priority Flow Control) และ ECN (Explicit Congestion Notification) เพื่อรองรับการรับส่งข้อมูล RoCE v2 แบบไม่สูญเสีย
  • ชั้น Spine: สวิตช์ความจุสูงที่ให้การเชื่อมต่อแบบ any-to-any แบบไม่ปิดกั้นพร้อมอัปลิงก์ 100GbE
  • ชั้น Server: โหนดประมวลผลและจัดเก็บข้อมูลที่ติดตั้งอะแดปเตอร์ NVIDIA Mellanox MCX631102AN-ADAT ConnectX-6 Lx แบบ dual-port 25GbE SFP28
  • เครือข่ายจัดเก็บข้อมูล: ผ้าที่เปิดใช้งาน RoCE โดยเฉพาะสำหรับการเข้าถึง NVMe-oF ไปยังอาร์เรย์จัดเก็บข้อมูลแบบ all-flash

สถาปัตยกรรมรองรับโดเมนปริมาณงานหลายประเภท รวมถึงสภาพแวดล้อมเสมือนจริง, bare-metal และคอนเทนเนอร์ ผ่านการแบ่งส่วนปริมาณงานอัจฉริยะและนโยบาย QoS เซิร์ฟเวอร์แต่ละเครื่องใช้ประโยชน์จากความสามารถแบบ dual-port ของ MCX631102AN-ADAT สำหรับการกระจายโหลดแบบ active-active หรือการกำหนดค่าความพร้อมใช้งานสูงแบบ active-passive

3. บทบาทของ Mellanox (NVIDIA) MCX631102AN-ADAT ในโซลูชัน

การ์ดอะแดปเตอร์ Ethernet MCX631102AN-ADAT ทำหน้าที่เป็นอินเทอร์เฟซที่สำคัญระหว่างทรัพยากรเซิร์ฟเวอร์และผ้าเครือข่าย อะแดปเตอร์ขั้นสูงนี้ สร้างขึ้นบนสถาปัตยกรรม ConnectX-6 Lx นำเสนอความสามารถในการเปลี่ยนแปลงหลายประการ:

  • การ Offload RDMA/RoCE แบบฮาร์ดแวร์: อะแดปเตอร์ใช้การ offload RoCE v2 แบบเต็มในฮาร์ดแวร์ ทำให้สามารถถ่ายโอนข้อมูลจากหน่วยความจำไปยังหน่วยความจำได้โดยตรงโดยไม่ต้องใช้ CPU ซึ่งช่วยลดความหน่วงให้เหลือเพียงเลขหลักเดียวไมโครวินาที ในขณะที่ปล่อยคอร์ CPU สำหรับการประมวลผลแอปพลิเคชัน
  • การปรับ PCIe อัจฉริยะ: ด้วยอินเทอร์เฟซโฮสต์ PCIe 3.0/4.0 x8 ข้อมูลจำเพาะของ MCX631102AN-ADAT แสดงการรองรับปริมาณงานแบบสองทิศทางสูงสุด 50Gb/s ซึ่งช่วยขจัดคอขวด PCIe ในเซิร์ฟเวอร์ประสิทธิภาพสูง
  • การรองรับเวอร์ชวลไลเซชันขั้นสูง: อะแดปเตอร์ให้ SR-IOV แบบฮาร์ดแวร์พร้อมฟังก์ชันเสมือนสูงสุด 512 ฟังก์ชัน ทำให้มั่นใจได้ถึงประสิทธิภาพที่คาดเดาได้สำหรับสภาพแวดล้อมแบบ multi-tenant
  • การเร่งความเร็วในการจัดเก็บข้อมูล: การรองรับ NVMe-oF และ iSER แบบเนทีฟ ช่วยให้รูปแบบการเข้าถึงที่จัดเก็บข้อมูลมีประสิทธิภาพ ซึ่งจำเป็นสำหรับโครงสร้างพื้นฐานแบบ hyper-converged สมัยใหม่

การกำหนดค่า dual-port 25GbE SFP28 ให้ความยืดหยุ่นในการใช้งาน พอร์ตสามารถกำหนดค่าสำหรับเครือข่ายแยกต่างหาก (เช่น หนึ่งสำหรับจัดเก็บข้อมูล หนึ่งสำหรับประมวลผล) หรือรวมกันเพื่อเพิ่มแบนด์วิดท์และความซ้ำซ้อน

4. คำแนะนำในการติดตั้งและขยาย

การติดตั้งโซลูชัน MCX631102AN-ADAT ConnectX-6 Lx dual-port 25GbE SFP28 ที่ประสบความสำเร็จ จำเป็นต้องมีการวางแผนอย่างรอบคอบในทุกชั้นของเครือข่าย เซิร์ฟเวอร์ และแอปพลิเคชัน ขอแนะนำแนวทางแบบเป็นระยะดังนี้:

ระยะ กิจกรรม ข้อควรพิจารณาที่สำคัญ
1. ความพร้อมของโครงสร้างพื้นฐาน ตรวจสอบการรองรับสวิตช์สำหรับ RoCE (PFC/ECN), สายเคเบิล (SFP28) และความจุพลังงาน/การระบายความร้อน อ้างอิงรายการสวิตช์ที่เข้ากันได้กับ MCX631102AN-ADAT จาก NVIDIA Mellanox
2. การติดตั้งนำร่อง ติดตั้งในคลัสเตอร์ปริมาณงานที่เป็นตัวแทน (เช่น โหนดฐานข้อมูลหรือวิเคราะห์) ตรวจสอบข้อมูลจำเพาะของ MCX631102AN-ADAT เทียบกับข้อกำหนดปริมาณงาน
3. การปรับแต่ง RoCE กำหนดค่าลำดับความสำคัญของ PFC, เกณฑ์ ECN และการจัดสรรบัฟเฟอร์ ใช้คู่มือการปรับแต่งประสิทธิภาพของ NVIDIA จากเอกสารข้อมูล MCX631102AN-ADAT
4. การเปิดตัวการผลิต ปรับขนาดไปยังคลัสเตอร์ทั้งหมดด้วยการจัดการการกำหนดค่าที่สอดคล้องกัน ใช้การตรวจสอบและการแจ้งเตือนสำหรับสถานะปริมาณงาน RDMA

สำหรับการติดตั้งหลายไซต์ ให้พิจารณาการใช้งาน RoCE บนเครือข่าย L3 โดยใช้คุณสมบัติขั้นสูง เช่น QoS ตาม DSCP และการเผยแพร่การแจ้งเตือนความแออัด โซลูชันการ์ดอะแดปเตอร์ Ethernet MCX631102AN-ADAT รวมถึงการรองรับคุณสมบัติเหล่านี้อย่างครอบคลุม

5. การดำเนินงาน การตรวจสอบ และการปรับปรุงประสิทธิภาพ

การรักษาประสิทธิภาพที่เหมาะสมที่สุดต้องอาศัยการมองเห็นรูปแบบปริมาณงาน RDMA/RoCE และสถานะของอะแดปเตอร์ แนวปฏิบัติดังต่อไปนี้ช่วยให้การดำเนินงานที่เชื่อถือได้:

  • การตรวจสอบประสิทธิภาพ: ใช้เครื่องมือ NVIDIA Mellanox (mlxtool, ethtool) และยูทิลิตี้ Linux มาตรฐานเพื่อตรวจสอบสถิติพอร์ต, ตัวนับ RDMA และข้อผิดพลาด PCIe ตัวชี้วัดสำคัญ ได้แก่ การลดลงของความแออัดของ RoCE, เฟรมการหยุดพักของ PFC และแพ็กเก็ตที่ถูกทำเครื่องหมาย ECN
  • การจัดการเฟิร์มแวร์และไดรเวอร์: การอัปเดตเป็นประจำช่วยให้เข้าถึงคุณสมบัติล่าสุดและการแก้ไขข้อบกพร่อง MCX631102AN-ADAT ที่ขายผ่านช่องทางที่ได้รับอนุญาต รวมถึงสิทธิ์ในการเข้าถึงคลังซอฟต์แวร์ระดับองค์กรของ NVIDIA
  • การจัดการความแออัด: ใช้การปรับแต่งเกณฑ์แบบไดนามิกสำหรับบัฟเฟอร์ PFC ตามรูปแบบปริมาณงาน สำหรับแอปพลิเคชันที่ไวต่อความหน่วง ให้กำหนดกลุ่มลำดับความสำคัญแยกต่างหากสำหรับ RDMA และปริมาณงาน TCP แบบดั้งเดิม
  • กรอบการแก้ไขปัญหา: พัฒนาแนวทางที่เป็นระบบสำหรับปัญหาทั่วไป:
    • ปัญหาลิงก์: ตรวจสอบโมดูล SFP28, คุณภาพสายเคเบิล และการเจรจาความเร็ว
    • การเชื่อมต่อ RoCE: ตรวจสอบความสมมาตรของการกำหนดค่า PFC ทั่วทั้งสวิตช์ทั้งหมด
    • ประสิทธิภาพลดลง: ตรวจสอบการหมดบัฟเฟอร์หรือความแออัดของ incast

ข้อมูลจำเพาะของ MCX631102AN-ADAT ที่ครอบคลุมรวมถึงความสามารถในการวินิจฉัยที่กว้างขวางผ่านตัวนับฮาร์ดแวร์และรีจิสเตอร์ดีบักที่สามารถเข้าถึงได้ผ่านอินเทอร์เฟซการจัดการมาตรฐาน

6. สรุปและการประเมินมูลค่า

อะแดปเตอร์เซิร์ฟเวอร์ Mellanox (NVIDIA) MCX631102AN-ADAT เป็นส่วนประกอบพื้นฐานสำหรับสถาปัตยกรรมศูนย์ข้อมูลยุคถัดไป ด้วยการเปิดใช้งานการสื่อสารที่ใช้ RDMA/RoCE ที่ความหนาแน่น 25GbE โซลูชันนี้ส่งมอบ:

  • ลดค่าใช้จ่าย CPU ที่เกี่ยวข้องกับเครือข่ายลง 80-90% ทำให้สามารถรวมเซิร์ฟเวอร์และลดต้นทุนใบอนุญาต
  • ความหน่วงต่ำกว่า 10 ไมโครวินาที สำหรับการสื่อสารระหว่างเซิร์ฟเวอร์ ทำให้เกิดแอปพลิเคชันแบบกระจายประเภทใหม่
  • การปรับขนาดปริมาณงานแบบเชิงเส้น ตามขนาดคลัสเตอร์ ขจัดคอขวดเครือข่ายแบบดั้งเดิม
  • การลงทุนที่พร้อมสำหรับอนาคต ด้วยความเข้ากันได้กับโครงสร้างพื้นฐานเซิร์ฟเวอร์และที่จัดเก็บข้อมูลหลายรุ่น

องค์กรที่พิจารณาการติดตั้งสามารถรับข้อมูลราคา MCX631102AN-ADAT โดยละเอียดและการให้คำปรึกษาทางเทคนิคจากพันธมิตร NVIDIA Mellanox ที่ได้รับอนุญาต สถาปัตยกรรมที่ได้รับการพิสูจน์แล้วของโซลูชันและการสนับสนุนระบบนิเวศที่กว้างขวางทำให้เป็นตัวเลือกที่ต้องการสำหรับองค์กรที่เปลี่ยนไปใช้โมเดลการประมวลผลที่เน้นข้อมูล