NVIDIA Mellanox MCX653105A-HDAT Server Adapter การแก้ไขทางเทคนิค
June 15, 2026
เนื่องจากพื้นที่จัดเก็บแบบกระจาย ฐานข้อมูลแบบรวม และแพลตฟอร์มการฝึกอบรม AI พัฒนาไปสู่เครือข่าย 100GbE/200GbE สแตก TCP/IP แบบดั้งเดิมจึงกลายเป็นคอขวดของประสิทธิภาพหลัก การดำเนินการที่สำคัญ เช่น การจำลองข้อมูลและการซิงโครไนซ์บันทึกมีความไวต่อเวลาแฝงสูง แต่สแต็กเครือข่ายเคอร์เนลทำให้เกิดความล่าช้าหลายสิบไมโครวินาที และใช้ทรัพยากร CPU จำนวนมากสำหรับการประมวลผลโปรโตคอล ซึ่งจำกัดความสามารถในการปรับขนาดปริมาณงานอย่างรุนแรง ศูนย์ข้อมูลสมัยใหม่ต้องการโซลูชันเครือข่ายที่ให้เวลาแฝงใกล้หน่วยความจำ ทรูพุตอัตราบรรทัด และการแทรกแซง CPU น้อยที่สุด
โซลูชันทางเทคนิคนี้มีศูนย์กลางอยู่ที่NVIDIA Mellanox MCX653105A-HDATอะแดปเตอร์เซิร์ฟเวอร์ ออกแบบมาเพื่อตอบสนองความต้องการหลักต่อไปนี้:
- เวลาแฝงระหว่างโหนดต่ำกว่าไมโครวินาทีสำหรับพื้นที่จัดเก็บข้อมูลแบบกระจายและปริมาณงาน HPC
- การใช้งาน CPU ต่ำกว่า 10% สำหรับการประมวลผลเครือข่าย ทำให้มีคอร์ว่างสำหรับตรรกะของแอปพลิเคชัน
- การขนส่งแบบไม่สูญเสียพร้อมการควบคุมความแออัดเพื่อหลีกเลี่ยงความล่าช้าที่เพิ่มขึ้นอย่างรวดเร็ว
- การบูรณาการอย่างราบรื่นกับโครงสร้างพื้นฐานอีเทอร์เน็ตที่มีอยู่
- ออฟโหลดฮาร์ดแวร์สำหรับ NVMe-over-Fabrics (NVMe-oF) และ GPUDirect RDMA
สถาปัตยกรรมที่นำเสนอใช้โทโพโลยี CLOS (spine-leaf) สองชั้น โดยมี RoCE (RDMA บน Converged Ethernet) ใช้เป็นโปรโตคอลการขนส่งหลัก เซิร์ฟเวอร์ประมวลผลและจัดเก็บข้อมูลทั้งหมดมีการติดตั้งการ์ดอะแดปเตอร์อีเทอร์เน็ต MCX653105A-HDATเชื่อมต่อกับสวิตช์ลีฟที่รองรับ RoCE เปิดใช้งาน PFC (Priority Flow Control) และ ECN (การแจ้งเตือนความแออัดอย่างชัดเจน) เพื่อสร้างโดเมนอีเทอร์เน็ตแบบไม่สูญเสียข้อมูลสำหรับการรับส่งข้อมูล RDMA ในขณะที่คิวลำดับความสำคัญแยกกันจะแยกพื้นที่เก็บข้อมูล, HPC และโฟลว์การจัดการ
การตัดสินใจทางสถาปัตยกรรมที่สำคัญ ได้แก่ :
- RoCEv2ผ่าน UDP‑IP เพื่ออนุญาตการกำหนดเส้นทางข้ามขอบเขตเลเยอร์ 3
- DCQCN (การแจ้งเตือนความแออัดเชิงปริมาณของศูนย์ข้อมูล)เพื่อการจัดการความแออัดเชิงรุก
- PCIe แบบแบ่งพาร์ติชันเพื่อจัดสรรแบนด์วิธสำหรับการจัดเก็บข้อมูลเทียบกับการรับส่งข้อมูลการประมวลผลบนอะแดปเตอร์เดียวกัน
- รองรับหลายโฮสต์เปิดใช้งานเซิร์ฟเวอร์ได้สูงสุดสี่เครื่องเพื่อแชร์อะแดปเตอร์ตัวเดียว (สถานการณ์พื้นที่เก็บข้อมูลแบบแยกส่วน)
หัวใจสำคัญของโซลูชันนี้คือNVIDIA Mellanox MCX653105A-HDAT– อะแดปเตอร์ 100GbE ConnectX‑6 Dx สองพอร์ต – ทำหน้าที่เป็นกลไกออฟโหลดที่สำคัญ ตามที่เอกสารข้อมูลสินค้า MCX653105A-HDATการ์ดดังกล่าวรวมตัวเร่งฮาร์ดแวร์ที่เปลี่ยนวิธีที่เซิร์ฟเวอร์จัดการ I/O เครือข่ายโดยพื้นฐาน
ตารางต่อไปนี้เน้นย้ำว่าฟีเจอร์เฉพาะเจาะจงตอบสนองความต้องการทางสถาปัตยกรรมอย่างไร:
| คุณสมบัติ | การทำงาน | ผลประโยชน์ |
|---|---|---|
| ออฟโหลดฮาร์ดแวร์ RoCE | ทำสแต็ก RDMA ให้สมบูรณ์ในอะแดปเตอร์ | เวลาแฝงต่ำกว่า 1µs, การคัดลอก CPU เป็นศูนย์ |
| NVMe-oF ออฟโหลดเป้าหมาย | การเร่งความเร็วด้วยฮาร์ดแวร์สำหรับคำสั่ง NVMe | ทรูพุตการจัดเก็บข้อมูล 5 เท่า ลด CPU ลง 90% |
| ASAP2 (การสลับแบบเร่ง) | เปิด vSwitch ออฟโหลดไปยังฮาร์ดแวร์ | การซ้อนทับการจำลองเสมือนแบบ Line-rate |
| การบูตที่ปลอดภัยและการเข้ารหัสแบบอินไลน์ | ออฟโหลดฮาร์ดแวร์ IPsec/TLS | การเข้ารหัสโดยไม่มีการลดหย่อนประสิทธิภาพ |
ที่MCX653105A-HDAT อะแดปเตอร์ ConnectX การ์ดเครือข่าย PCIeยังรวมถึงการตรวจวัดระยะไกลขั้นสูง โดยแต่ละแพ็กเก็ตจะมีการประทับเวลาของฮาร์ดแวร์และตัวนับโฟลว์ ทำให้มองเห็นความแออัดแบบเรียลไทม์โดยไม่ต้องสำรวจ CPU ของโฮสต์ สำหรับองค์กรที่เกี่ยวข้องกับการจัดซื้อจัดจ้างMCX653105A-HDAT ราคาให้ ROI ที่น่าดึงดูดเมื่อเปรียบเทียบกับการปรับขนาดเฉพาะ CPU หรือทางเลือกอื่นที่ใช้ FPGA
สำหรับคลัสเตอร์ 200 โหนดทั่วไป เราขอแนะนำวิธีการปรับใช้ต่อไปนี้:
- ชั้นใบ:สวิตช์ที่รองรับ RoCE (เช่น NVIDIA SN3700) พร้อมเปิดใช้งาน PFC/ECN ได้รับการกำหนดค่าสำหรับพารามิเตอร์ DCQCN ที่ปรับให้เข้ากับปริมาณงานที่เพิ่มขึ้น
- ชั้นกระดูกสันหลัง:สวิตช์แบบไม่ปิดกั้นที่มีอัตราส่วนการสมัครใช้งานเกินขนาดเพียงพอ (สูงสุด 3:1 สำหรับการรับส่งข้อมูลพื้นที่จัดเก็บข้อมูล)
- ฝั่งเซิร์ฟเวอร์:หนึ่งโซลูชันการ์ดอะแดปเตอร์อีเทอร์เน็ต MCX653105A-HDATต่อสองโหนดสำหรับคลัสเตอร์พื้นที่จัดเก็บข้อมูลที่ใช้ร่วมกัน หรือหนึ่งโหนดต่อโหนดสำหรับ HPC ที่เน้นการประมวลผล
- บัฟเฟอร์และ MTU:กำหนดค่าจัมโบ้เฟรมขนาด 9000 ไบต์ตั้งแต่ต้นจนจบ และจัดสรรบัฟเฟอร์สวิตช์ 10–20% ต่อกลุ่มลำดับความสำคัญเพื่อการรับประกันแบบไม่สูญเสีย
เมื่อตรวจสอบความเข้ากันได้ แพลตฟอร์มเซิร์ฟเวอร์หลักส่วนใหญ่จะเป็นเช่นนั้นรองรับ MCX653105A-HDAT– รวมถึง Dell PowerEdge, HPE ProLiant, Lenovo ThinkSystem และ Supermicro อินเทอร์เฟซ PCIe 4.0/5.0 x16 ของอะแดปเตอร์ช่วยให้มั่นใจได้ถึงแบนด์วิดธ์ที่รองรับอนาคตสำหรับ CPU รุ่นต่อไป
การใช้งานการผลิต RoCE จำเป็นต้องมีการมองเห็นเชิงรุก เราขอแนะนำแนวทางปฏิบัติในการปฏิบัติงานดังต่อไปนี้:
- การรวบรวมการวัดและส่งข้อมูลทางไกล:ใช้ NVIDIA
เอ็มเอฟที(เครื่องมือเฟิร์มแวร์ Mellanox) และethtool-Sเพื่อส่งออกตัวนับต่อพอร์ตและต่อคิวไปยัง Prometheus หรือระบบที่คล้ายกัน - ตัวชี้วัดหลักในการตรวจสอบ:เฟรมหยุดชั่วคราว PFC ต่อวินาที อัตราแพ็กเก็ตที่ทำเครื่องหมาย ECN การส่งข้อมูล RoCE ใหม่ และอุณหภูมิของอะแดปเตอร์
- การตรวจจับความแออัด:การหยุดชั่วคราวของ PFC ที่เพิ่มขึ้นอย่างกะทันหันมักส่งสัญญาณว่าตัวรับสัญญาณช้า ตรวจสอบข้อมูลจำเพาะ MCX653105A-HDATสำหรับพารามิเตอร์การปรับเกณฑ์บัฟเฟอร์
- การจัดการเฟิร์มแวร์:กำหนดเวลาการอัพเกรดเฟิร์มแวร์ระหว่างช่วงเวลาบำรุงรักษา อะแดปเตอร์รองรับการโยกย้ายการเชื่อมต่อ RoCE แบบสดเพื่อลดเวลาหยุดทำงาน
- รายการตรวจสอบการปรับแต่งประสิทธิภาพ:เปิดใช้งานการรวม IRQ ตั้งค่าขนาดวงแหวน Rx/Tx ที่เหมาะสม (แนะนำ 4096) ปักหมุดการขัดจังหวะไปยังคอร์เฉพาะ และตรวจสอบความกว้างของลิงก์ PCIe (x16 @ Gen4/5)
ที่NVIDIA Mellanox MCX653105A-HDATมอบรากฐานที่สมบูรณ์และพร้อมสำหรับการผลิตสำหรับแฟบริคที่มีความหน่วงต่ำที่ใช้ RDMA/RoCE ด้วยการลดภาระเส้นทางข้อมูลทั้งหมด ตั้งแต่คำสั่งการจัดเก็บข้อมูลไปจนถึงการสลับเสมือนและการเข้ารหัสความปลอดภัย จะช่วยแปลงเครือข่ายเซิร์ฟเวอร์จากปัญหาคอขวดเป็นตัวเร่งความเร็ว องค์กรที่ใช้โซลูชันนี้สามารถคาดหวัง:
- เวลาแฝงต่ำกว่า 2µs เชิงกำหนดข้ามหลายร้อยโหนด
- ปรับปรุงปริมาณงาน 5–10 เท่าสำหรับเวิร์กโฟลว์ NVMe‑oF และ HPC
- ลดลง 80–90%ในโอเวอร์เฮด CPU ที่เกี่ยวข้องกับเครือข่าย
- ความสามารถในการปรับขนาดเชิงเส้นปราศจากความแออัดถล่มทลาย
สำหรับวิศวกรที่กำลังประเมินทางเลือกต่างๆเอกสารข้อมูลสินค้า MCX653105A-HDATและคำแนะนำความเข้ากันได้อย่างเป็นทางการเป็นข้อมูลอ้างอิงที่เชื่อถือได้ ด้วยอะแดปเตอร์ที่แพร่หลายในปัจจุบันขาย MCX653105A-HDATผ่านพันธมิตรช่องทางของ NVIDIA เส้นทางสู่ระนาบข้อมูลประสิทธิภาพสูงและความหน่วงต่ำนั้นชัดเจนและบรรลุได้ โซลูชันทางเทคนิคนี้จัดทำพิมพ์เขียวสำหรับองค์กรใดๆ ก็ตามที่ต้องการปลดล็อกศักยภาพสูงสุดของเครือข่าย 100GbE ด้วย RDMA และ RoCE

