
(AsiaGameHub) – Nvidia đã phát hành Nemotron 3 Super, một mô hình AI mở mới được xây dựng để chạy nhanh hơn và xử lý các prompt rất dài. Nvidia hướng mô hình này đến các nhà phát triển xây dựng các tác nhân AI, nơi chi phí có thể tăng nhanh khi các mô hình cần lý luận qua nhiều bước.
Điều cần biết
- Nvidia cho biết Nemotron 3 Super cung cấp throughput cao hơn lên đến 7.5 lần so với Qwen3.5 122B A10B.
- Mô hình hỗ trợ cửa sổ ngữ cảnh lên đến 1 triệu token.
- Nvidia đã cung cấp mô hình và tài liệu đào tạo liên quan một cách mở.
Xây dựng cho tốc độ và đầu vào dài
Nemotron 3 Super không sử dụng tất cả các tham số của mình mỗi khi trả lời. Thay vào đó, nó sử dụng thiết kế Mixture of Experts, nơi chỉ một phần của mô hình hoạt động cho mỗi tác vụ. Nvidia cho biết điều này giúp giảm chi phí suy luận và làm cho mô hình hữu ích hơn cho các tác nhân AI thường tiêu tốn nhiều token.
Mô hình sử dụng sự kết hợp giữa các lớp Mamba và Transformer trên 88 lớp. Nói đơn giản, một phần giúp nó xử lý các đầu vào rất dài hiệu quả hơn, trong khi phần khác giúp nó duy trì độ chính xác. Nvidia cho biết cấu hình này cung cấp cho mô hình một cửa sổ ngữ cảnh gốc lên đến 1 triệu token.
Nvidia cũng đã thêm một hệ thống định tuyến tên là LatentMoE. Nó gửi mỗi tác vụ đến một nhóm chuyên gia nhỏ hơn bên trong mô hình thay vì sử dụng toàn bộ hệ thống. Theo Nvidia, điều này cho phép chuyên môn hóa hơn mà không tăng chi phí suy luận như các hệ thống MoE thông thường.
Công ty cho biết Nemotron 3 Super cung cấp throughput gấp 2.2 lần GPT OSS 120B và gấp 7.5 lần Qwen3.5 122B A10B trong cấu hình thử nghiệm đã nêu. Nvidia cũng cho biết nó cung cấp throughput hơn 5 lần và độ chính xác lên đến 2 lần so với phiên bản Nemotron Super trước đó.
Việc đào tạo đã được thực hiện trên 25 nghìn tỷ token, tiếp theo là một giai đoạn bổ sung trên 51 tỷ token để kéo dài độ dài ngữ cảnh lên 1 triệu token. Nvidia sau đó đã sử dụng tinh chỉnh tinh tế giám sát và học tăng cường để cải thiện hiệu suất.
Kết quả benchmark cũng rất mạnh. Nvidia báo cáo điểm số 83.73 trên MMLU Pro, 90.21 trên AIME25, 60.47 trên SWE Bench với OpenHands, 85.6% trên PinchBench và 91.64 trên RULER 1M. Mô hình cũng cung cấp năng lượng cho Nvidia AI Q, một tác nhân nghiên cứu đã đạt vị trí đầu bảng xếp hạng Deepresearch Bench.
Nvidia đã đào tạo mô hình trong định dạng NVFP4, một định dạng được xây dựng cho GPU Blackwell. Trên phần cứng B200, Nvidia cho biết suy luận có thể chạy nhanh hơn lên đến 4 lần so với FP8 trên H100, không có sự mất mát độ chính xác nào được báo cáo.
Nemotron 3 Super có sẵn theo Giấy phép Mô hình Mở Nvidia Nemotron. Các nhà phát triển có thể lấy checkpoint ở định dạng BF16, FP8 và NVFP4 trên Hugging Face. Nvidia cũng hỗ trợ suy luận thông qua Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure, Coreweave, Dell Enterprise Hub và HPE. Thêm nhiều hướng dẫn và công thức có sẵn thông qua NeMo.
Bài viết này được cung cấp bởi một nhà cung cấp nội dung bên thứ ba. AsiaGameHub (https://asiagamehub.com/) không đưa ra bất kỳ ضمان أو cam kết nào liên quan đến nội dung.
Danh mục: Tin tức mới nhất, Cập nhật chung
AsiaGameHub cung cấp dịch vụ phân phối iGaming mục tiêu cho các công ty và tổ chức, kết nối với hơn 3.000 cơ quan truyền thông cao cấp tại châu Á và hơn 80.000 người ảnh hưởng chuyên ngành. Đây là cầu nối tối ưu cho việc phân phối nội dung iGaming, casino và eSports trên toàn khu vực ASEAN.