Trên MXH X, tỷ phú Elon Musk vừa chia sẻ những hình ảnh khởi động “cluster huấn luyện mô hình AI mạnh nhất hành tinh”, thứ sẽ được startup nghiên cứu xAI của ông tạo ra “AI mạnh nhất thế giới xét trên mọi thước đo trước tháng 12 năm nay.” Cụm siêu máy chủ này có tên Memphis Supercluster, đã bắt đầu khởi động để huấn luyện mô hình ngôn ngữ do xAI phát triển, thông qua 100 nghìn GPU Nvidia H100 làm mát bằng chất lỏng, kết nối với nhau bằng cầu nối đơn RDMA (remote direct memory access).
Hồi tháng 5, đã có những thông tin nói về tham vọng của Elon Musk, muốn mở một “siêu nhà máy điện toán”, khái niệm được ông hay sử dụng khi mô tả những “siêu nhà máy” (gigafactory) sản xuất xe điện của Tesla, chẳng hạn như một cái ở Thượng Hải, Trung Quốc, hay hai siêu nhà máy khác tọa lạc tại bang Texas và Nevada ở Mỹ. Musk muốn xây dựng siêu nhà máy điện toán trước mùa thu năm 2025.
Ở thời điểm ấy, Elon Musk cùng các kỹ sư xAI đã bắt đầu công việc thiết kế và xây dựng cụm supercluster xử lý huấn luyện mô hình AI. Khi ấy, vị tỷ phú đã nhấn mạnh vào sự cần thiết đầu tư những mẫu GPU Nvidia H100. Điều này trong mắt các nhà phân tích, cho thấy có vẻ như Elon Musk không đủ kiên nhẫn chờ đợi H200, mẫu GPU mà Nvidia sản xuất không đủ đáp ứng đơn hàng. Còn B100 và B200 kiến trúc Blackwell phải tới cuối năm nay mới giao cho các đối tác, thời điểm ra mắt hoàn toàn lệch với tham vọng và lịch trình mà Musk muốn.
Anh em có thể nhầm lẫn rằng Memphis Supercluster chính là “Gigafactory xử lý AI” của Musk, và nó được “khai trương” sớm hẳn 1 năm. Nhưng kỳ thực Memphis Supercluster chỉ là một phần của toàn bộ “siêu nhà máy nghiên cứu và vận hành AI” Musk muốn xây dựng, và cũng có thể những nguồn tin của Reuters và The Information đã đưa ra thông tin không cập nhật về thời điểm vận hành dự án siêu máy tính nghiên cứu AI của startup Musk sở hữu.
Trong tấm hình ở cover, được trang của xAI trên MXH X chia sẻ, những cụm máy chủ được Supermicro cung cấp. Chính CEO của Supermicro, Charles Liang cũng đã bình luận vào bài đăng của Elon Musk: “Rất mừng được chung tay tạo ra lịch sử với Elon Musk, đây là một trải nghiệm tuyệt vời khi được làm việc với nhóm kỹ sư phát triển cụm siêu máy tính Memphis của anh. Để đạt được mục tiêu, cách chúng tôi làm việc phải hoàn hảo nhất, nhanh nhất, hiệu quả nhất và thân thiện với môi trường nhất có thể.”
Trong đoạn Tweet kế tiếp, Musk giải thích, supercluster với 100 nghìn GPU H100 này sẽ được dùng “huấn luyện mô hình AI mạnh nhất hành tinh.” Dựa trên những tuyên bố trước đó, rất có thể hệ thống này sẽ được dùng để huấn luyện Grok 3. Musk cho biết, LLM này sẽ hoàn tất quá trình huấn luyện vào khoảng tháng 12 năm nay.
Để dễ so sánh, 100 nghìn GPU H100 bên trong Memphis Supercluster của xAI và Elon Musk vượt xa sức mạnh xử lý GPU của tất cả mọi hệ thống siêu máy tính nằm trong danh sách Top500 hiện tại. Lấy ví dụ, hệ thống siêu máy tính mạnh nhất hành tinh hiện tại là Frontier với 37.888 GPU của AMD, hay kế đến là Aurora với 60 nghìn GPU Intel, rồi kế đến là Microsoft Eagle với 14.400 GPU Nvidia H100 đều sẽ có tốc độ huấn luyện mô hình ngôn ngữ AI thua xa với Memphis Supercluster của Musk.
Theo Tom’s Hardware (Theo TT)