Multiverse Computing gọi vốn triệu đô để "thu nhỏ" dữ liệu AI cho điện thoại di động

25/06/2025, 15:19
Startup của Tây Ban Nha tuyên bố các mô hình ngôn ngữ khổng lồ như Llama-2 có thể chạy mượt ngay trên smartphone mà không cần kỹ thuật rườm rà.
Multiverse Computing gọi vốn triệu đô để "thu nhỏ" dữ liệu AI cho điện thoại di động
Ảnh minh hoạ.

Mới đây, Multiverse Computing, startup Trí tuệ nhân tạo (AI) đến từ Tây Ban Nha, vừa huy động thành công 215 triệu USD với lời hứa đầy táo bạo: nén các mô hình AI khổng lồ xuống còn 5% kích thước ban đầu mà vẫn giữ nguyên hiệu năng.

Theo thông báo, Multiverse Computing sẽ sử dụng CompactifAI, phương pháp nén dữ liệu lấy cảm hứng từ vật lý lượng tử, để "thu nhỏ" các mô hình AI đủ để chạy trên điện thoại thông minh. Kết quả thử nghiệm cho thấy, phiên bản đã nén của mô hình Llama-2 7B chạy nhanh hơn 25% khi thực hiện suy luận (inference), sử dụng ít hơn 70% tham số và độ chính xác chỉ giảm khoảng 2-3%.

Có thể thấy kết quả sơ bộ ban đầu khá lạc quan. Đặc biệt, nếu công nghệ này chứng minh được hiệu quả ở quy mô lớn, nó có thể giải quyết bài toán nan giải: Đưa tối ưu hóa tất cả những mô hình AI vào thực tiễn đời sống, bao gồm cả những  mô hình với kích cỡ khủng chỉ có thể vận hành tại các trung tâm dữ liệu chuyên dụng.

Ông Román Orús, Giám đốc khoa học của Multiverse, chia sẻ trong một bài blog ngày 12/6: “Lần đầu tiên trong lịch sử, chúng ta có thể soi chiếu các hoạt động bên trong mạng nơ-ron để loại bỏ hàng tỷ mối tương quan dư thừa nhằm thực sự tối ưu hóa mọi loại mô hình AI”

Công ty đã hoàn thành vòng gọi vốn Series B trị giá 215 triệu USD do Bullhound Capital dẫn đầu, cùng sự tham gia của HP Tech Ventures và Toshiba.

Vật lý lượng tử đứng sau công nghệ nén

Áp dụng các khái niệm lấy cảm hứng từ vật lý lượng tử để giải quyết một trong những thách thức lớn nhất của AI nghe có vẻ phi thực tế, nhưng những nghiên cứu của họ đang cho thấy tiềm năng rất rõ ràng.

Khác với các kỹ thuật nén truyền thống như quantization (giảm độ chính xác số), pruning (cắt bỏ nơ-ron không quan trọng), hay distillation (huấn luyện mô hình nhỏ bắt chước mô hình lớn), CompactifAI sử dụng tensor networks - cấu trúc toán học từng được các nhà vật lý dùng để mô phỏng tương tác giữa các hạt mà không cần lưu trữ dữ liệu quá lớn.

Hãy hình dung quá trình này như gấp origami cho AI: các ma trận trọng số được “gập” lại thành các cấu trúc kết nối nhỏ hơn, gọi là Matrix Product Operators (tạm dịch: toán tử tích ma trận).

Thay vì lưu mọi kết nối giữa các nơ-ron, hệ thống chỉ giữ lại những mối liên hệ thực sự cần thiết, loại bỏ các mẫu lặp đi lặp lại hoặc không mang lại giá trị phân biệt.

Multiverse phát hiện rằng không phải lớp nào trong mô hình cũng dễ nén như nhau. Các lớp đầu thường dễ bị ảnh hưởng, trong khi những lớp sâu hơn (vốn mới được phát hiện là ít quan trọng hơn) có thể chịu được mức nén mạnh hơn.

Sau khi nén, mô hình được "hồi phục" thông qua một giai đoạn huấn luyện ngắn (ít hơn 1 epoch nhờ số lượng tham số giảm). Quá trình phục hồi này cũng nhanh hơn 50% so với huấn luyện mô hình gốc do giảm tải truyền dữ liệu giữa GPU và CPU.

Tóm lại theo Multiverse Computing: bạn đưa mô hình gốc vào, chạy CompactifAI và nhận về một phiên bản nén có ít hơn một nửa tham số, tốc độ suy diễn gấp đôi, chi phí rẻ hơn đáng kể, mà hiệu năng gần như không đổi.

img

Multiverse Computing cung cấp giải pháp nén các mô hình AI cho điện thoại di động. Nguồn: Multiverse Computing

Hồi tháng 3, chính phủ Tây Ban Nha cũng đã đầu tư thêm 67 triệu EUR, nâng tổng vốn đầu tư của công ty lên hơn 250 triệu USD.

Multiverse đang phục vụ hơn 100 khách hàng, bao gồm cả Bosch và Ngân hàng Trung ương Canada, với các ứng dụng trải rộng từ AI đến tối ưu năng lượng và mô hình tài chính.

Hiện công ty cung cấp các phiên bản đã nén của những mô hình mã nguồn mở như Llama hay Mistral trên nền tảng AWS và có kế hoạch mở rộng sang các mô hình khác như DeepSeek R1.

Các mô hình độc quyền như của OpenAI hay Claude vẫn ngoài tầm với do không thể truy cập mã nguồn để chỉnh sửa.

Bình luận (0)

Ý kiến của bạn sẽ được xét duyệt trước khi đăng. Xin vui lòng gõ tiếng Việt có dấu.