Ngày 14/3, Meta, phối hợp cùng Trung tâm Đổi mới sáng tạo Quốc gia (NIC) trực thuộc Bộ Tài chính đã chính thức khởi động Chương trình Thách thức Đổi mới sáng tạo 2025, đánh dấu năm triển khai thứ ba của chương trình với mục tiêu thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam.

Đặt nền móng phát triển AI của Việt Nam với dữ liệu tiếng Việt mã nguồn mở

Chương trình năm nay tập trung vào dự án ViGen với nỗ lực tạo ra bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao để đào tạo, đánh giá và từ đó nâng cao hiệu quả của các mô hình ngôn ngữ lớn (LLMs), giúp các mô hình AI hiểu rõ hơn văn hóa, bối cảnh và cách diễn đạt trong tiếng Việt.

Dự án này được kỳ vọng sẽ nâng cao sự hiện diện của tiếng Việt trong quá trình phát triển AI, đồng thời góp phần thúc đẩy nền kinh tế số phát triển vượt bậc và bền vững.

ViGen: Biến AI thành công cụ mạnh mẽ cho người Việt
Cuộc họp báo giới thiệu chương trình diễn ra sáng 14/3.

Theo ông Võ Xuân Hoài, Phó Giám đốc NIC, dự án ViGen khởi nguồn từ hợp tác ba bên giữa tập đoàn Meta, NIC và tổ chức “AI for Vietnam”. Trong đó, NIC đóng vai trò là đơn vị chủ quản, điều phối, bảo đảm dự án phù hợp với các mục tiêu quốc gia của Việt Nam. AI for Vietnam là đối tác triển khai dự án với những hỗ trợ về kỹ thuật và tài chính từ Tập đoàn Meta. Các đối tác chiến lược bao gồm NVIDIA, Viettel, và Viện Hàn lâm Khoa học và Công nghệ Việt Nam.

"Dự án ViGen phù hợp với Nghị quyết 57-NQ/TW của Bộ Chính trị nhằm thúc đẩy đột phá trong khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia.

Dự án ViGen đòi hỏi nỗ lực chung từ các nhà hoạch định chính sách, nhóm nghiên cứu, nhà nghiên cứu, nhà phát triển, chuyên gia và người dùng. Cùng nhau, chúng ta sẽ biến AI thành một công cụ mạnh mẽ cho mọi người Việt Nam và đưa Việt Nam trở thành cường quốc AI toàn cầu", ông Võ Xuân Hoài cho hay.

Trao đổi tại cuộc họp báo giới thiệu chương trình, ông Sarim Aziz, Giám đốc Chính sách Công tại Meta cho biết hơn 99% dữ liệu cho AI hiện tại là bằng tiếng Anh và các ngôn ngữ khác, chỉ có chưa đầy 1% các dữ liệu AI là bằng tiếng Việt Nam. Do đó, các mô hình AI về Việt Nam hiện chưa được huấn luyện bằng các tệp dữ liệu phù hợp, khiến tính chính xác và hiệu quả còn hạn chế.

“Tổng Bí thư Tô Lâm đã khẳng định AI là thành tố quan trọng để đưa Việt Nam vào kỷ nguyên vươn mình của dân tộc. AI có năng lực để tạo bước đột phá, chuyển đổi cho cả quốc gia, do đó đây là dự án có tính chất bao trùm cho cả quốc gia. Vì vậy, Meta muốn là người đóng góp đầu tiên cho dự án này, thông qua đóng góp 20 bộ dữ liệu AI đầu tiên đầy đủ về Việt Nam, dành cho người Việt Nam”, ông Sarim Aziz chia sẻ.

Để phát triển dự án, Meta cung cấp miễn phí mô hình ngôn ngữ lớn mã nguồn mở Llama. Đây được ví như bộ não, là động cơ để các nhà phát triển Việt Nam, các cơ quan Chính phủ có thể sử dụng để phát triển các sản phẩm AI dựa trên mô hình mã nguồn mở này.

ViGen: Biến AI thành công cụ mạnh mẽ cho người Việt
Ông Sarim Aziz, Giám đốc Chính sách Công tại Meta trình bày tại cuộc họp báo.

Đưa Việt Nam bắt kịp, tiến nhanh trong lĩnh vực AI

Nhấn mạnh tầm quan trọng của AI trong chuyển đổi thế giới, ông Võ Xuân Hoài cho rằng việc phát triển các tập dữ liệu Việt Nam quy mô lớn, chất lượng cao và mã nguồn mở để đào tạo và đánh giá AI là ưu tiên cấp bách.

Theo PGS.TS Nguyễn Trường Thắng, Viện trưởng Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam, hiện nay các mô hình AI như Chat GPT của Open AI không cho phép mọi người có thể cùng tìm hiểu, đào tạo và phần lớn các dữ liệu đều bằng tiếng Anh. Do đó, Llama được lựa chọn để phát triển AI cho Việt Nam. Bởi đây là dữ liệu nguồn mở, sạch, có thể cho phép chúng ta tìm hiểu, đào tạo nó bằng dữ liệu tiếng Việt, có tiêu chuẩn đạo đức, minh bạch.

“Đứng trên vai những người khổng lồ như Meta, chúng ta có thể sớm xây dựng một mô hình dành cho người Việt, vì người Việt”, ông Nguyễn Trường Thắng nhấn mạnh.

Nhà sáng lập & CEO, Tổ chức AI for Vietnam, ông Trần Việt Hùng đánh giá, dự án ViGen - với sự hỗ trợ của NIC và Meta - hoàn toàn phù hợp với Sáng kiến Dữ liệu Mở và Tin cậy (OTDI) của Liên minh AI.

Cụ thể, Project ViGen sẽ đóng góp cho cộng đồng những bộ dữ liệu lớn và chất lượng cao bằng tiếng Việt nhằm cải thiện hiện trạng tiếng Việt đang bị coi là một ngôn ngữ còn hiện diện hết sức khiêm tốn trong AI. Project ViGen cũng cho thấy sức mạnh và giá trị của những mô hình mã nguồn mở như Llama, cho phép phát triển các giải pháp sáng tạo có tác động tuần cầu có tính đến ngữ cảnh của tiếng Việt.

Cũng tại sự kiện hôm nay, Meta, phối hợp cùng Deloitte đã chọn Việt Nam là quốc gia đầu tiên trong khu vực Châu Á - Thái Bình Dương ra mắt cẩm nang mang tên "Đổi mới sáng tạo trong khu vực công ở Châu Á - Thái Bình Dương với AI mã nguồn mở: Khai phá tiềm năng đột phá cùng Llama".

Cẩm nang này cung cấp các phương pháp tối ưu trong việc ứng dụng AI mã nguồn mở và đánh giá các ứng dụng thực tiễn của mô hình Llama trong các lĩnh vực quan trọng của khu vực công, bao gồm tương tác với người dân, quản lý hành chính công, tuân thủ chính sách, giáo dục, y tế, và an ninh công cộng.

Chia sẻ về mục tiêu Chương trình, Phó Thủ tướng Chính phủ Nguyễn Chí Dũng cho biết: "Thách thức Đổi mới sáng tạo Việt Nam là chương trình chiến lược để tìm kiếm các giải pháp đổi mới sáng tạo trên toàn thế giới nhằm giải quyết những thách thức quan trọng tầm quốc gia, hướng đến một Việt Nam phát triển thịnh vượng và bền vững. Để chương trình thành công cần sự hợp tác giữa khu vực công, khu vực tư nhân và các đối tác trong, ngoài nước chung tay hình thành, thử nghiệm và thực thi các sáng kiến đổi mới sáng tạo vì một Việt Nam thịnh vượng".