Ngày 20/3 vừa qua, thế giới vừa chứng kiến một sản phẩm trí tuệ nhân tạo có khả năng chuyển đổi văn bản thành đoạn video chỉ trong vài giây, khiến nhiều người kinh ngạc.
Gen 2 là bước đột phá mới trong thế hệ trí tuệ nhân tạo, đây là mô hình chuyển đổi văn bản thành video có sẵn được công khai đầu tiên. Sản phẩm được ra mắt bởi Runway, một công ty AI có trụ sở đến từ Mỹ, khá nổi tiếng chỉ đứng sau OpenAI. Công ty được thành lập năm 2018 bằng sự huy động vốn từ các nhà đầu tư hàng đầu bao gồm Felicis, Coatue, Amplify, Lux và Compound với một nhóm các thành viên trẻ đầy nhiệt huyết về công nghệ để cùng nhau phát triển.
Runway phát triển với mục tiêu xây dựng những điều đáng kinh ngạc từ những ý tưởng được coi là “không thể”. Bước đầu, họ chuyên cung cấp các công cụ hỗ trợ xóa phông hoặc thêm hiệu ứng cho video một cách nhanh chóng. Sau khi nghiên cứu thành công sản phẩm AI chuyển văn bản thành hình ảnh, thì được công ty Stability AI đồng ý hợp tác và mở rộng thêm.
Tháng 02/2019, Runway ra mắt công cụ chỉnh sửa video Gen 1, thế hệ đầu tiên của Gen 2 nhưng tập trung chủ yếu biến các hình ảnh mô phỏng thành hình ảnh động, chuyển một video bất kỳ thành video với tạo hình đất sét lạ mắt,…
Tuy nhiên, với phiên bản Gen 2 lại được kết hợp các tính năng của Gen 1 cùng khả năng tạo nội dung video từ đoạn văn bản. Công cụ sẽ tự học và ghi nhận ý nghĩa của văn bản được nhập để mô phỏng, tổng hợp các hình ảnh và video một cách nhanh chóng để đưa ra kết quả chính xác nhất.
Để cho thế giới thấy khả năng mà sản phẩm này đem lại, phóng viên của nhà báo Bloomberg đã thử nghiệm bằng cách đưa ra đoạn văn bản có nội dung “cảnh quay sa mạc từ máy bay không người lái”.
Ngay sau đó, Gen 2 đã đưa ra kết quả bằng một đoạn video có thời lượng vài giây, nội dung đoạn video cho thấy cảnh được quay ở góc cao, bên trên có bầu trời xanh và bên dưới có các đồi cát sa mạc được nắng chiếu rọi. Mặc dù chất lượng hình ảnh chưa được sắc nét nhưng đã thể hiện được đầy đủ tất cả các nội dung mà phóng viên đã yêu cầu.
Hãy xem thêm một vài tác phẩm mà Gen 2 đã mang lại dưới đây nhé:
“Mặt trời chiều muộn ló dạng qua cửa sổ của một căn gác xép ở thành phố New York”
Video được dựng từ hình ảnh bãi biển đông đúc người
Tuy nhiên, Gen 2 vẫn còn hạn chế về các nội dung mang tính di chuyển như xe cộ qua lại, hoạt động đang đi của con người và các động vật khác. Cụ thể, khi được nhập đoạn văn bản “Một người đang vượt qua rừng rậm được quay ở phía sau” thì kết quả không được đánh giá cao bởi hoạt động di chuyển chưa linh hoạt, còn về bối cảnh xung quanh thì khá tốt.
Tính tới thời điểm hiện tại, các đoạn video mà Gen 2 đưa ra vẫn chưa có âm thanh, nhưng nhà sản xuất cho biết răng sẽ tiếp tục nghiên cứu và phát triển mặt âm thanh của nội dung. Một vài ý kiến cho rằng, khi Gen 2 phát triển có thể sẽ gây nguy hại bởi những đoạn video không có thực, lừa đảo,… làm hoang mang đến xã hội.
Quả thực, hiện nay thế giới đang trên đường chạy đua về trí tuệ nhân tạo, những tác phẩm mà nó mang lại đều khiến cho con người sửng sốt và bất ngờ. Nó giúp chúng ta rất nhiều trong cuộc sống, khiến công việc và các hoạt động diễn ra dễ dàng, nhanh chóng và tiện lợi hơn. Tuy nhiên nếu chúng ta chỉ phát triển mà không có sự giới hạn và lường trước các nguy cơ tiềm ẩn thì nó cũng chính là mối nguy hại của con người trong tương lai.