“Figure 01” xuất hiện đầy ấn tượng,Con người sẽ sớm bị vượt qua?

Khoa Học Công Nghệ4 tháng trước đăng Mango
57 0

Vào đêm muộn ngày 13 tháng 3 năm 2024, một đoạn video demo về robot hình người bất ngờ trở nên phổ biến trên X, có lẽ đây là thời điểm của GPT-4 của robot.

Robot này được gọi là Figure 01, được sản xuất bởi công ty khởi nghiệp robot Figure AI, được đầu tư nồng nhiệt từ các nhà đầu tư.

 

*Video demo gây ra sự tranh luận sôi nổi trên mạng

Quan trọng hơn, Figure 01 được trang bị mô hình ngôn ngữ-hình ảnh lớn (VLM) của Open AI, nhưng không biết liệu nó có phải là GPT-4V hay không. Điều này cũng là lần đầu tiên Open AI trình diễn khả năng trí tuệ của robot của họ.

OpenAI từng huấn luyện thành công một robot giải Rubik bằng một tay, nhưng đã tuyên bố dừng nghiên cứu robot và giải tán các nhóm liên quan vào năm 2021, lý do được công bố là “thiếu dữ liệu đủ để hỗ trợ việc nghiên cứu tiếp theo”.

*Video demo về robot giải Rubik bằng một tay

Lần này, công ty công nghệ mới nổi Figure AI cung cấp mạng nơ-ron, OpenAI cung cấp khả năng suy luận hình ảnh và hiểu ngôn ngữ, Corey Lynch – người đứng đầu Figure – đã đăng bài trên nền tảng mạng xã hội của mình với nội dung:

“Bây giờ chúng tôi có thể trò chuyện hoàn toàn với Figure 01, nhờ vào sự hợp tác với OpenAI.”

Robot của chúng tôi có thể:

– Miêu tả trải nghiệm hình ảnh của mình
– Lập kế hoạch cho các hành động trong tương lai
– Phản ánh về ký ức của nó
– Giải thích lý do của mình bằng lời nói

Như chúng ta đã thấy trong video, robot Figure 01 có thể tự nhiên trò chuyện với con người, hiểu ý định của ngôn ngữ con người và thực hiện các hành động đơn giản và nhanh chóng dựa trên chỉ thị tự nhiên của con người, đồng thời có thể giải thích lý do hành động đó trong khi thực hiện công việc.

Trong khi Trí tuệ nhân tạo sinh học bùng nổ trên Internet vào cuối năm 2022, đẩy mạnh một làn sóng khởi nghiệp AI, nhiều công ty trí tuệ nhân tạo như nấm mọc sau mưa. Cùng với sự phát triển của trí tuệ nhân tạo sinh học là nhiều thành tựu nghiên cứu trí tuệ nhân tạo với hình thể. Trong năm vừa qua, bạn có thể đã thấy nhiều video demo AI Sinh học, nhưng chẳng ai có khả năng vận động nhanh nhẹn, trò chuyện mượt mà và khả năng suy luận logic chặt chẽ như hình ảnh 01.

“Trí tuệ nhân tạo có cơ thể” là một thuật ngữ trong lĩnh vực Trí tuệ nhân tạo, chỉ việc phát triển các thiết bị máy có cơ thể vật lý, có khả năng tương tác với môi trường xung quanh thông qua các cảm biến và thực hiện các hành động trong thế giới thực. Trong ngữ cảnh của trí tuệ nhân tạo có cơ thể, cơ thể vật lý của máy không chỉ là một phần của nền tảng để thực hiện tính toán, mà còn là một phần quan trọng trong việc hiểu và tương tác với thế giới xung quanh.

Các ứng dụng của trí tuệ nhân tạo có cơ thể có thể bao gồm robot có khả năng di chuyển và tương tác với đối tượng xung quanh, hệ thống tự động lái xe có thể tương tác với người lái và môi trường đường đi, hoặc các hệ thống trí tuệ nhân tạo khác có khả năng tương tác với môi trường vật lý để thực hiện các nhiệm vụ cụ thể. Điều này giúp máy móc có khả năng hiểu rõ hơn và tương tác hiệu quả hơn với thế giới thực.

Generative AI là một lĩnh vực trong trí tuệ nhân tạo (AI) tập trung vào việc phát triển các mô hình máy học có khả năng tạo ra dữ liệu mới, thường là dữ liệu có cùng cấu trúc hoặc tính chất với dữ liệu đào tạo. Mục tiêu của công nghệ này là tạo ra dữ liệu mới và hữu ích, giúp mở rộng tập dữ liệu có sẵn và tạo ra nhiều ứng dụng mới trong nhiều lĩnh vực.

Các mô hình generative AI phổ biến bao gồm Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs), và Transformer-based models như GPT (Generative Pre-trained Transformer). Các mô hình này có khả năng học được phân phối của dữ liệu đào tạo và sau đó sử dụng thông tin này để tạo ra dữ liệu mới có thể không tồn tại trong tập dữ liệu gốc.

Ứng dụng của generative AI rất đa dạng, bao gồm tạo ra hình ảnh, âm thanh, văn bản mới, tạo ra nội dung sáng tạo như tranh vẽ, âm nhạc, văn xuôi, tạo ra dữ liệu mô phỏng trong nghiên cứu và phát triển sản phẩm mới, và nhiều ứng dụng khác.

Trí tuệ nhân tạo phát sinh (Generative AI) tập trung vào việc tạo ra các mẫu dữ liệu mới, trong khi trí tuệ nhân tạo có thể tương tác (Embodied AI) tập trung vào việc làm cho máy có thể nhận biết và hiểu môi trường thực và tương tác với nó.

Như Corey Lynch đã nói, chỉ cách đây vài năm, tôi cũng đã nghĩ rằng việc có một cuộc trò chuyện đầy đủ với một robot giống con người, trong khi nó cũng có thể lập kế hoạch và thực hiện các hành vi mà nó đã học, là điều chúng ta phải đợi đến nhiều thập kỷ sau mới có thể thấy được. Rõ ràng, rất nhiều thay đổi đã xảy ra.

Anh ấy cũng đặc biệt nhấn mạnh:

Tất cả các hành vi đều được học (không phải là điều khiển từ xa) và chạy ở tốc độ bình thường (1.0x).

Chúng tôi đưa hình ảnh từ camera của robot và văn bản được ghi từ âm thanh được thu lại bởi các micro trên bo mạch của robot vào một mô hình đa phương tiện lớn được đào tạo bởi OpenAI, mà hiểu cả hình ảnh và văn bản.

Mô hình xử lý toàn bộ lịch sử của cuộc trò chuyện, bao gồm cả các hình ảnh trong quá khứ, để đưa ra phản hồi bằng ngôn ngữ, sau đó được nói lại cho con người thông qua văn bản thành lời nói. Cùng một mô hình còn có trách nhiệm quyết định hành vi đóng vòng được học để chạy trên robot để thực hiện một lệnh cụ thể, tải các trọng số mạng nơ-ron cụ thể lên GPU và thực hiện một chính sách.

Từ những giải thích của Brett Adcock, người sáng lập của Figure, và Corey Lynch, người đứng đầu bộ phận trí tuệ nhân tạo, có vẻ như Figure 01 thuộc loại robot được điều khiển bởi một mô hình lớn từ đầu đến cuối.

Khi chúng ta nói về “Mô hình lớn từ đầu đến cuối điều khiển robot”, đó giống như đang nói về một robot có một bộ não mạnh mẽ. “Bộ não” này là một mô hình trí tuệ nhân tạo rất phức tạp, có thể hiểu được hình ảnh, ngôn ngữ và các thông tin khác nhau, và quyết định làm thế nào để robot phải hành động. Tương tự như con người, bộ não này có thể trực tiếp điều khiển robot hoàn thành nhiệm vụ, mà không cần phải qua quá trình phức tạp. Điều này giống như một robot có khả năng tự mình suy nghĩ và ra quyết định, giúp nó có thể hoạt động một cách thông minh hơn.

Figure 01 được coi là mạnh mẽ hơn so với các robot hiện có vì nó kết hợp xử lý hình ảnh nhanh chóng và khả năng ra quyết định nhanh nhạy. Đầu tiên, camera trên Figure 01 chụp hình ở tốc độ 10 khung hình mỗi giây, nhanh hơn so với nhiều camera của robot truyền thống, điều này có nghĩa là nó có thể cảm nhận môi trường xung quanh và thu thập thông tin hình ảnh một cách nhanh chóng hơn. Thứ hai, mạng nơ-ron đầu ra 24 độ tự do với tốc độ 200 lần mỗi giây, cho thấy Figure 01 có thể ra quyết định và thực hiện hành động phức tạp với tốc độ cực nhanh. Do đó, so với các robot khác, Figure 01 có khả năng thích ứng nhanh chóng với các môi trường và nhiệm vụ khác nhau, cũng như linh hoạt đối phó với mọi tình huống.

*Hình ảnh được lấy từ X của Corey Lynch

Điều này cũng giải thích tại sao Figure 01 gần gũi hơn với tốc độ của con người.

Và chìa khóa để thực hiện tất cả điều đó là khả năng đa phương tiện của mô hình của OpenAI.

Khi chúng ta nói về khả năng đa mô đun của OpenAI, có thể nói đó như là một bộ não siêu phức tạp có nhiều giác quan. Tương tự như con người có thể cùng một lúc nhìn bằng mắt, nghe bằng tai và nói bằng miệng, mô hình của OpenAI có thể xử lý thông tin từ nhiều nguồn khác nhau như hình ảnh, văn bản và giọng nói. Điều này giúp nó có thể hiểu thế giới một cách toàn diện hơn, giống như chúng ta có thể cảm nhận môi trường xung quanh bằng nhiều giác quan khác nhau. Do đó, khả năng đa mô đun này giúp OpenAI tương tác với thế giới tốt hơn, thực hiện nhiều nhiệm vụ khác nhau và tiến gần hơn với cách trao đổi thông tin của con người.

Một mô hình lớn được đào tạo trước hiểu về lịch sử cuộc trò chuyện mang lại cho Hình ảnh 01 một bộ nhớ ngắn hạn mạnh mẽ.

Hãy xem xét câu hỏi: “Bạn có thể đặt chúng ở đó không?” “Chúng” đề cập đến cái gì, và “đó” là ở đâu? Việc trả lời đúng yêu cầu khả năng suy luận dựa trên bộ nhớ.

Với một mô hình được đào tạo trước phân tích lịch sử hình ảnh và văn bản của cuộc trò chuyện, Hình ảnh 01 nhanh chóng hình thành và thực hiện một kế hoạch: 1) đặt tách trên khay làm khô, 2) đặt đĩa trên khay làm khô.

Bạn có cảm thấy rằng tương lai đã đến chưa? Và những khoảnh khắc của “tương lai đã đến” đang được làm mới lần sau lần, giúp mọi người cảm nhận rõ ràng hơn về một thế giới mới hoàn toàn.

Điều đáng sợ hơn là OpenAI chỉ tham gia vốn B của Figure vào đầu tháng 3 năm nay, có nghĩa là từ quá trình hợp tác đến sự ra mắt sản phẩm mới, chỉ mất dưới mười ba ngày.

Thú vị hơn nữa, vào ngày 13, Elon Musk mới chỉ đăng trên tài khoản cá nhân rằng “Trong năm tới, AI có thể thông minh hơn bất kỳ con người nào. Đến năm 2029, AI có thể thông minh hơn tất cả các con người kết hợp lại.”

Trong bộ phim hoạt hình kinh điển “Ghost in the Shell“, người ta bắt đầu yêu robot từ năm 2029. Không biết Elon Musk đã tính toán thời điểm này như thế nào, liệu ông ấy đã xem qua hoặc say mê bộ phim này không, bởi vì công nghệ giao tiếp trực tiếp với não trong phim cũng đang được công ty của ông thử nghiệm. Nếu tương lai đến sớm, có lẽ chúng ta không cần lo lắng về nguy cơ bị trí tuệ nhân tạo thay thế, mà là về chủ đề liên tục xuất hiện trong phim:

Bản chất con người là gì? Ý nghĩa của sự tồn tại là gì?

*”Ghost in the Shell” (1995) được tái chiếu vào năm 2021 với một tờ rơi mới được thêm vào dòng chữ “Người dân yêu thích máy móc vào năm 2029 A.D.” Bây giờ, điều này trông giống như một dự đoán của một nhà tiên tri.

*Chúng tôi đã giới thiệu bộ phim này trong mục phim hoạt hình, nhấn vào để đọc:

Người ta yêu máy móc trong năm 2029-Ghost in the Shell vietsub

© Bản quyền tuyên bố

Bài liên quan

Chưa có bình luận

Chưa có bình luận...