Bản nâng cấp mới nhất của OpenAI về cơ bản cho phép người dùng phát trực tiếp bằng ChatGPT

Là một nhà đầu tư tiền điện tử dày dạn kinh nghiệm và là người đam mê công nghệ, tôi phải thừa nhận rằng thông báo gần đây từ OpenAI liên quan đến mẫu AI mới nhất của họ, GPT-4o, đã khiến tôi hoàn toàn bị thu hút. Khả năng mô hình AI xử lý văn bản, âm thanh và hình ảnh đầu vào trong thời gian thực thực sự là yếu tố thay đổi cuộc chơi.


OpenAI, người tạo ra ChatGPT, đã tiết lộ mô hình trí tuệ nhân tạo (AI) mới nhất của họ, có tên là GPT-4o. AI tiên tiến này được thiết kế để tham gia vào nhiều cuộc trao đổi hội thoại hơn và bắt chước các tương tác của con người với độ chính xác cao hơn. Hơn nữa, nó còn được trang bị khả năng xử lý và phản hồi đầu vào âm thanh và video của người dùng trong thời gian thực.

GPT-4 Omni, được thể hiện thông qua một bộ bản phát hành của công ty, hỗ trợ người dùng tiềm năng theo nhiều cách khác nhau. Ví dụ: nó hỗ trợ việc chuẩn bị phỏng vấn bằng cách đảm bảo người dùng tỏ ra lịch sự và sẵn sàng cho cuộc phỏng vấn của họ. Ngoài ra, nó tạo điều kiện thuận lợi cho việc liên hệ với bộ phận hỗ trợ khách hàng để đảm bảo thay thế iPhone mới.

Trong nhiều cuộc biểu tình khác nhau, ChatGPT đã được chứng minh là có khả năng trao đổi cách chơi chữ thân thiện với người cha, dịch ngay lập tức các cuộc đối thoại song ngữ trong các tình huống thực tế, đóng vai trò là trọng tài khách quan cho các trò chơi oẳn tù tì giữa hai người dùng và sử dụng lời mỉa mai khi bị khiêu khích. Hơn nữa, một cuộc triển lãm lần đầu tiên trình bày sự tương tác giữa ChatGPT và chú chó con mới của người dùng.

“Xin chào, Bowser! Chẳng phải bạn là sinh vật nhỏ bé đáng yêu nhất sao?” chatbot kêu lên.

Xin chào, tôi rất vui được giới thiệu với bạn GPT-40, mẫu tiên tiến mới nhất của chúng tôi. Với tư cách là một nhà phân tích, tôi rất vui mừng được chia sẻ rằng chiếc smartphone cao cấp mới này của chúng tôi có khả năng xử lý đồng thời thông tin từ âm thanh, hình ảnh và văn bản trong thời gian thực. Bắt đầu từ hôm nay, đầu vào văn bản và hình ảnh có sẵn thông qua API và ChatGPT của chúng tôi. Trong tương lai gần, khả năng thoại và video cũng sẽ được tích hợp để mang lại trải nghiệm người dùng toàn diện hơn.

— OpenAI (@OpenAI) Ngày 13 tháng 5 năm 2024

Là một nhà đầu tư tiền điện tử, tôi không khỏi kinh ngạc khi sử dụng công nghệ AI tiên tiến. Tôi như bước vào một bộ phim khoa học viễn tưởng – khả năng của công nghệ này vẫn khó tin, mặc dù nó là hiện thực hữu hình. Điều này đã được Sam Altman, Giám đốc điều hành, bày tỏ một cách hùng hồn trong bài đăng trên blog ngày 13 tháng 5.

“Đạt được thời gian phản hồi và khả năng biểu đạt ở cấp độ con người hóa ra lại là một sự thay đổi lớn.”

Vào ngày 13 tháng 5, OpenAI đã giới thiệu một biến thể chỉ có văn bản và hình ảnh. Phiên bản hoàn chỉnh dự kiến ​​​​phát hành trong tương lai gần, họ đã thêm vào một bài đăng gần đây trên X.

Với tư cách là nhà nghiên cứu đang nghiên cứu các mô hình trí tuệ nhân tạo tiên tiến, tôi có thể nói với bạn rằng GPT-40 được dự đoán là có thể truy cập được đối với tất cả người dùng ChatGPT, kể cả những người có tài khoản miễn phí. Khả năng truy cập này sẽ được hỗ trợ thông qua Giao diện lập trình ứng dụng (API) của ChatGPT.

Tôi đã học được từ OpenAI rằng chữ “o” trong GPT-4o đại diện cho thuật ngữ “omni”, biểu thị sự tiến bộ hướng tới các giao diện người-máy tính hữu cơ và giống như thật hơn.

GPT-40, cải tiến mới nhất của chúng tôi, có khả năng xử lý văn bản, âm thanh và video đầu vào trong thời gian thực để lập luận nâng cao. Tính linh hoạt của nó khiến việc khám phá trở nên hấp dẫn và thể hiện sự tiến bộ hướng tới các tương tác giữa con người với AI và thậm chí cả AI-AI giống như thật hơn.

— Greg Brockman (@gdb) Ngày 13 tháng 5 năm 2024

Khả năng xử lý đồng thời văn bản, âm thanh và hình ảnh đầu vào của GPT-4 thể hiện một bước tiến đáng kể so với các công cụ trước đây của OpenAI như ChatGPT-4. Nói một cách đơn giản hơn, trong khi ChatGPT-4 có thể gặp khó khăn trong việc xử lý nhiều tác vụ và mất thông tin có giá trị trong quá trình này, thì GPT-4 lại thành thạo trong việc quản lý cả ba loại đầu vào cùng một lúc.

Với tư cách là một nhà nghiên cứu đang nghiên cứu các mô hình ngôn ngữ tiên tiến, tôi có thể chia sẻ rằng OpenAI được cho là đã khẳng định tính ưu việt của GPT-4 trong lĩnh vực hiểu thị giác và âm thanh so với các mô hình trước đó. Cải tiến này không chỉ dừng lại ở việc nhập văn bản, cho phép xác định cảm xúc của người dùng và thậm chí cả những tín hiệu tinh tế như kiểu thở.

Nó cũng “nhanh hơn nhiều” và “rẻ hơn 50%” so với GPT-4 Turbo trong API của OpenAI.

Theo OpenAI, công nghệ AI mới nhất có khả năng xử lý lệnh âm thanh trung bình chỉ trong 2,3 giây và thời gian phản hồi này thường vào khoảng 3,2 giây – tốc độ tương đương với cuộc trò chuyện bình thường của con người.

2024-05-14 03:40