Mô hình AI nguồn mở mới của Nvidia đánh bại GPT-4o về điểm chuẩn

Là một nhà nghiên cứu dày dạn kinh nghiệm với niềm đam mê sâu sắc với trí tuệ nhân tạo, tôi thấy mình bị hấp dẫn bởi sản phẩm mới nhất của Nvidia, Llama-3.1-Nemotron-70B-Instruct. Sau vô số giờ nghiên cứu các mô hình AI và khả năng của chúng, tôi có thể tự tin nói rằng thông báo này đã khơi dậy sự tò mò của tôi.

Vào ngày 15 tháng 10, Nvidia tình cờ giới thiệu một mô hình trí tuệ nhân tạo đầy sáng tạo; người ta tuyên bố rằng mẫu mới này vượt qua các hệ thống AI hàng đầu hiện nay như GPT-4o và Claude-3 về hiệu suất.

Dựa trên một bài đăng được chia sẻ bởi nhóm Nhà phát triển AI Nvidia trên nền tảng truyền thông xã hội X.com của họ, họ tuyên bố rằng mô hình Llama-3.1-Nemotron-70B-Instruct hiện là một trong những mô hình hàng đầu trong Đấu trường Chatbot của lmarena.AI.

Mô hình AI nguồn mở mới của Nvidia đánh bại GPT-4o về điểm chuẩn

nemotron

Về cơ bản, Llama-3.1-Nemotron-70B-Instruct là bản chuyển thể được sửa đổi của Llama-3.1-70B-Instruct mã nguồn mở. “Nemotron” trong tên của nó biểu thị sự tham gia của Nvidia vào sản phẩm cuối cùng.

Bộ sưu tập “nhóm lạc đà không bướu” của Meta đóng vai trò là điểm khởi đầu miễn phí cho các lập trình viên, cho phép họ xây dựng và mở rộng các mô hình.

Khi nói đến Nemotron, Nvidia đã quyết định đẩy mạnh và tạo ra một hệ thống nhằm vượt qua các mô hình nổi tiếng về tính hữu ích như ChatGPT của OpenAI và Claude-3 của Anthropic.

Nvidia đã biến mô hình AI tiêu chuẩn của Meta thành một trong những mô hình “hữu ích nhất” trên toàn cầu bằng cách sử dụng bộ dữ liệu tùy chỉnh, kỹ thuật tinh chỉnh tinh tế và phần cứng AI tiên tiến của nó.

Mô hình AI nguồn mở mới của Nvidia đánh bại GPT-4o về điểm chuẩn

“Tôi đã hỏi nó một số câu hỏi về mã hóa mà tôi thường hỏi để so sánh các LLM và nhận được một số câu trả lời hay nhất từ câu hỏi này. cười lớn, chết tiệt.”

Điểm chuẩn

Khi cần xác định mô hình AI nào là “tốt nhất”, không có phương pháp luận rõ ràng nào. Ví dụ, không giống như đo nhiệt độ môi trường xung quanh bằng nhiệt kế thủy ngân, không có một “sự thật” nào tồn tại khi nói đến hiệu suất của mô hình AI.

Với tư cách là một nhà phân tích, tôi thấy điều quan trọng là phải đánh giá hiệu suất của các mô hình AI theo cách có thể so sánh với đánh giá của con người. Để đạt được điều này, tôi sử dụng các phương pháp thử nghiệm so sánh.

Là một nhà nghiên cứu trong lĩnh vực trí tuệ nhân tạo, tôi tham gia thực hành đánh giá các mô hình AI. Quá trình này đòi hỏi phải trình bày nhiều mô hình AI với các truy vấn, nhiệm vụ hoặc vấn đề giống hệt nhau, sau đó đánh giá tính hiệu quả của các phản hồi bằng cách so sánh chúng. Vì việc xác định những gì tạo nên một kết quả hữu ích có thể mang tính chủ quan nên người đánh giá con người thường được sử dụng để đưa ra những đánh giá mù quáng về hiệu suất của từng máy.

Có vẻ như Nvidia đang gợi ý rằng hiệu suất của mẫu máy mới của họ vượt trội đáng kể so với các mẫu như GPT-4o và Claude-3, hiện đang dẫn đầu trong lĩnh vực này.

Mô hình AI nguồn mở mới của Nvidia đánh bại GPT-4o về điểm chuẩn

Hình ảnh hiển thị thứ hạng cho bài kiểm tra “Khó” trong Bảng xếp hạng Đấu trường Chatbot, trong đó Llama-3.1-Nemotron-70B-Instruct của Nvidia không được hiển thị rõ ràng. Tuy nhiên, nếu khẳng định của các nhà phát triển rằng nó đạt 85 điểm trong bài kiểm tra này là chính xác thì theo mặc định, nó sẽ trở thành mẫu máy dẫn đầu trong danh mục cụ thể này.

Âm mưu xung quanh thành tựu này có thể càng tăng cao bởi thực tế là Llama-3.1-70B là một mô hình AI nguồn mở tầm trung được phát triển bởi Meta. Tồn tại một biến thể lớn hơn đáng kể của Llama-3.1, phiên bản 405B, được tinh chỉnh bằng cách sử dụng số lượng tham số lớn hơn (cụ thể là khoảng 405 tỷ).

Để so sánh, GPT-4o được ước tính đã được phát triển với hơn một nghìn tỷ thông số.

2024-10-17 20:21