07 thg 12, 2023·3 phút đọc

Giới thiệu Gemini: Mô hình AI đa phương thức tinh vi của Google

Google ra mắt mô hình AI tiên tiến của mình, Gemini. Mô hình này có thể hiểu được nhiều định dạng dữ liệu khác nhau, bao gồm văn bản, mã, âm thanh, hình ảnh và video.

Trong một bước nhảy vọt cho lĩnh vực trí tuệ nhân tạo, Google đã giới thiệu Gemini, mô hình AI mới nhất của hãng. Mô hình đổi mới này, không giống như mô hình truyền thống, có khả năng diễn giải các định dạng dữ liệu không đồng nhất—văn bản, mã, âm thanh, hình ảnh và video, ngay từ khi bắt đầu.

Thông thường, các mô hình đa phương thức được phát triển bằng cách đào tạo riêng các thành phần khác nhau cho các định dạng thông tin đa dạng và sau đó tích hợp chúng. Tuy nhiên, khác với thông lệ tiêu chuẩn này, Song Tử tận dụng một cách tiếp cận khác. Mô hình được đào tạo về các định dạng dữ liệu khác nhau ngay từ đầu và được tinh chỉnh với dữ liệu đa phương thức bổ sung. Phương pháp này tạo điều kiện cho Gemini hiểu và suy luận trên nhiều loại dữ liệu, vượt trội so với các mô hình đa phương thức hiện tại. Nhấn mạnh những điểm mạnh của Gemini, Sundar Pichai, Giám đốc điều hành của Google và Alphabet, và Demis Hassabis, Giám đốc điều hành và đồng sáng lập của Google DeepMind, đã chia sẻ rằng khả năng của mô hình này ngang bằng với khả năng tốt nhất trong hầu hết mọi lĩnh vực.

Đáng chú ý, Song Tử có khả năng suy luận mạnh mẽ, cho phép họ tiếp nhận những thông tin bằng văn bản và hình ảnh phức tạp. Nhờ đó, nó rất thành thạo trong việc trích xuất những kiến thức khó tìm từ kho dữ liệu khổng lồ. Một ví dụ duy nhất về điều này là khả năng sàng lọc hàng trăm nghìn tài liệu để tìm ra những hiểu biết có giá trị dẫn đến những đột phá trong nhiều lĩnh vực. Hơn nữa, khía cạnh đa phương thức của Gemini khiến nó đặc biệt hiệu quả trong việc giải mã các câu hỏi phức tạp trong các môn như toán và vật lý.

Gemini 1.0 ban đầu có sẵn trong ba biến thể—Ultra, Pro và Nano, mỗi biến thể đáp ứng các yêu cầu kích thước khác nhau. Theo Google, Gemini Ultra đã vượt trội hơn 30 trên 32 điểm chuẩn học thuật thường được sử dụng trong nghiên cứu và phát triển mô hình trong quá trình đo điểm chuẩn sơ bộ. Đáng chú ý, Gemini Ultra còn là người mẫu đầu tiên vượt qua các chuyên gia về con người. Điều này được đánh giá bằng cách sử dụng khả năng hiểu ngôn ngữ đa nhiệm lớn (MMLU), bao gồm 57 môn học từ toán học và vật lý đến lịch sử, luật, y học và đạo đức.

Gemini Pro hiện được tích hợp với Bard, đại diện cho bản cập nhật Bard quan trọng nhất kể từ khi phát hành. Điều đáng chú ý là Pixel 8 Pro cũng đã được tối ưu hóa để khai thác khả năng của Gemini Nano nhằm hỗ trợ các tính năng như Tóm tắt trong ứng dụng Ghi âm và Trả lời thông minh trong bàn phím của Google.

Trong những tháng tới, Gemini dự kiến sẽ được tích hợp vào nhiều sản phẩm khác của Google, chẳng hạn như Tìm kiếm, Quảng cáo, Chrome và Duet AI. Bắt đầu từ ngày 13 tháng 12, các nhà phát triển sẽ được cấp quyền truy cập vào Gemini Pro thông qua API Gemini trong Google AI Studio hoặc Google Cloud Vortex AI.

Ngoài ra, Song Tử có thể hiểu một số ngôn ngữ lập trình phổ biến, bao gồm Python, Java, C++ và Go. Theo Pichai và Hassabis, khả năng thông thạo ngôn ngữ âm thanh và khả năng suy luận về thông tin phức tạp của Song Tử khiến nó trở thành mô hình nền tảng hàng đầu cho việc viết mã trên toàn thế giới.

Google cũng đã thuê Gemini thiết kế một hệ thống tạo mã tiên tiến có tên AlphaCode 2. Hệ thống này, bản nâng cấp của phiên bản đầu tiên được phát hành cách đây hai năm, có thể giải quyết các vấn đề lập trình cạnh tranh liên quan đến toán học phức tạp và khoa học máy tính lý thuyết.

Thêm vào chuỗi thông báo, việc ra mắt hệ thống TPU mới có tên Cloud TPU v5p, được thiết kế để đào tạo các mô hình AI hiện đại, bổ sung thêm cho sự ra mắt của Gemini. TPU thế hệ tiếp theo này sẽ thúc đẩy sự phát triển của Gemini và hỗ trợ các nhà phát triển cũng như khách hàng doanh nghiệp trong việc đào tạo các mô hình AI thế hệ quy mô lớn nhanh hơn. Điều này sẽ đảm bảo rằng các dịch vụ và khả năng mới hơn sẽ đến tay khách hàng trong khung thời gian ngắn hơn.

Google nhấn mạnh việc tuân thủ các Nguyên tắc AI có trách nhiệm trong quá trình phát triển của Gemini. Nó thực hiện nghiên cứu trong các lĩnh vực rủi ro tiềm ẩn như tội phạm mạng, thuyết phục và quyền tự chủ. Bộ phân loại an toàn cũng được tạo ra để xác định, gắn nhãn và tách biệt nội dung chứa bạo lực hoặc định kiến tiêu cực.

Sự ra mắt của Gemini đánh dấu một cột mốc quan trọng trong quá trình phát triển của AI và khởi đầu một kỷ nguyên mới tại Google. Với những nỗ lực hiện đang được tiến hành nhằm mở rộng chức năng của Gemini cho các phiên bản trong tương lai, những cải tiến về lập kế hoạch và cải tiến bộ nhớ cũng như tăng cửa sổ ngữ cảnh để xử lý nhiều thông tin hơn, hứa hẹn sẽ có những phản hồi tốt hơn trong tương lai.

Khi phạm vi của lĩnh vực no-code và low-code mở rộng, các nền tảng như AppMaster cho phép các nhà phát triển và chuyên gia kinh doanh xây dựng các ứng dụng mạnh mẽ và có thể mở rộng để bổ sung cho các tiến bộ AI như Gemini. Với danh sách các tính năng ấn tượng, AppMaster nổi bật như một giải pháp linh hoạt và tiết kiệm chi phí trong bối cảnh phát triển ứng dụng đang phát triển nhanh chóng.

Tin tức liên quan