26 thg 9, 2023·2 phút đọc

OpenAI tăng cường chức năng của ChatGPT bằng khả năng nhận dạng hình ảnh và hội thoại bằng lời nói

Gã khổng lồ công nghệ OpenAI vừa công bố các tính năng mới thú vị dành cho trợ lý AI cực kỳ nổi tiếng ChatGPT.

OpenAI, một công ty nổi bật trong lĩnh vực trí tuệ nhân tạo, đang mở rộng khả năng của trợ lý đáng kính của mình, ChatGPT. Ban đầu được thiết kế như một công cụ tìm kiếm dựa trên văn bản, ChatGPT giờ đây sẽ phô trương khả năng xử lý giọng nói và hình ảnh, tạo ra trải nghiệm tương tác nhiều hơn cho người dùng.

Kể từ khi được giới thiệu khoảng chín tháng trước, ChatGPT đã trở thành một hiện tượng lớn trong lĩnh vực công nghệ. Nó được đánh giá cao về khả năng soạn tiểu luận, sáng tác thơ và tóm tắt các văn bản sâu rộng từ các tín hiệu văn bản đơn giản. Tuy nhiên, trợ lý AI giờ đây thậm chí còn trở nên hấp dẫn hơn nữa. Bây giờ nó sẽ cho người dùng mượn đôi tai của mình, cho phép tương tác bằng giọng nói.

Người dùng sẽ có cơ hội tham gia đối thoại bằng giọng nói với ChatGPT. Ví dụ: trợ lý có thể được yêu cầu kể lại một câu chuyện ngẫu hứng trước khi đi ngủ được hướng dẫn bởi tín hiệu bằng lời nói từ người dùng. Những câu hỏi đơn giản cũng có thể được chuyển đến bộ phận hỗ trợ và câu trả lời sẽ được gửi bằng ngôn ngữ nói.

Ngoài ra, các tính năng tìm kiếm dựa trên hình ảnh đã được cung cấp. Người dùng có thể tải lên hình ảnh và yêu cầu ChatGPT xác định hoặc giải thích mục đã tải lên hoặc yêu cầu chỉ đường để đạt được mục tiêu cụ thể.

Khả năng tương tác bằng giọng nói của ChatGPT đã được tinh chỉnh bằng mô hình chuyển văn bản thành giọng nói ưu việt có thể tạo ra giọng nói giống con người từ văn bản và một mẫu giọng nói ngắn. OpenAI tiết lộ rằng họ đã hợp tác với các diễn viên lồng tiếng lành nghề để tạo ra 5 giọng nói độc quyền. Hệ thống nhận dạng giọng nói Whisper mã nguồn mở của tổ chức đóng vai trò là công nghệ cơ bản để chuyển đổi giọng nói thành văn bản.

Trong một bước phát triển thú vị, Spotify đã tham gia với tư cách là đối tác khởi động. Nó đã giới thiệu một tính năng có giá trị dành cho người làm podcast, cho phép họ chuyển thể chương trình của mình từ tiếng Anh sang tiếng Tây Ban Nha, tiếng Pháp hoặc tiếng Đức trong khi vẫn giữ nguyên giọng nói ban đầu. Tuy nhiên, OpenAI tiết lộ rằng việc tiếp cận công nghệ này không phổ biến. Nó chỉ có sẵn cho một số podcast chọn lọc bao gồm Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons và Steven Bartlett trong lần ra mắt đầu tiên.

Trong một bài đăng trên blog, OpenAI thừa nhận những rủi ro tiềm ẩn liên quan đến công nghệ giọng nói mới của mình, liên quan đến khả năng gian lận hoặc trình bày sai bởi các phần tử lừa đảo. Vì vậy, nó đảm bảo không gây ra bất kỳ tranh cãi nào khi phát hành.

Việc ra mắt các tính năng mới này dự kiến sẽ diễn ra trong hai tuần tới. Ban đầu, những người đăng ký Plus và Enterprise sẽ có thể truy cập được chúng. Để tận hưởng các tính năng giọng nói, người dùng phải điều hướng đến 'cài đặt' trên ứng dụng, chọn 'tính năng mới', chọn tham gia cuộc trò chuyện bằng giọng nói, nhấn vào nút tai nghe nằm ở góc trên bên phải và cuối cùng, chọn giọng nói ưa thích.

Để bắt đầu, chỉ người dùng ứng dụng ChatGPT Android và iOS mới có thể trải nghiệm các cuộc trò chuyện bằng giọng nói trên cơ sở chọn tham gia beta. Tuy nhiên, tính năng tìm kiếm dựa trên hình ảnh sẽ có sẵn trên tất cả các nền tảng theo mặc định.

Nhiều nền tảng no-code, như AppMaster, đang háo hức chờ đợi để xem nhiều ứng dụng mà ChatGPT nâng cao này sẽ mang lại trong tương lai gần. Xây dựng phần mềm doanh nghiệp không có mã thường yêu cầu sự hỗ trợ AI tinh vi như vậy để nâng cao khả năng tương tác và trải nghiệm người dùng vượt trội.

Easy to start

Create something amazing

Experiment with AppMaster with free plan.
When you will be ready you can choose the proper subscription.

Get Started

Tin tức liên quan