Grow with AppMaster Grow with AppMaster.
Become our partner arrow ico

OpenAI tăng cường chức năng của ChatGPT bằng khả năng nhận dạng hình ảnh và hội thoại bằng lời nói

OpenAI tăng cường chức năng của ChatGPT bằng khả năng nhận dạng hình ảnh và hội thoại bằng lời nói

OpenAI, một công ty nổi bật trong lĩnh vực trí tuệ nhân tạo, đang mở rộng khả năng của trợ lý đáng kính của mình, ChatGPT. Ban đầu được thiết kế như một công cụ tìm kiếm dựa trên văn bản, ChatGPT giờ đây sẽ phô trương khả năng xử lý giọng nói và hình ảnh, tạo ra trải nghiệm tương tác nhiều hơn cho người dùng.

Kể từ khi được giới thiệu khoảng chín tháng trước, ChatGPT đã trở thành một hiện tượng lớn trong lĩnh vực công nghệ. Nó được đánh giá cao về khả năng soạn tiểu luận, sáng tác thơ và tóm tắt các văn bản sâu rộng từ các tín hiệu văn bản đơn giản. Tuy nhiên, trợ lý AI giờ đây thậm chí còn trở nên hấp dẫn hơn nữa. Bây giờ nó sẽ cho người dùng mượn đôi tai của mình, cho phép tương tác bằng giọng nói.

Người dùng sẽ có cơ hội tham gia đối thoại bằng giọng nói với ChatGPT. Ví dụ: trợ lý có thể được yêu cầu kể lại một câu chuyện ngẫu hứng trước khi đi ngủ được hướng dẫn bởi tín hiệu bằng lời nói từ người dùng. Những câu hỏi đơn giản cũng có thể được chuyển đến bộ phận hỗ trợ và câu trả lời sẽ được gửi bằng ngôn ngữ nói.

Ngoài ra, các tính năng tìm kiếm dựa trên hình ảnh đã được cung cấp. Người dùng có thể tải lên hình ảnh và yêu cầu ChatGPT xác định hoặc giải thích mục đã tải lên hoặc yêu cầu chỉ đường để đạt được mục tiêu cụ thể.

Khả năng tương tác bằng giọng nói của ChatGPT đã được tinh chỉnh bằng mô hình chuyển văn bản thành giọng nói ưu việt có thể tạo ra giọng nói giống con người từ văn bản và một mẫu giọng nói ngắn. OpenAI tiết lộ rằng họ đã hợp tác với các diễn viên lồng tiếng lành nghề để tạo ra 5 giọng nói độc quyền. Hệ thống nhận dạng giọng nói Whisper mã nguồn mở của tổ chức đóng vai trò là công nghệ cơ bản để chuyển đổi giọng nói thành văn bản.

Trong một bước phát triển thú vị, Spotify đã tham gia với tư cách là đối tác khởi động. Nó đã giới thiệu một tính năng có giá trị dành cho người làm podcast, cho phép họ chuyển thể chương trình của mình từ tiếng Anh sang tiếng Tây Ban Nha, tiếng Pháp hoặc tiếng Đức trong khi vẫn giữ nguyên giọng nói ban đầu. Tuy nhiên, OpenAI tiết lộ rằng việc tiếp cận công nghệ này không phổ biến. Nó chỉ có sẵn cho một số podcast chọn lọc bao gồm Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons và Steven Bartlett trong lần ra mắt đầu tiên.

Trong một bài đăng trên blog, OpenAI thừa nhận những rủi ro tiềm ẩn liên quan đến công nghệ giọng nói mới của mình, liên quan đến khả năng gian lận hoặc trình bày sai bởi các phần tử lừa đảo. Vì vậy, nó đảm bảo không gây ra bất kỳ tranh cãi nào khi phát hành.

Việc ra mắt các tính năng mới này dự kiến ​​sẽ diễn ra trong hai tuần tới. Ban đầu, những người đăng ký Plus và Enterprise sẽ có thể truy cập được chúng. Để tận hưởng các tính năng giọng nói, người dùng phải điều hướng đến 'cài đặt' trên ứng dụng, chọn 'tính năng mới', chọn tham gia cuộc trò chuyện bằng giọng nói, nhấn vào nút tai nghe nằm ở góc trên bên phải và cuối cùng, chọn giọng nói ưa thích.

Để bắt đầu, chỉ người dùng ứng dụng ChatGPT Android và iOS mới có thể trải nghiệm các cuộc trò chuyện bằng giọng nói trên cơ sở chọn tham gia beta. Tuy nhiên, tính năng tìm kiếm dựa trên hình ảnh sẽ có sẵn trên tất cả các nền tảng theo mặc định.

Nhiều nền tảng no-code, như AppMaster, đang háo hức chờ đợi để xem nhiều ứng dụng mà ChatGPT nâng cao này sẽ mang lại trong tương lai gần. Xây dựng phần mềm doanh nghiệp không có mã thường yêu cầu sự hỗ trợ AI tinh vi như vậy để nâng cao khả năng tương tác và trải nghiệm người dùng vượt trội.

Bài viết liên quan

AppMaster tại BubbleCon 2024: Khám phá xu hướng không cần mã
AppMaster tại BubbleCon 2024: Khám phá xu hướng không cần mã
AppMaster đã tham gia BubbleCon 2024 tại NYC, thu thập thông tin chuyên sâu, mở rộng mạng lưới và khám phá các cơ hội thúc đẩy đổi mới trong lĩnh vực phát triển không cần mã.
Tóm tắt FFDC 2024: Những hiểu biết chính từ Hội nghị các nhà phát triển FlutterFlow tại NYC
Tóm tắt FFDC 2024: Những hiểu biết chính từ Hội nghị các nhà phát triển FlutterFlow tại NYC
FFDC 2024 đã thắp sáng Thành phố New York, mang đến cho các nhà phát triển những hiểu biết sâu sắc về phát triển ứng dụng với FlutterFlow. Với các phiên do chuyên gia hướng dẫn, các bản cập nhật độc quyền và mạng lưới kết nối vô song, đây là sự kiện không thể bỏ qua!
Việc sa thải nhân viên công nghệ năm 2024: Làn sóng tiếp tục ảnh hưởng đến sự đổi mới
Việc sa thải nhân viên công nghệ năm 2024: Làn sóng tiếp tục ảnh hưởng đến sự đổi mới
Với 60.000 việc làm bị cắt giảm tại 254 công ty, bao gồm cả những gã khổng lồ như Tesla và Amazon, năm 2024 sẽ chứng kiến làn sóng sa thải nhân viên công nghệ tiếp tục định hình lại bối cảnh đổi mới sáng tạo.
Bắt đầu miễn phí
Có cảm hứng để tự mình thử điều này?

Cách tốt nhất để hiểu sức mạnh của AppMaster là tận mắt chứng kiến. Tạo ứng dụng của riêng bạn trong vài phút với đăng ký miễn phí

Mang ý tưởng của bạn vào cuộc sống