
你好,GPT-4o
GPT-4o("o "代表 "omni")是向更自然的人机交互迈出的一步--它接受文本、音频、图像和视频的任意组合输入,并生成文本、音频和图像的任意组合输出。它能在 232 毫秒内对音频输入做出反应,平均反应时间为 320 毫秒,这与人类在对话中的反应时间(在新窗口中打开)相近。它在英语和代码文本方面的性能与 GPT-4 Turbo 相当,在非英语语言文本方面也有显著提高,同时在应用程序接口(API)方面速度更快,价格便宜 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。
OpenAI
GPT4o
Shin Zhang

用 GPT-4o 的声音和视觉进行采访角色扮演
所有用户都可以在 ChatGPT 应用程序中使用语音模式(点击右下角的🎧!),但我们的 GPT-4o 新语音和视觉功能(此处演示)将在未来几周内推出。
2024-06-20
- 免费
- 1

.jpg)