你好，GPT-4o

GPT-4o（"o "代表 "omni"）是向更自然的人机交互迈出的一步--它接受文本、音频、图像和视频的任意组合输入，并生成文本、音频和图像的任意组合输出。它能在 232 毫秒内对音频输入做出反应，平均反应时间为 320 毫秒，这与人类在对话中的反应时间（在新窗口中打开）相近。它在英语和代码文本方面的性能与 GPT-4 Turbo 相当，在非英语语言文本方面也有显著提高，同时在应用程序接口（API）方面速度更快，价格便宜 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

OpenAI GPT4o

Shin Zhang