Компания OpenAI представила новую генеративную модель GPT-4o. Она может работать с видео, общаться с пользователем голосом на 50 языках и имитировать различные интонации, шепот, пение и смех.
При этом модель работает гораздо быстрее предшествующей версии. Время задержки ответа в голосовом режиме составляет в среднем около 0,3 секунды, что сравнимо с реакцией человека.
Новая модель не только работает значительно быстрее, но может распознавать интонации и эмоции собеседника, а также умеет сама изменять силу, тембр, высоту и эмоциональную окраску синтезируемого голоса.
Модель может говорить с сарказмом, шептать, смеяться и даже петь. Во время презентации ChatGPT c GPT-4o имитировал голос робота, а в другом видео модель просили спеть колыбельную.
Речь GPT-4o можно перебивать без последствий. Модель в беседе ведет себя почти так же естественно, как и человек, воспринимает дополнительную информацию и продолжает диалог, сохраняя контекст происходящего.
Другая особенность GPT-4o — распознавание изображения, включая видео в реальном времени. По сути, модель может буквально видеть и интерпретировать происходящее в кадре.
OpenAI откроет GPT-4o для бесплатного использования в чат-боте ChatGPT, однако с ограничениями на количество запросов за определенное время. Доступ к возможностям новой модели будет открываться поэтапно.