Сбер представил нейросеть, создающую изображения по словесному описанию

Команда Сбера открыла доступ к демоверсии своей нейронной сети ruDALL-E, которая создает изображения по текстовому описанию на русском языке. Технологию можно опробовать на сайте проекта, но, так как серверы загружены, генерация картинки может занять полчаса и больше.

В основе разработки — технология DALL-E, представленная американской компанией OpenAI в 2021 году. Разработчики Сбера (компаний SberDevices и Sber AI при участии представителей SberCloud) воспроизвели код модели и запустили обучение нейросети на суперкомпьютере «Кристофари».

«В результате получилась самая большая модель такого рода в мире, работающая с русским языком: обучение заняло 23 тыс. GPU-часов на массиве данных из 120 млн пар „текст-изображение“. Проект по обучению ruDALL-E стал самым большим нейросетевым вычислительным проектом в России и СНГ», — цитирует ТАСС пресс-службу Сбера.

Состоит алгоритм из трех частей: первая создает картинки на основе текста, вторая выбирает более удачные результаты, а третья — увеличивает изображения в размере без потери качества.

Как отмечается на сайте сервиса, нейросеть призвана решить две проблемы, которые не может решить поиск — учесть точное описание желаемого и создать изображение, которого раньше не существовало. Сгенерированные картинки можно свободно использовать в рекламе, СМИ, копирайтинге.