Какие из новых моделей поддерживают нативный звук?

Grok Imagine Video (всегда включён) и Kling 3.0 Omni (можно включить или выключить). Wan 2.7 Video и Kling O1 генерируют видео без звука.

В чём разница между Kling O1 и Kling 3.0 Omni?

Kling O1 — для точного контроля движения: первый и последний кадр, motion-референс. Kling 3.0 Omni — для более свободных задач с аудио и поддержкой нескольких сцен в одном запросе.

Как долго может быть ролик у Grok Imagine Video?

От 6 до 30 секунд — это самая длинная форматная модель видео в каталоге. Подходит для задач, где нужен развёрнутый клип.

Можно ли в Kling 3.0 Omni задать несколько сцен?

Да. Kling 3.0 Omni поддерживает многосценовой формат: можно задать несколько сцен в одном запросе, каждая со своим текстовым промптом и длительностью.

9 апреля 2026 г.

В Givon AI появились Wan, Grok Imagine, Kling O1 и Kling 3.0 Omni

В каталог Givon AI добавили новые модели для изображений и видео: Wan, Grok Imagine, Kling O1 и Kling 3.0 Omni.

Wan, Grok Imagine, Kling O1 и Kling 3.0 Omni появились в Givon AI

В Givon AI появились четыре новые модели: Wan 2.7, Grok Imagine, Kling O1 и Kling 3.0 Omni.

Каждая закрывает свой сценарий — в каталоге теперь есть и мультирежимная линейка для изображений и видео, и длинное видео со звуком, и точный контроль через кадры, и AI-раскадровка для многосценовых роликов.

Wan 2.7 — наиболее широкая по возможностям: изображения до 4K с девятью референсами, видео 2–15 секунд, редактирование и Reference-to-Video с motion-образцом. Отличительная черта — Thinking Mode: перед генерацией модель планирует композицию, что даёт более осмысленный результат на сложных промптах.

Grok Imagine подойдёт для длинного видео со звуком — до 30 секунд с нативным ambient-аудио. Один из самых длинных форматов в каталоге для нарративных сцен.

Kling O1 — для точного контроля: первый и последний кадр, motion-референс, предсказуемый переход. Kling 3.0 Omni идёт дальше: нативный звук, многосценовой формат и AI Director — инструмент, который автоматически планирует углы камеры, типы планов и расположение персонажей.

Новые модели доступны в каталоге — одну сцену удобно запустить сразу в нескольких и сравнить характер результата.

На странице

Ключевые акценты Wan 2.7 Grok Imagine Kling O1 и Omni Как выбрать FAQ

Что изменилось

Wan 2.7

Семь режимов в одной линейке: изображения до 4K, видео 2–15 с, редактирование клипов, R2V с motion-образцом. Thinking Mode планирует композицию до генерации.

Grok Imagine

До 30 секунд с нативным ambient-звуком — один из самых длинных форматов в каталоге. Плюс изображения с пятью референсами.

Kling O1

Точный контроль через кадры: первый и последний кадр, motion-референс, до 7 ориентиров. 3–10 секунд, предсказуемый переход.

Kling 3.0 Omni

AI Director планирует раскадровку автоматически. Нативный звук, до 15 секунд, многосценовой формат — несколько сцен с отдельным промптом.

Wan 2.7

Wan 2.7: изображения и видео с motion-референсами

Wan 2.7 — линейка от Alibaba, которая охватывает и изображения, и видео. Для изображений доступны генерация по тексту с поддержкой до 9 референсов и редактирование (1K/2K; Wan Image Pro добавляет 4K). Для видео — два режима: обычный ролик по тексту или изображению длиной 2–15 секунд и Reference-to-Video (R2V) для работы с motion-ориентиром.

Wan 2.7 включает Thinking Mode: прежде чем генерировать, модель анализирует промпт и планирует композицию — результат получается осмысленнее на сложных описаниях, где важны цвет, расположение объектов и характер движения.

R2V — отдельный режим: загрузи стартовый кадр и видео-образец, модель ориентируется на характер движения из этого ролика. Полезно, когда нужно повторить определённый тип камеры, походку персонажа или стиль сцены из существующего клипа.

Изображения: до 9 референсов, 1K–4K

Wan 2.7 Image принимает до 9 визуальных ориентиров и поддерживает редактирование. Image Pro добавляет разрешение 4K.

Видео: 2–15 секунд, 720p/1080p

Текст или изображение на вход, первый и последний кадр, пять форматов кадра. Без нативного звука.

Reference-to-Video (R2V): motion-ориентир

Стартовый кадр обязателен. Добавь видео-образец — модель ориентируется на характер движения из него при создании нового ролика.

Wan 2.7 Video генерирует без звука

Видео в этой линейке без нативного аудио. Если нужен звук, используйте Grok Imagine Video или Kling 3.0 Omni.

Grok Imagine

Grok Imagine: изображения и длинное видео со звуком

Grok Imagine от xAI — это и изображения, и видео. Для изображений: до 5 референсов, редактирование. Для видео — один из самых длинных форматов в каталоге: от 6 до 30 секунд. Нативный ambient-звук включён в каждый ролик автоматически.

Изображения с референсами

Grok Imagine принимает до 5 визуальных ориентиров и поддерживает редактирование исходника.

Видео до 30 секунд

Самая длинная форматная модель видео в каталоге: от 6 до 30 секунд. Подходит для развёрнутых клипов, сцен с нарративом или форматов, где нужно больше времени.

Нативный звук

Ambient-аудио всегда включён в ролик — встроенная особенность архитектуры, не отдельная настройка.

Kling O1 и Kling 3.0 Omni

Kling O1 и Kling 3.0 Omni: контроль движения и сцены

Kling O1 и Kling 3.0 Omni решают разные задачи. O1 — для точного контроля: первый и последний кадр, motion-референс, до 7 ориентиров. Omni — для более свободных сцен: нативный звук, до 15 секунд, многосценовой формат и AI Director — встроенный инструмент, который автоматически планирует углы камеры, типы планов и расположение персонажей по промпту.

Kling O1: первый и последний кадр

3–10 секунд, до 7 визуальных ориентиров, motion-референс как образец движения. Для предсказуемых переходов и точного контроля начала и финала.

Kling 3.0 Omni: сцены со звуком и AI Director

3–15 секунд, нативный звук (можно включить или выключить). AI Director автоматически планирует углы камеры, типы планов и расположение персонажей. Задай несколько сцен в одном запросе — каждая со своим промптом.

Как выбрать

Какую модель выбрать под задачу

Нужны изображения — Wan 2.7

До 9 референсов, редактирование, 1K–4K. Для видео без звука по тексту и изображению.

Нужно длинное видео со звуком — Grok Imagine

До 30 секунд, нативный ambient-звук, текст или стартовый кадр на вход.

Важен точный контроль через кадры — Kling O1

Первый + последний кадр, motion-референс, до 7 ориентиров, 3–10 секунд.

Нужны сцены со звуком — Kling 3.0 Omni

Многосценовое видео, нативный аудио-toggle, до 15 секунд.

FAQ

Вопросы о новых моделях

Какие из новых моделей поддерживают нативный звук?: Grok Imagine Video (всегда включён) и Kling 3.0 Omni (можно включить или выключить). Wan 2.7 Video и Kling O1 генерируют видео без звука.
В чём разница между Kling O1 и Kling 3.0 Omni?: Kling O1 — для точного контроля движения: первый и последний кадр, motion-референс. Kling 3.0 Omni — для более свободных задач с аудио и поддержкой нескольких сцен в одном запросе.
Что такое Reference-to-Video (R2V) у Wan?: Отдельный режим Wan 2.7: загрузи стартовый кадр и видео-образец. Модель ориентируется на характер движения из этого видео при генерации нового ролика.
Как долго может быть ролик у Grok Imagine Video?: От 6 до 30 секунд — это самая длинная форматная модель видео в каталоге. Подходит для задач, где нужен развёрнутый клип.
Можно ли в Kling 3.0 Omni задать несколько сцен?: Да. Kling 3.0 Omni поддерживает многосценовой формат: можно задать несколько сцен в одном запросе, каждая со своим текстовым промптом и длительностью.

В Givon AI появились Wan, Grok Imagine, Kling O1 и Kling 3.0 Omni

Что изменилось

Wan 2.7

Grok Imagine

Kling O1

Kling 3.0 Omni

Wan 2.7: изображения и видео с motion-референсами

Изображения: до 9 референсов, 1K–4K

Видео: 2–15 секунд, 720p/1080p

Reference-to-Video (R2V): motion-ориентир

Wan 2.7 Video генерирует без звука

Grok Imagine: изображения и длинное видео со звуком

Изображения с референсами

Видео до 30 секунд

Нативный звук

Kling O1 и Kling 3.0 Omni: контроль движения и сцены

Kling O1: первый и последний кадр

Kling 3.0 Omni: сцены со звуком и AI Director

Какую модель выбрать под задачу

Нужны изображения — Wan 2.7

Нужно длинное видео со звуком — Grok Imagine

Важен точный контроль через кадры — Kling O1

Нужны сцены со звуком — Kling 3.0 Omni

Вопросы о новых моделях

Читай также