ИИ вдигна левъла: AI Sora създава реалистични видеа по поръчка

16.02.2024 Стоян Петров OpenAI, Sora, Изкуствен интелект, ИИ

Генеративният изкуствен интелект на OpenAI, носещ името Sora е предопределен да се превърне в тотален хит сред създателите на видеосъдържание и феновете на ИИ. Въвеждайки текстови подсказки потребителите получават фотореалистични видеоклипове. И ако сега се запитате дали с негова помощ не бихте могли да създавате годни музикални видеоклипове, телевизионна и кино продукция, екипа зад проекта отговори по-рано днес:

„В бъдеще, може би“…

Вече знаем, че чатбота на OpenAI дори и никога да не е посещавал ВУЗ успешно взима изпити за програмисти, юристи и доктори. Точно навреме преди връчването на Оскарите, ново приложение на компанията, наречено Sora се надява да е овладяло тънкостите на киното, макар и да не е прекарало и ден във филмово училище. Засега в тестова фаза, Sora бе изпратена до няколко избрани създатели на видеопродукция и експерти по сигурността, които ще я тестват за етична пригодност и наличие на уязвимости. OpenAI ще направи Sora достъпна за широката публика, но конкретна времева рамка не бе оповестена.

Други играчи – от гиганти като Google до едва прохождащи компании като Runway, вече представиха своите проекти за преобразуване на текст във видео с помощта на изкуствен интелект. OpenAI ни убеждава обаче, че Sora ще се отличава с поразителен фотореализъм – нещо, което не сме виждали при конкурентните й продукти. Друго предимство на Sora e способността й да произвежда видеопродукция с по-голяма продължителност, сравнено със съвсем кратките фрагменти, които конкурентните модели успяват да генерират към днешна дата.

Помолени да хвърлят повече светлина върху проекта си членовете на екипа зад Sora, избегнаха да дадат директен отговор на същественият въпрос колко време е необходимо за рендериране на единица време видео, но намекнаха че публиката ще се изненада от производителността на приложението. Ако можем да вярваме на публикуваните видео примери, усилията им си заслужават.

OpenAI засега не позволява дори на най-любопитните да въвеждат собствени подсказки, но сподели в сайта на проекта няколко примера, които загатват за способностите на Sora.

Първият е генериран чрез описателно запитване, което звучи като да е написано от професионален сценарист: „Красивият, снежен град Токио днес е оживен. Камерата се движи през градска улица, следвайки няколко души, които се наслаждават на красивото снежно време и пазаруват от близките сергии. Прекрасни листенца от вишня сакура прелитат във въздуха, заедно със снежинките.“

Видео: OpenAI

Резултатът е убедителна гледка към това, което безпогрешно можем да определим като Токио, в този магичен момент, когато снежинките и вишновите цветчета танцуват във въздуха. Виртуална, сякаш прикрепена към дрон камера следва двойка, която се разхожда по улиците. Един от минувачите носи маска. Колите се движат по крайбрежно шосе от лявата им страна, а отдясно купувачи влизат и излизат от малките магазинчета.

Видеото, макар и реалистично не е съвършено перфектно. Ако изгледате клипа няколко пъти ще осъзнаете, че главните герои – двойка, разхождаща се по заснежения тротоар – би била изправена пред дилема, ако виртуалната камера бе продължила да снима. Тротоарът, по който двамата крачат, изглежда без изход; те ще трябва да прескочат малка предпазна ограда до странно разположената в дясно пътека. Въпреки този инфраструктурен проблем, примерът с Токио е зашеметяващо упражнение по създаване на реализъм.

Далеч, а може би по-рано във времето кинаджиите ще спорят дали Sora може да се развие като мощен сътрудник в създаването на видеопродукция или ще е поредният AI убиец на работни места. Хората в това видео – изцяло генерирани от цифрова невронна мрежа не биват показани в близък план и не изразяват никакви емоции. Екипът зад Sora обаче споделя, че в тестовата фаза са генерирали не малко AI актьори, които успешно пресъздават емоции.

Представяме ви друго, създадено с изкуственият интелект видео със следното описание: „Анимирана сцена в близък план с малко пухкаво чудовище, коленичило до разтопена червена свещ. Арт стилът е реалистичен 3D, с акцент върху осветлението и текстурата. Настроението на героят е удивление и любопитство, докато чудовището гледа пламъка с широко отворени очи и уста. Неговата поза и изражение предават чувство на невинност и игривост, сякаш изследва света около себе си за първи път. Използването на топли цветове и драматично осветление допълнително засилва уютната атмосфера на изображението.“

Видео: OpenAI

Макар и сцените да са впечатляващи, най-поразителни способности Sora демонстрира в направления, в които не е обучавана. Задвижвана от версия на дифузионния модел, използван от генератора на изображения Dalle-3 на OpenAI, както и от базиран на трансформатори двигател на GPT-4, Sora не просто произвежда видеоклипове, които изпълняват изискванията от текстови подкани, но го прави по начин, който демонстрира разбиране за кинематографията като изкуство и техника.

Коментирайки друго видео, създадено след подкана за създаване на „Майсторски изобразен оригами свят на подводен коралов риф, пълен с цветни хартиени риби и морски създания“, Бил Пийбълс, друг член на проекта, отбелязва, че Sora е демонстритала страхотно „операторско майсторство“, перфектен тайминг и монтаж.

Видео: OpenAI

„Sora напълно самостоятелно направи множество смени на кадрите, спазвайки заданието – сцените не са зашити една за друга, а бяха генерирани от модела наведнъж“, сподели той. „Не сме й казвали да прави това, тя просто го направи автоматично.“

В друг споделен от екипа пример, който не бе публикуван, Sora е била помолена да направи обиколка на зоопарк. „Започна с името на зоопарка, разположено на голям транспарант, постепенно насочи „камерата“ надолу, след което направи няколко сръчни смени на сцени, докато ни покаже различните животни, които живеят в зоопарка“, казва Пийбълс, „Тя го направи по приятен кинематографичен начин, за което не беше изрично инструктирана.“

Една от функциите на Sora, която екипът на OpenAI не показа и може би няма да демонстрира скоро, е възможността й да генерира видеоклипове от едно единствено изображение или от последователност от кадри. „Това ще бъде още един наистина страхотен начин за подобряване на възможностите за разказване на истории“, отбелязва Брукс за Wired. „Можете да нарисувате точно това, което иматe в ума си, а след това то ще оживее чрез Sora.“ OpenAI е напълно наясно, че нейната поредна AI рожба има потенциала да създава дийпфейкове и дезинформация. „Ще бъдем много внимателни за всички последствия за безопасността “, добавя Пийбълс, каквото и да означава това.

Очаква се Sora да има същите ограничения върху съдържанието като Dall-E 3: без насилие, без порнография, без присвояване на ликове от реални хора или стила на известни художници. Също така, както при Dall-E 3, OpenAI ще предостави начин зрителите да идентифицират продукцията като създадена от изкуствен интелект. Въпреки това, служител на OpenAI сподели, че безопасността и достоверността са постоянен проблем, който е по-голям от капацитета на която и да е компания. „Решението на проблема с дезинформацията ще изисква някакво ниво на смекчаване на реализма от наша страна, но се нуждаем и от общественото разбиране, както и от сътрудничество със социалните мрежи“, казва Адитя Рамеш, водещ изследовател и ръководител на екипа на Dall-E.

Създадено с изкуствен интелект видео с описание: „Няколко гигантски космати мамути приближават, преминавайки през заснежена поляна, дългата им вълнеста козина леко се вее от вятъра, докато вървят. Покрити със сняг дървета и величествени заснежени планини в далечината, следобедното слънце с тънки облаци създава топло сияние. Ниска гледна точка на камерата, улавяща големите космати бозайници сред красива природа и пространствена дълбочина.“

Видео: OpenAI

Друг потенциален проблем е дали съдържанието на видеоклиповете, които Sora генерира може да наруши авторските права на други създатели. „Sora е обучена чрез лицензирано съдържание, както и от публично достъпно съдържание“, казва Пийбълс. Редица съдебни дела срещу OpenAI се въртят около въпроса дали „публично достъпното“ съдържание, защитено от авторски права е честна практика в обучението на изкуствения интелект.

Трябва да признаем, че ще мине още време преди технологията да замени истинското кинопроизводство. Моделът на този етап ще бъде ограничен да генерира едноминутна видеопродукция. Няма да е възможно да създадете цялостен 120 минутен филми, като залепите един за друг последователно създадени 120 на брой клипа, тъй като моделът няма да реагира на подканите ви по точно същия начин и в идентичен стил – приемственост между клиповете ви няма да има. Наложеното ограничение във времетраенето обаче няма да е пречка пред създателите на видеосъдържание да използват генерирани от Sora клипове в TikTok, както и за създаване на Reels за останалите социални платформи.

„За да направите професионален филм, ще ви трябва много скъпо оборудване“, казва Пийбълс. „Нашият модел засега ще предостави възможност на обикновения човек, който прави видеоклипове в социалните мрежи, да създава кратко и висококачествено съдържание.“

Засега OpenAI е изправена пред отговорната задача да се увери, че Sora няма да катастрофира в случай, че бъде употребена от престъпници и тролски мрежи за измамни цели и дезинформация. В бъдеще предстои да видим дали изцяло генерирани от AI актьори ще получат правото да бъдат номинирани за актьорско майсторство в продукции, изцяло създадени чрез изкуствен интелект и малко човешко въображение.

Представяме ви още примери за генерирани от Sora видеа след прости текстови запитвания: