Nestyď se zeptat: Jak si „ochočit“ AI ve filmové tvorbě

Jak využívat umělou inteligenci při tvorbě videí? Ondřej Svoboda umí AI nástroje přimět, aby vytvořily parádní obsah. Třeba jako video GTA: Praha, které se stalo virálním (odkaz najdeš v článku).

Před vypuknutím skvotího kurzu AI ve filmografii si s námi Ondřej povídal o přínosech i úskalích generativních nástrojů a prozradil, jak promptovat zvukové efekty. Čti a zjistíš mimo jiné, jak naučit AI různé kreativní styly, s čím pomůže v postprodukci a jestli Ondřej chystá upgrade svého legendárního díla Pár Pařmenů.

Ahoj Ondřeji, jaké jsou podle tebe klíčové principy fungování AI nástrojů, které by měl každý začátečník znát?

Hlavní je uvědomit si, že nástroje generativní umělé inteligence jsou naučeny na velkém množství dat. Ať už se jedná o texty v případě třeba ChatGPT, nebo obrázky u Midjourney. Zároveň je důležité vědět, že pro některá témata bylo těchto trénovacích dat velké množství, pro jiné málo. Nedostatek trénovacích dat pak vede k takzvané halucinaci a výsledné texty nebo obrázky pak nemusí příliš odpovídat pravdě.

Je nutné rozlišovat generativní nástroje třeba od vyhledávačů. ChatGPT jako jazykový model ve svém základním principu narozdíl od Googlu neprohledává internet a zdroje, ale sestavuje vlastní odpovědi. Pokaždé dostanete něco jiného a snaží se vám tak trochu se zalíbit. Jako když vyvoláte studenta před tabuli, který někdy ví a někdy neví. Ale když neví, snaží se vymyslet aspoň něco a mlžit, abyste vy jako zkoušející byli spokojení.

Co byly tvoje první pokusy s umělou inteligencí ve tvorbě a kam se to od té doby posunulo?

V červnu 2022 jsem mezi prvními uživateli získal přístup do beta verze DALL-E 2 sloužícího pro generování obrázků. Byl jsem naprosto unešen tím, že je nějaký systém schopen „nakreslit“ obrázek pouze podle toho, co mu zadám. Práce s tím byla ještě dost neohrabaná, šlo generovat jen čtvercové obrázky a výsledky byly velmi nestabilní. Už tehdy ale fungovalo relativně dobře generování obrázků v různých malířských stylech.

Nicméně krátce poté přišla Midjourney, která od té doby posouvá hranice generování obrázků neustále dál. Největší posun vnímám v kvalitě výstupů a také v tom, jak masově se nástroje generativní umělé inteligence rozšířily. Nyní máme určitě desítky tisíc různých nástrojů, které v různých podobách využívají AI pro tvorbu všemožných textů, obrázků, hudby, zvuků, videí, a dokonce i počítačových programů nebo her.

Obrázek z DALL-E 2 z června 2022 ve stylu Alfonse Muchy – robot kráčející Prahou

Přiblížíš nám nějaký svůj úspěšný projekt z poslední doby, na který jsi hrdý?

Překvapivě velký úspěch zaznamenalo video GTA: Praha, které znázorňuje, jak by vypadala počítačové hra GTA, kdyby se odehrávala v Praze. Na začátku byla inspirace z jedné facebookové skupiny a celé video vzniklo během jednoho dne. Získalo v součtu minimálně stovky tisíc zhlédnutí napříč různými sociálními sítěmi a psaly o něm desítky online magazínů a zpravodajství, včetně CNN Prima News.

Nicméně pořád to asi nestačilo na zastínění úspěchu mého pubertálního já před dvaceti lety, kdy jsme s kamarády vyrobili parodii Pár Pařmenů. Od té doby s úspěchem svého pubertálního já soutěžím a zatím má stále navrch. (smích)

GTA: Praha video:

Na co si dát pozor, když chci vytvořit s pomocí AI smysluplný příběh?

Zásadní je nebrat rovnou to, co textový generátor vytvoří. Ať už se jedná o ChatGPT, Claude, Copilot, nebo Gemini, vždy je potřeba jej korigovat a přistupovat k tvorbě kooperativně. Jistě, můžu mu napsat – napiš mi scénář ke krátkému sci-fi filmu, ale výsledek většinou nebude tak dobrý, jako kdyby člověk postupoval po částech. Důležitá je vlastní invence, alespoň hrubá představa nebo nosná myšlenka.

A potom ji postupně rozpracovávat podobně, jako kdyby člověk měl u sebe non-stop k dispozici spoluautora, konzutanta nebo klidně Aristotela a jeho tříaktovou strukturu dramatu. Můžu třeba začít nějak takto: „Mám nápad na krátký film ve stylu filmu Kmotr. Mělo by se jednat o mafiánský film odehrávající se na Moravě. Hlavní postava bude vinař. Dej mi 5 originálních námětů na zápletku.“

Takto vycházím ze své myšlenky a představy, nenechávám ChatGPT napsat to celé, ale spíše si nechám vygenerovat nějaké nápady, ze kterých se pak dále odpíchnu. Je dost možné, že nakonec nepoužiji ani jeden z nich, ale napadne mě šestý, který bude ještě lepší.

A postupně mohu pokračovat v dalším budování příběhu, rozpracovávat za pomocí ChatGPT životy a motivace postav, chystat strukturu respektující třeba právě Aristotelův princip dramatu a podobně.

Zjistit více

Co nám hrozí za chyby, když v tvorbě spoléháme na umělou inteligenci?

Když ještě zůstaneme u textových generátorů – může se stát, že se necháme uchlácholit průměrným výsledkem, ať už vygenerovaným, nebo vlastním. ChatGPT se na nás vždy snaží být hodný, takže když jej požádate o zpětnou vazbu, mnohdy vás pochválí a nenavrhne mnoho věcí na zlepšení.

Je důležité koukat se na vše trochu kriticky a rovnou jej vyzývat ke konstruktivní kritice ve stylu „kdybys na tom mohl něco zlepšit, co by to bylo a proč?“. Co se týče ostatních nástrojů generativní umělé inteligence pro obrázky a video – ne vždy se zatím podaří dosáhnout výsledku přesně podle našich představ. Vždy hraje roli nějaká náhoda a množství pokusů.

Pokud má člověk příliš přesnou představu, ze které není ochoten ani kousek uhnout, pak může být používáním AI nástrojů zklamaný, protože nemusí dostávat úplně přesně to, co si vysnil. Je potřeba flexibilita a adaptabilita, což jsou ostatně klíčové vlastnosti pro úspěch v době masivního nástupu umělé inteligence a s tím souvisejících změn.

Jakým způsobem AI nástroje zlepšují efektivitu postprodukce?

Nástup AI je v postprodukci vidět především v oblasti VFX. Takovým jednoduchým příkladem může být třeba klíčování. Teď už existují nástroje, které dokážou pozadí odstranit, aniž by bylo potřeba video natáčet před zeleným pozadím. Dále můžeme ve videu odmazávat, nahrazovat nebo měnit objekty podobně, jako jsme zvyklí třeba z Photoshopu.

Před pár týdny také Adobe oznámil, že pracuje na přidání podobných funkcí přímo do jejich střihového programu Adobe Premiere Pro.

Nicméně těch možností pro zefektivnění postprodukce je spousta. Při stříhání rozhovoru jej můžeme nechat pomocí AI převést do textu a střih provádět přímo úpravou textu. Nebo pokud je potřeba změnit v postprodukci text postavy, můžeme pomocí AI upravit, co postava říká, včetně synchronizace pohybu úst, aniž by bylo potřeba natáčet ji znovu.

Existují nástroje, které taky zvládnou do jisté míry samy sestříhat materiál (třeba pro zpracování podcastů), máme tady AI color grading a podobně. Ty možnosti jsou nepřeberné a neustále vznikají nové nástroje posouvající hranice možného ještě dále.

Dají se nějak AI nástroje naučit a přizpůsobit na různé kreativní styly?

Obecně to možné je, mluví se pak většinou o dotrénování modelu, což už bývá většinou pokročilejší operace vyžadující technické znalosti (třeba při práci se Stable Diffusion). V principu se využije už existující generativní model, který se dále dotrénuje na dalších dodaných datech, ať už se jedná o text, nebo obrázky. Ale podobné funkce už se objevují i u běžně dostupných nástrojů.

Do jisté míry můžeme velmi jednoduše využít specifický styl třeba i u Midjourney pro generování obrázků. Ať už skrze příkaz „style reference“, za který dáme URL obrázku s požadovaným stylem (--sref URL) nebo přes Style Tuner. U ChatGPT pak můžeme zadat tzv. „custom instructions“ přímo v nastavení svého profilu, kde můžeme zadat, jakým stylem chceme, aby nám odpovídal.

Používáš AI pro generování hudby a zvukových efektů? Jaký nástroj se na to hodí?

Používám velmi často, obzvláště co se týče zvukových efektů, tak to dokáže ušetřit dost času. Člověk nemusí hledat specifický zvukový efekt, ale jednoduše si ho napromptuje. Na zvukové efekty existuje sice několik služeb, ale nejlépe mi funguje nedávno představený zvukový generátor od elevenlabs.

Tato firma je lídrem v oblasti generování hlasu a aspiruje na to být hlavním hráčem na poli generativního zvuku obecně, včetně hudby, i když to zatím u nich není veřejně dostupné. Na hudbu skvěle funguje suno.com a udio.com.

V principu fungují obě služby velmi podobně – člověk zadá požadovaný žánr a za pár sekund dostane vygenerovanou písničku. Překvapivé je i to, že je možné zadat vlastní text skladby i v češtině. Dostaneme pak rovnou nazpívanou píseň.

Vánoční verze „Když se u nás chlapi poperou“ vytvořená kompletně pomocí AI:

Narazil jsi na nějaké překážky při přechodu z tradičních metod tvorby k využití AI?

Při práci s AI člověk musí počítat s tím, že dostane pokaždé trochu jiný výsledek a ne vždy dostane přesně to, co si představoval. Je tedy nutná flexibilita a někdy trochu opustit perfekcionismus. Nevýhoda taky je, že všechny AI nástroje bývají většinou placené, protože využívají nezanedbatelný výpočetní výkon, což něco stojí.

Částky se sice většinou pohybují v řádu deseti nebo dvaceti dolarů měsíčně, ale při několika předplatných zároveň se měsíční platby mohou vyšplhat více, než by si člověk přál. Což mi připomíná, že bych asi měl revidovat, za co teď platím. (smích)

Kam se posune s nástupem masivního využívání AI technologií role kreativních filmových tvůrců?

Obávám se, že budeme zahlceni obsahem ještě více, než jsme dnes. Na druhou stranu se díky AI nástrojům otevřou dveře všem kreativním tvůrcům, kteří mají zajímavé nápady a myšlenky, ale nemají prostředky nebo konexe pro jejich realizaci. Už teď může jednotlivec jen za pomocí generativních AI nástrojů vytvořit poutavé audiovizuální dílo, které by jinak vyžadovalo spolupráci mnoha lidí a vysoké náklady.

Věřím, že s dalším vývojem nástrojů bude možné vytvářet filmy téměř nerozeznatelné od těch natočených tradičními cestami. Zároveň je ale potřeba říct, že kouzlo klasického filmu, na kterém se podílejí desítky kreativních filmových profesí, tady s námi zůstane nadále, jen bude mít větší konkurenci.

Zvažuješ etické otázky, které se vážou k používání AI v tvorbě audiovizuálního obsahu?

Etický aspekt je v souvislosti s AI velmi důležitý. Mám pocit, že firmy naskočily do rychle jedoucího AI vlaku, natrénovaly své modely na všem možném, aniž by se ptaly vlastníků dat, jestli je mohou použít, a až zpětně se řeší, jestli to bylo v pořádku, nebo ne. Je otázka, jestli je lepší přístup žádat o povolení, nebo prominutí. Pokud chceme maximální technologický pokrok, pak asi spíše o prominutí.

Pokud chceme žít ve společnost maximálně respektující duševní vlastnictví, pak spíše o povolení. Celkově stojíme před množstvím podobných otázek, určitě bude potřeba zamýšlet se nad rozumnými regulacemi, ale aby zároveň nebrzdily další potenciál AI.

Číst

V čem má současné využití AI ve filmografii své limity a jak odhaduješ budoucí vývoj?

Videa generovaná pomocí aktuálně dostupných AI nástrojů většinou nevypadají příliš realisticky a je na první pohled patrné, že se nejedná o skutečné video. Objekty morfují, vzhled generovaných lidských postav se během několika sekund zcela promění a pohyb většinou není příliš přirozený.

Nicméně pravděpodobně ještě během tohoto roku bychom se měli dočkat zpřístupnění nástroje SORA od OpenAI, snad i Veo od Google a podle prvních ukázek půjde v těchto nástrojích generovat videa, která jsou na první pohled k nerozeznání od skutečně natáčených.

Film kompletně vytvořený přes SORA:

Kterým profesím z filmové branže hrozí kvůli umělé inteligenci zánik?

Obecně jsou ohroženy spíše kancelářské profese a ty, u kterých je většina práce prováděna u počítače. Profese, které nějakým způsobem zahrnují interakci s fyzickým prostředím nebo dalšími lidmi, jsou obecně v lehké výhodě. Nicméně vzhledem k tomu, jak se filmové odvětví bude s největší pravděpodobností v následujících měsících a letech vyvíjet, se dá předpokládat, že ani ty nebudou ušetřeny.

Filmů vytvářených klasicky „na place“ bude ubývat, protože to finančně nebude dávat takový smysl jako dříve, a lidí, kteří budou moci se filmem živit, bude vzhledem ke klesajícímu množství příležitostí ubývat. Nějakou měrou jsou ohroženy snad všechny profese, ale jsem přesvědčen, že mnoho jich také vznikne.

Nedávno byl třeba představen systém Showrunner, který umí generovat animované seriály ve stylu South Parku. Každá postava je ve své podstatě samostatně fungující AI agent, který má svou motivaci a příběh a interaguje s ostatními postavami. Systém Showrunner pak z těchto interakcí dělá svým způsobem sestřih. Vzniká taková AI reality show s příběhem.

Firma Fable Simulation, která stojí za tímto nástrojem, tak mimo jiné hledá lidi na pozici „Simulation Architect“, kteří budou vytvářet příběhy jednotlivých AI postav. Pokud se člověk dokáže adaptovat na změny a snaží se sledovat, co se kolem něj děje, věřím, že si i do budoucna své uplatnění najde.

Chystáš se udělat zase nějakou vtipnou parodii jako Pár Pařmenů, tentokrát s pomocí AI?

(smích) To jsem si říkal! Napadlo mě vytvořit pomocí AI video, které by se mohlo přidat k tomu našemu dabingu – vznikl by tak úplně nový film, který by s Pánem prstenů neměl vlastně už nic společného, kromě délky.

Možná by to pak bylo umění? Ony by vlastně vznikly dva filmy, protože ta nová video stopa by se dala použít i s původním zvukem z Pána prstenů. A zajímavé by bylo, kdyby se ten epický příběh odehrával v nějakém úplně banálním prostředí. Třeba v Brně. (smích)

Díky za boží rozhovor, Ondřeji! Kdo dočetl až sem, může se na kurzu stát AI mágem taky.