Naujasis „Runway“ vaizdo įrašą generuojantis AI „Gen-3“ siūlo patobulintus valdiklius
Lenktynės dėl aukštos kokybės, dirbtinio intelekto sukurtų vaizdo įrašų įkaista.
Pirmadienį bendrovė „Runway“, kurianti generuojančius AI įrankius, skirtus filmų ir vaizdo turinio kūrėjams, pristatė naujausią AI modelį „Gen-3 Alpha“, skirtą vaizdo klipams generuoti iš teksto aprašymų ir nejudančių vaizdų. „Runway“ teigia, kad „Gen-3“ pagerina generavimo greitį ir tikslumą, palyginti su ankstesniu „Runway“ pavyzdiniu vaizdo modeliu „Gen-2“, taip pat puikiai valdo sukuriamų vaizdo įrašų struktūrą, stilių ir judėjimą.
„Gen-3“ bus pasiekiamas artimiausiomis dienomis „Runway“ abonentams, įskaitant verslo klientus ir „Runway“ kūrybinių partnerių programos įmones.
„Gen-3 Alpha“ puikiai sugeba sukurti išraiškingus žmogaus charakterius su įvairiais veiksmais, gestais ir emocijomis“, – rašo Runway savo tinklaraštyje. „Jis buvo sukurtas interpretuoti įvairius stilius ir kino terminologiją [and enable] vaizduotės perėjimai ir tikslus scenos elementų kadravimas.
„Gen-3 Alpha“ turi savo apribojimų, bene akivaizdžiausias iš jų yra tai, kad jo filmuota medžiaga trunka iki 10 sekundžių. Tačiau „Runway“ įkūrėjas Anastasis Germanidis žada, kad „Gen-3“ yra tik pirmasis ir mažiausias iš kelių vaizdo įrašus generuojančių modelių, patenkančių į naujos kartos modelių šeimą, parengtą pagal atnaujintą infrastruktūrą.
„Modelis gali kovoti su sudėtinga charakterio ir objekto sąveika, o kartos ne visada tiksliai laikosi fizikos įstatymų“, – šį rytą interviu „TechCrunch“ sakė Germanidis. „Šis pradinis diegimas palaikys 5 ir 10 sekundžių didelės raiškos kartos, kurių generavimo laikas bus pastebimai greitesnis nei 2 kartos. 5 sekundžių klipas sugeneruojamas per 45 sekundes, o 10 sekundžių klipas sugeneruojamas per 90 sekundžių.
„Gen-3 Alpha“, kaip ir visi vaizdo įrašus generuojantys modeliai, buvo apmokyta pagal daugybę vaizdo įrašų ir vaizdų pavyzdžių, todėl galėjo „išmokti“ šiuose pavyzdžiuose pateiktus modelius, kad sukurtų naujus klipus. Iš kur gauti treniruočių duomenys? Kilimo ir tūpimo takas nepasakytų. Šiomis dienomis tik nedaugelis kūrybingų dirbtinio intelekto pardavėjų savanoriškai teikia tokią informaciją, iš dalies todėl, kad mokymo duomenis laiko konkurenciniu pranašumu, todėl juos ir su jais susijusią informaciją laiko prie krūtinės.
„Turime vidinę tyrimų grupę, kuri prižiūri visus mūsų mokymus, o modeliams mokyti naudojame kuruojamus vidinius duomenų rinkinius“, – sakė Germanidis ir paliko tai.
Mokymų duomenų detalės taip pat yra galimas su intelektinės nuosavybės teise susijusių ieškinių šaltinis, jei pardavėjas mokosi apie viešuosius duomenis, įskaitant autorių teisių saugomus duomenis, iš žiniatinklio – tai dar vienas atgrasymas daug atskleisti. Kelios teismuose vykstančios bylos atmeta pardavėjų sąžiningo naudojimo mokymo duomenų apsaugą, teigdami, kad generatyvūs AI įrankiai atkartoja menininkų stilius be menininkų leidimo ir leidžia vartotojams kurti naujus kūrinius, panašius į menininkų originalus, už kuriuos menininkai negauna jokio atlyginimo.
Tinklaraščio įraše, kuriame skelbiama apie „Gen-3 Alpha“, „Runway“ šiek tiek sprendžia autorių teisių problemą, sakydama, kad kuriant modelį konsultavosi su menininkais. (Kokie menininkai? Neaišku.) Tai atspindi tai, ką Germanidis man pasakė per „TechCrunch's Disrupt“ konferencijos 2023 m. gaisrą:
„Mes glaudžiai bendradarbiaujame su menininkais, kad išsiaiškintume, kokie yra geriausi būdai tai išspręsti“, – sakė jis. „Tiriame įvairias duomenų partnerystes, kad galėtume toliau augti… ir kurti naujos kartos modelius.
Tinklaraščio įraše „Runway“ taip pat sako, kad planuoja išleisti „Gen-3“ su naujomis apsaugos priemonėmis, įskaitant moderavimo sistemą, kuri blokuotų bandymus generuoti vaizdo įrašus iš autorių teisių saugomų vaizdų ir turinio, kuris neatitinka „Runway“ paslaugų teikimo sąlygų. Taip pat kuriama kilmės sistema, suderinama su C2PA standartu, kurį palaiko „Microsoft“, „Adobe“, „OpenAI“ ir kiti, siekiant nustatyti, kad vaizdo įrašai atkeliavo iš „Gen-3“.
„Mūsų nauja ir patobulinta vidinė vaizdo ir teksto moderavimo sistema naudoja automatinę priežiūrą, kad būtų išfiltruotas netinkamas ar žalingas turinys“, – sakė Germanidis. „C2PA autentifikavimas patikrina laikmenos, sukurtos naudojant visus Gen-3 modelius, kilmę ir autentiškumą. Didėjant modelių galimybėms ir galimybei generuoti aukštos kokybės turinį, mes ir toliau daug investuosime į savo derinimo ir saugos pastangas.
Šiandienos įraše „Runway“ taip pat atskleidė, kad bendradarbiauja ir bendradarbiauja su „pirmaujančiomis pramogų ir žiniasklaidos organizacijomis“, kad sukurtų pasirinktines „Gen-3“ versijas, leidžiančias labiau „stilistiškai valdomus“ ir nuoseklesnius personažus bei taikyti „konkrečius meninius ir pasakojimo reikalavimus“. Bendrovė priduria: „Tai reiškia, kad sukurti personažai, fonas ir elementai gali išlaikyti nuoseklią išvaizdą ir elgesį įvairiose scenose.
Pagrindinė neišspręsta vaizdo įrašą generuojančių modelių problema yra kontrolė, ty gauti modelį, kuris generuotų nuoseklų vaizdo įrašą, suderintą su kūrėjo meniniais ketinimais. Kaip neseniai rašė mano kolega Devinas Coldewey, tradicinių filmų kūrimo paprastiems dalykams, pavyzdžiui, veikėjo drabužių spalvos parinkimui, reikia išeities naudojant generatyvius modelius, nes kiekvienas kadras kuriamas nepriklausomai nuo kitų. Kartais net sprendimai nepadeda – redaktoriams tenka daug rankinio darbo.
„Runway“, surinkusi daugiau nei 236,5 mln. USD iš investuotojų, įskaitant „Google“ (kuriai ji turi debesų skaičiavimo kreditus) ir „Nvidia“, taip pat rizikos kapitalo įmonių, tokių kaip „Amplify Partners“, „Felicis“ ir „Coatue“, glaudžiai susiliejo su kūrybine industrija, investuodama į kūrybines AI technologijos auga. „Runway“ valdo „Runway Studios“ – pramogų padalinį, kuris yra verslo klientų gamybos partneris, ir organizuoja AI filmų festivalį – vieną iš pirmųjų renginių, skirtų visiškai arba iš dalies dirbtinio intelekto sukurtų filmų demonstravimui.
Tačiau konkurencija darosi vis aštresnė.
„Generative AI“ startuolis „Luma“ praėjusią savaitę paskelbė apie „Dream Machine“ – vaizdo įrašų generatorių, kuris išpopuliarėjo dėl gebėjimo animuoti memus. Ir tik prieš porą mėnesių „Adobe“ atskleidė, kad kuria savo vaizdo įrašų generavimo modelį, parengtą pagal „Adobe Stock“ medijos bibliotekos turinį.
Kitur yra įsitvirtinusių operatorių, tokių kaip „OpenAI“ „Sora“, kuri tebėra griežtai uždaryta, bet kurią „OpenAI“ skatina rinkodaros agentūros ir nepriklausomi bei Holivudo filmų režisieriai. („OpenAI CTO Mira Murati“ dalyvavo 2024 m. Kanų kino festivalyje.) Šių metų „Tribeca“ festivalyje, kuris taip pat bendradarbiauja su „Runway“, kurdamas filmus, sukurtus naudojant dirbtinio intelekto įrankius, buvo rodomi trumpametražiai filmai, sukurti kartu su Sora režisierių, kuriems buvo suteikta išankstinė prieiga.
„Google“ taip pat atidavė savo įvaizdį generuojantį modelį „Veo“ į atrinktų kūrėjų, įskaitant Donaldą Gloverį (AKA Childish Gambino) ir jo kūrybinę agentūrą „Gilga“, rankas, kad „Veo“ būtų įtraukta į tokius produktus kaip „YouTube Shorts“.
Kad ir koks bendradarbiavimas susvyruotų, aiškėja vienas dalykas: generatyvūs AI vaizdo įrankiai grasina apversti kino ir televizijos pramonę, kaip mes ją žinome.
Kino kūrėjas Tyleris Perry neseniai pasakė, kad sustabdė planuotą 800 milijonų dolerių vertės savo gamybos studijos plėtrą, pamatęs, ką Sora gali padaryti. Joe Russo, „Marvel“ filmų, tokių kaip „Keršytojai: Endgame“, režisierius prognozuoja, kad per metus dirbtinis intelektas galės sukurti visavertį filmą.
2024 m. Animacijos gildijos, Holivudo animatorių ir karikatūristų sąjungos užsakymu atliktas tyrimas parodė, kad 75 % filmų gamybos įmonių, kurios pritaikė dirbtinį intelektą, sumažino, konsolidavo arba panaikino darbo vietas, įdiegusios šią technologiją. Tyrimas taip pat apskaičiavo, kad iki 2026 m. daugiau nei 100 000 JAV pramogų darbų bus sutrikdyta dėl generatyvaus AI.
Prireiks rimtai stiprios darbo apsaugos, kad vaizdo įrašų kūrimo įrankiai nesektų kitų generuojamųjų AI technologijų pėdomis ir smarkiai sumažėtų kūrybinio darbo paklausa.