Umělá inteligence dnes dokáže generovat obrázky, psát texty nebo analyzovat fotografie. Apple ale nyní ukázal technologii, která jde ještě o krok dál. Odborníci z cupertinské společnosti představili model, který dokáže z jediné fotografie vytvořit trojrozměrný objekt a zároveň realisticky simulovat, jak na jeho povrchu funguje světlo. Výsledkem tak není jen jednoduchý 3D model, ale objekt, na kterém se při změně úhlu pohledu přirozeně mění odlesky, jas i další světelné efekty.
Mohlo by vás zajímat
Studie nese název LiTo: Surface Light Field Tokenization a řeší problém, na který vývojáři narážejí už dlouhou dobu. Mnoho současných metod totiž dokáže rekonstruovat tvar objektu, ale jen obtížně zachytí, jak se na jeho povrchu chová světlo. Pokud jste někdy viděli starší 3D rekonstrukce vytvořené z fotografií, možná jste si všimli, že objekty působí trochu nepřirozeně. Lesklé materiály často vypadají ploše a při změně úhlu pohledu se jejich vzhled téměř nemění. Právě na to se nový model Applu snaží reagovat.
Základem celé technologie je takzvaný latentní prostor, což je v oblasti strojového učení způsob, jak ukládat informace v matematické podobě. Místo toho, aby model ukládal každý detail obrázku zvlášť, převádí data do číselné reprezentace, která zachycuje jejich vlastnosti a vztahy. Tyto reprezentace pak existují v mnohorozměrném prostoru, kde lze snadno vypočítat jejich podobnost nebo vzdálenost. Díky tomu mohou modely efektivněji pracovat s informacemi a generovat nové výsledky.
V případě LiTo se tento princip používá k tomu, aby model dokázal současně popsat tvar objektu a způsob, jakým na něj dopadá světlo. Systém si tak vytváří kompaktní matematickou reprezentaci, která obsahuje informace o geometrii objektu i o jeho vzhledu při různých úhlech pohledu. Když je pak potřeba objekt znovu zobrazit, druhá část modelu tuto reprezentaci převede zpět do podoby trojrozměrného modelu a dopočítá, jak by měl vypadat při různém nasvícení.
Zajímavé je i to, jak Apple model trénoval. Výzkumní pracovníci v tomto případě použili tisíce digitálních objektů, které byly renderovány z mnoha různých úhlů a při několika světelných podmínkách. Model však nedostal všechny tyto informace najednou. Místo toho pracoval jen s náhodně vybranými vzorky dat, z nichž se postupně učil rekonstruovat celý objekt i jeho vizuální vlastnosti. Díky tomu se naučil zachytit nejen samotnou geometrii, ale i jemné změny vzhledu, které vznikají při změně směru pohledu nebo světla.
Jakmile byl systém dostatečně vytrénovaný, byl přidán ještě další model, který dokáže z jediné fotografie odhadnout odpovídající latentní reprezentaci. Z ní pak hlavní část systému vytvoří kompletní 3D objekt včetně realistických světelných efektů. Jinými slovy, model nepotřebuje několik snímků z různých stran, jak tomu bývá u tradičních metod rekonstrukce. Stačí mu jediný obrázek.
Na první pohled může jít o čistě akademický experiment, ale podobné technologie mají velmi praktické využití. Mohou se hodit například při tvorbě 3D modelů pro rozšířenou realitu, ve hrách nebo při digitalizaci produktů pro internetové obchody. Stačilo by vyfotit předmět a systém by automaticky vytvořil jeho trojrozměrnou podobu, kterou by si uživatel mohl otáčet a prohlížet z různých stran.
Podobné výzkumy jsou u Applu poměrně časté a často slouží jako základ pro budoucí technologie v jeho produktech. Stačí si vzpomenout na fotografické algoritmy v iPhonech nebo na technologie spojené s LiDAR skenováním. A pokud Apple skutečně míří do světa prostorového computingu a rozšířené reality, dává vývoj podobných modelů velký smysl. Schopnost vytvořit realistický 3D objekt z jediné fotografie by totiž mohla být jednou z technologií, které budou v budoucnu pracovat na pozadí našich zařízení, aniž bychom si uvědomili, jak složitý výpočet za tím stojí.
Ale tyhle funkce měly být už u první verze,takhle apple ukázal jak je zas pozadu,třeba když měnili lightning za USB-C