Zavřít reklamu

Apple překvapil technologickou komunitu vydáním rozsáhlého výzkumného datasetu Pico-Banana-400K, který obsahuje 400 000 obrázků určených pro trénink AI modelů zaměřených na úpravu fotografií podle textových instrukcí. Co je možná ještě překvapivější – k jeho vytvoření Apple využil modely Gemini-2.5 od Googlu.

Dataset má nekomerční výzkumnou licenci, což znamená, že jej mohou volně využívat akademici a výzkumníci po celém světě – ale nikoliv pro komerční účely. Součástí je i odborná studie zveřejněná na arXiv, která celý projekt detailně popisuje.

Cílem projektu bylo odstranit nedostatky dosavadních datasetů, které často trpí nekonzistencí, nevyvážeností a nízkou kvalitou. Apple tedy vybral reálné fotografie z veřejného datasetu OpenImages, a navrhl 35 typů úprav rozdělených do osmi kategorií – např. změna počasí, přidání efektu filmu, přesun objektu nebo stylizace osoby.

Jak Pico-Banana-400K vznikal

Výzkumníci každý snímek nahráli do modelu „Nano-Banana“ (interní název pro Gemini-2.5-Flash-Image) spolu s jednou z úprav. Výstup pak analyzoval model Gemini-2.5-Pro a rozhodl, zda daná úprava splnila zadání a je vizuálně kvalitní. Vznikly tak nejen úspěšné editace, ale i příklady nevydařených pokusů, které poslouží k tréninku AI, aby se naučila rozpoznávat a vyvarovat se chyb.

Apple doufá, že Pico-Banana-400K se stane základním kamenem pro novou generaci modelů, které upravují obrázky podle textových pokynů s větší přesností a konzistencí. Dataset je již dostupný na GitHubu a může výrazně posunout vývoj AI v oblasti grafiky a vizuální tvorby.

Dnes nejčtenější

.