Apple ve spolupráci s finskou univerzitou Aalto představil revoluční výzkum: ILuvUI, nový AI model, který dokáže rozumět mobilním aplikacím z obrázků i textu. Výsledky překonaly model, ze kterého ILuvUI vychází – a mohou zásadně ovlivnit přístupnost i automatizaci práce s aplikacemi.
AI, která vidí a chápe rozhraní aplikací
Studie s názvem ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations řeší dlouhodobý problém interakce člověka s počítačem: jak naučit AI chápat uživatelská rozhraní stejně jako lidé – tedy nejen logicky, ale i vizuálně.
„UI prvky jako zaškrtávací políčka, seznamy nebo textová pole v sobě nesou více informací než jen to, že na ně lze kliknout,“ uvádí inženýři. Dosud většina AI modelů pracovala jen s texty nebo s fotografiemi – nikoliv s strukturovanými obrazovkami aplikací.
ILuvUI vznikl úpravou open-source modelu LLaVA, který byl původně trénován na běžných fotografiích. Apple vývojáři model jemně doladili a přizpůsobili mu tréninkový proces tak, aby se specializoval na UI prostředí.
Trénink probíhal na syntetických dvojicích obrázků a textů, které obsahovaly otázky a odpovědi, popisy obrazovek, výsledky akcí a vícekrokové návody jako např. „jak si pustit poslední díl podcastu“ nebo „jak změnit jas displeje“.
Výsledný model ILuvUI překonal původní LLaVA v testech i v hodnocení lidských uživatelů. Navíc nepotřebuje označení konkrétní části obrazovky – stačí mu zadat jednoduchý textový pokyn, který zpracuje v kontextu celého viditelného displeje.
Budoucnost přístupnosti i chytré automatizace
Díky schopnosti chápat vizuální i textovou stránku aplikace má ILuvUI obrovský potenciál. Apple tvrdí, že tento přístup může pomoci lidem se zrakovým postižením nebo zjednodušit automatizované testování aplikací.
Model je momentálně založen na otevřených technologiích, ale budoucí vývoj může zahrnovat větší obrazové enkodéry, lepší práci s rozlišením a výstupy ve formátech kompatibilních s vývojářskými nástroji (např. JSON).
Zajímavé je, že Apple již dříve zkoumal, zda lze AI naučit nejen chápat, ale i předvídat důsledky uživatelských akcí. Spojením obou přístupů by mohlo vzniknout AI, které bude chápat, co děláte – a pomáhat vám automaticky.
Budoucnost ovládání iPhonu tak možná nebude jen o dotycích. Apple opět naznačuje, že umělá inteligence může být tichým pomocníkem, který myslí za vás.