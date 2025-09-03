Apple se pochlubil další technologií ze své AI laboratoře. Tentokrát jde o FastVLM – vizuálně-jazykový model určený pro bleskové zpracování obrazu a generování titulků. Nejnovější verzi modelu si teď můžete vyzkoušet sami, a to přímo v prohlížeči. Stačí mít Mac s Apple Silicon. Model si můžete vyzkoušet zde. Paradoxně se nám ale model povedl rozběhnout v Chrome a nikoliv Safari.
Apple přináší AI bez čekání a bez cloudu
FastVLM je součástí nového open-source rámce MLX, který Apple navrhl speciálně pro čipy M1, M2 a M3. V testech model dosáhl až 85× rychlejšího zpracování videa než srovnatelné alternativy a přitom zabírá jen třetinu velikosti.
Od nynějška si můžete model FastVLM-0.5B spustit přímo na webu přes platformu Hugging Face. Stačí chvíli počkat, než se načte (např. na 16GB MacBooku Pro M2 to trvalo zhruba dvě minuty), a okamžitě začne popisovat, co se děje před kamerou: vaši tvář, výrazy, pozadí nebo předměty, které ukážete.
Interaktivní titulkování v reálném čase
Uživatel si může vybrat, co přesně má model rozpoznávat. K dispozici jsou přednastavené výzvy, jako například:
- Popiš, co vidíš jednou větou.
- Jakou barvu má moje košile?
- Jaký předmět držím v ruce?
- Jaké emoce vidíš?
Pokročilejší uživatelé mohou připojit i virtuální kameru a testovat model v různých scénách. Výstupy jsou překvapivě přesné a detailní, až do bodu, kdy je těžké sledovat, co všechno model zvládá.
Soukromí a využití v praxi
Klíčovou výhodou tohoto přístupu je, že všechna data zůstávají na zařízení. Model běží přímo v prohlížeči, dokonce i bez připojení k internetu. To z něj dělá skvělého kandidáta pro použití v nositelné elektronice nebo asistivních technologiích, kde je nízká latence a ochrana soukromí zásadní.
Aktuálně dostupný model má „jen“ 0,5 miliardy parametrů, ale Apple chystá také verze s 1,5 a 7 miliardami, které by mohly nabídnout ještě lepší výsledky – byť už ne přímo v prohlížeči.