Zavřít reklamu

Apple se pochlubil další technologií ze své AI laboratoře. Tentokrát jde o FastVLM – vizuálně-jazykový model určený pro bleskové zpracování obrazu a generování titulků. Nejnovější verzi modelu si teď můžete vyzkoušet sami, a to přímo v prohlížeči. Stačí mít Mac s Apple Silicon. Model si můžete vyzkoušet zde. Paradoxně se nám ale model povedl rozběhnout v Chrome a nikoliv Safari.

Apple přináší AI bez čekání a bez cloudu

FastVLM je součástí nového open-source rámce MLX, který Apple navrhl speciálně pro čipy M1, M2 a M3. V testech model dosáhl až 85× rychlejšího zpracování videa než srovnatelné alternativy a přitom zabírá jen třetinu velikosti.

Od nynějška si můžete model FastVLM-0.5B spustit přímo na webu přes platformu Hugging Face. Stačí chvíli počkat, než se načte (např. na 16GB MacBooku Pro M2 to trvalo zhruba dvě minuty), a okamžitě začne popisovat, co se děje před kamerou: vaši tvář, výrazy, pozadí nebo předměty, které ukážete.

Interaktivní titulkování v reálném čase

Uživatel si může vybrat, co přesně má model rozpoznávat. K dispozici jsou přednastavené výzvy, jako například:

  • Popiš, co vidíš jednou větou.
  • Jakou barvu má moje košile?
  • Jaký předmět držím v ruce?
  • Jaké emoce vidíš?

Pokročilejší uživatelé mohou připojit i virtuální kameru a testovat model v různých scénách. Výstupy jsou překvapivě přesné a detailní, až do bodu, kdy je těžké sledovat, co všechno model zvládá.

Soukromí a využití v praxi

Klíčovou výhodou tohoto přístupu je, že všechna data zůstávají na zařízení. Model běží přímo v prohlížeči, dokonce i bez připojení k internetu. To z něj dělá skvělého kandidáta pro použití v nositelné elektronice nebo asistivních technologiích, kde je nízká latence a ochrana soukromí zásadní.

Aktuálně dostupný model má „jen“ 0,5 miliardy parametrů, ale Apple chystá také verze s 1,5 a 7 miliardami, které by mohly nabídnout ještě lepší výsledky – byť už ne přímo v prohlížeči.

Dnes nejčtenější

.