Apple ve své nové výzkumné studii ukazuje, jak lze velké jazykové modely (LLM) využít k analýze zvukových a pohybových dat za účelem přesnějšího rozpoznávání činností uživatele. Podle autorů mohou LLM výrazně zpřesnit interpretaci senzorických údajů, a to i v situacích, kdy je dostupného datového materiálu jen minimum. Studie s názvem Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition se zabývá tím, jak lze jazykové modely zkombinovat s tradičními senzory (například mikrofonem či pohybovými čidly) a dosáhnout lepšího pochopení kontextu uživatelovy činnosti. Výzkumníci vysvětlují, že i bez speciálního tréninku dokážou LLM přesněji určit, co člověk právě dělá, a při doplnění jediného ukázkového případu se jejich úspěšnost dále zvyšuje.
Mohlo by vás zajímat
Důležité však je, že modely v této studii nedostávaly surová audio data, ale pouze krátké popisy generované samostatnými modely pro zvuk a pohyb. Z pohybových senzorů (akcelerometru a gyroskopu) tak vznikl textový souhrn, s nímž LLM následně pracovalo. Apple využil dataset Ego4D, rozsáhlou sbírku videozáznamů pořízených z pohledu první osoby. Výzkumníci z něj vybrali dvanáct běžných činností, například vysávání, vaření, cvičení, práci na počítači nebo sportovní aktivity. Každá ukázka měla 20 sekund, což umožnilo jednotné hodnocení napříč scénáři.
Zvuková a pohybová data byla nejprve zpracována menšími modely, které vytvořily textový popis či předpověď aktivity. Tyto textové výstupy pak posuzovaly LLM modely Gemini 2.5 Pro a Qwen-32B. Apple zkoumal jejich výkon ve dvou režimech. S předem daným seznamem aktivit (closed-set) a v otevřeném režimu bez jakýchkoli možností (open-ended). Studie ukazuje, že jazykové modely dokážou efektivně kombinovat výstupy z různých senzorů a přispět k lepšímu porozumění aktivitám, zejména tam, kde samotná surová data nestačí.