Apple spolu s dalšími výzkumníky představil zajímavý objev v oblasti vývoje velkých jazykových modelů (LLM). Nová studie ukazuje, že místo tradičního hodnocení od lidí pomocí palce nahoru či dolů lze dosáhnout lepších výsledků díky jednoduchému triku. A sice použití kontrolních seznamů. Dnes se kvalita LLM po tréninku často dolaďuje metodou RLHF (Reinforcement Learning from Human Feedback), kdy lidští hodnotitelé posuzují odpovědi modelu. Tento přístup ale má limity a model se může naučit vytvářet jen zdánlivě správné odpovědi.
Mohlo by vás zajímat
Apple proto navrhuje metodu RLCF (Reinforcement Learning from Checklist Feedback). Každý úkol je doplněn malým checklistem s konkrétními otázkami typu „Je to přeloženo do španělštiny?“. Model pak dostává skóre 0 až 100 podle toho, jak dobře jednotlivé položky splnil. Podle Applu metoda RLCF jako jediná v testování zlepšila výkon na všech pěti používaných benchmarcích, například o 6 bodů na InFoBench či o 4 body na FollowBench. Celkově šlo o zlepšení až o 8,2 % u komplexních instrukcí.
Seznamy nevytvářejí lidé ručně. Generuje je samotný LLM, v tomto případě Qwen2.5-72B-Instruct, a pak slouží jako základ pro vyhodnocení odpovědí menších modelů. Apple tak vytvořil nový dataset s názvem WildChecklists, který obsahuje přes 130 tisíc instrukcí. Výzkumníci zdůrazňují, že metoda se zaměřuje na komplexní plnění instrukcí, nikoli na bezpečnostní aspekty. Vyžaduje také silnější model v roli „soudce“, což může být omezením v praxi. Přesto jde o jednoduchý a účinný způsob, jak zvýšit spolehlivost AI asistentů.