Seznam krotí internet pomocí strojového učení, říká šéf jeho výzkumníků

3. 7. 2019

Jsme zvyklí, že na internetu do pár vteřin najdeme, co potřebujeme, a bereme to jako úplnou samozřejmost. Aby to ale fungovalo, je třeba odvést spoustu práce, která není na první pohled vidět. Velkou roli v tom hraje strojové učení. „Umělá inteligence je implementovaná v celém Seznam.cz Vyhledávání, od našeptávače snažícího se odhadnout další slova v dotazu a ušetřit uživateli psaní, přes obohacení hledaných klíčových slov o další výrazy, až po řazení výsledků a formát stránky s výsledky a upoutávkami,“ říká Vladimír Kadlec, který v Seznamu vede tým výzkumníků strojového učení.

Vyzkumnik strojoveho uceni Vladimir Kadlec

Jak roste objem informací, které v rámci služby Seznam.cz Vyhledávání zpracováváte?

Počet Seznamu známých url adres byl v roce 2012 zhruba 7,5 miliardy. Aktuálně, v roce 2019, pracujeme se zhruba 37 miliardami url. Nároky uživatelů přitom rostou, chtějí rychlé a přesné výsledky a bez strojového učení bychom je neměli šanci dodat.

Co konkrétně stroje učíte?

Například detekovat duplicity, neužitečné stránky bez obsahu, na kterých je jen reklama, a podobně. Díky tomu stahujeme stejný počet výrazně kvalitnějších dokumentů než dříve.

V čem ještě strojové učení pomáhá?

Je toho řada. Za posledních osm let, co v Seznamu pracuji, za sebou máme více než 200 různých výzkumných projektů. Vylepšujeme třeba našeptávač snažící se odhadnout další slova v dotazu. Nebo klasifikujeme dotazy směřující na „zábavu pro dospělé“ (podobnou klasifikaci máme i pro obrázky v indexu). Minulý rok jsme výrazně zapracovali na vylepšení obrázkového hledání společně s analýzou obsahu obrázku pomocí hlubokých neuronových sítí.

Co to obnáší? Můžete to rozvést?

Typický výzkumný projekt má několik fází. Na začátku se produktový manager rozhoduje, co by se na dané službě dalo vylepšit. Potom s výzkumným oddělením zkonzultuje realizovatelnost dané úlohy. Následně se získávají učící data, ze kterých se pomocí strojového učení vyrobí matematický model predikující řešení. Učící data jsou různé povahy, může jít o logy uživatelského chování, nebo i čistě ručně vyrobené příklady. Když jsme loni řešili opravu překlepů, tak jsme ručně prošli zhruba sto tisíc vyhledávacích dotazů. Během fáze učení modelu průběžně měříme kvalitu výsledného řešení. To opět může znamenat porovnání s ručními daty, případně zkoušíme nové řešení ukázat malé části uživatelů ve formě A/B testu.

Jaká je úspěšnost, že se trefíte do toho, co uživatel opravdu hledá?

Lze říci, že pro navigační dotazy, u kterých uživatel hledá jednu konkrétní stránku, jako například nejčetnější dotaz Facebook, jsme úspěšní ve více než 95 % případů. U českojazyčných dotazů, na které celé Vyhledávání optimalizujeme, jsme na tom podobně jako konkurence. Máme ale výhodu v přímém propojení výsledků Vyhledávání s dalšími službami na Seznamu, jako jsou Mapy.cz, Zboží.cz, Firmy.cz, Kupi.cz a další.

Jak zajišťujete, že poznáte jazyk, kterým uživatel píše? Nebo pracujete jen s češtinou?

Máme vlastní metodu, opět založenou na strojovém učení, která určuje jazyk dotazu. To není tak jednoduché, jak by se mohlo na první pohled zdát. Jako příklad může sloužit dotaz monkey business. Uživatel chce zřejmě najít českou hudební skupinu, i když je zadaný výraz v angličtině. Pro učení metody predikující jazyk dotazu jsme použili různá dostupná data, například z Wikipedie, cizojazyčných slovníků a dalších slovníků s názvy entit. Vlastní algoritmus je pak založený na kombinacích n-tic slov a písmen.

Jak se liší vyhledávání v textech a obrázcích?

Technologicky to je podobné. Ke každému obrázku ukládáme texty, jako třeba text z okolí, titulek stránky s obrázkem, text z odkazu na obrázek a podobně. V těchto textech hledáme obdobně jako ve stránkách, jen se používá trochu jiný model. K obrázkům také generujeme jejich vektorovou reprezentaci pomocí hluboké neuronové sítě. Tento vektor mapujeme na vektorovou reprezentaci slov z dotazu, kterou získáváme pomocí rekurentní neuronové sítě. Jeví se to komplikovaně, ale nakonec to tak složité není, využíváme množství už existujícího kódu. Složité je naladit parametry sítí tak, aby to dobře fungovalo pro naši úlohu.

Dokázal byste odhadnout a trochu předpovědět, co nejvíce změní vyhledávání na internetu do pěti let?

Z trendů, které pozorujeme, je to ještě větší posun k mobilním zařízením. S tím souvisí i rozšiřování hlasového vyhledávání. Pro některé segmenty, jako třeba móda, se specializované vyhledávače snaží hledat výrobky pomocí fotografie pořízené mobilním telefonem. Myslím, že budoucnost je v kombinaci těchto přístupů a moderní vyhledávače se těmto trendům rychle přizpůsobí.

Diskuze k článku

Vložte vlastní komentář Zrušit odpověď na komentář

Vaše jméno nebo Přihlásit se

Váš komentář

Vyplněním shora uvedených údajů beru na vědomí, že společnost TEXT FACTORY s.r.o., sídlem Brno, Durďákova 336/29, Černá Pole, PSČ: 613 00, IČ: 06157831, zapsané u Krajského soudu v Brně, oddíl C, vložka 100399, bude zpracovávat mé osobní údaje uvedené v rámci mnou vyplněného registračního formuláře na základě oprávněných zájmů TEXT FACTORY s.r.o. dle čl. 6 odst. 1 písm. f) GDPR a pro splnění právních povinností (čl. 6 odst. 1 písm. c) GDPR), a to pro tyto účely: nezbytnost zajistit oprávnění návštěvníka webových stránek provozovaných společností TEXT FACTORY s.r.o. přispívat aktivně ke zveřejněným článkům nebo v rámci diskusních fór a výkon práv TEXT FACTORY s.r.o. jako administrátora těchto diskusních fór. Více informací o zpracování osobních údajů a právech lze nalézt v Poučení o ochraně osobních údajů. celý text

Dnes nejčtenější

AirPods vám mohou hrát mnohem lépe. Stačí změnit tato nastavení

Splněný sen pro milovníky aut. Unikly fotky LEGO stavebnice nejkrásnějšího auta historie a stoji za to

Krize se nekoná. Přední banka čeká strmý růst ceny akcií Apple

Nejčtenější