Článek
Služba Vyhledávání společnosti Seznam.cz zaznamenala v poslední dekádě čtyř zásadních změn. Jako jeden ze zásadních mezníků označuje Dušan Janovský, tehdejší produktový manažer a současný externí konzultant Seznam.cz Vyhledávání, nasazení strojového učení.
„Před rokem 2010 jsme výsledky vyhledávání řadili na základě algoritmů, které jsme navrhovali sami, s naší matematickou erudicí. Když jsme ale dali všechna data novým učícím algoritmům, dokázaly samy výsledky seřadit lépe. Bylo to pro nás překvapení,“ vzpomíná Janovský.
Strojové učení je moderní přístup k vývoji rozhodovacích algoritmů ve složitých úlohách. Využívá se ke zpracování velkého množství dat. Při vyhledávání se kromě anotovaných výsledků v řádech miliónů příkladů používá i obrovský korpus textů v řádech miliard.
Na řazení výsledků se ve Vyhledávání od Seznamu používá algoritmus součtu stovek rozhodovacích stromů. Proto vývojáři těmto algoritmům říkají rozhodovací lesy. Jejich výhoda spočívá v jejich rychlosti. Ačkoli je rozhodování mnoho, jsou to jednoduché operace, které les zvládne vyhodnotit v milisekundách.
Ještě, než se rozhodovací les použije ve vyhledávání, musí se naučit řadit výsledky na anotovaných datech, což jsou předem získané milióny příkladů správného hledání.
„Diverzifikace“ výsledků
Služba Vyhledávání se v posledních letech vydává cestou takzvané diverzifikace výsledků. Některé dotazy mohou mít totiž více významů. Například slovo „lednice“ může znamenat jak spotřebič, tak i moravskou obec.
Před deseti lety řadil všechno jeden rozhodovací les a všechny možné zájmy uživatele byly v datech smíchané. Občas se tak stalo, že některý z nich nebyl ve výsledku zastoupený. Naopak dnes dochází k míchání zájmů až ve výsledcích, protože různá chápání vyhledávání se rozdělují a hledají samostatně.
Nejprve dotaz pochopit
Ještě než se s položeným dotazem začne vyhledávat v indexu s miliardami stránek, je vhodné dotaz algoritmicky pochopit. Seznam má několik různých vyhledávačů. Patří mezi ně například fulltextové hledání v rámci služeb Firmy.cz, Zboží.cz a Mapy.cz a všechny potřebují dotaz před hledáním pochopit.
„V praxi se ukázalo jako výhodné spojit pochopení dotazu do jedné centrální komponenty zvané centrální query processor. Opravy překlepů, detekce entit (lokality, výrobky apod.) a skloňování je pro všechny služby podobné, takže si při centrálním vývoji pochopení dotazu můžou služby pomáhat,“ vysvětluje Martin Kirschner, manažer produktového týmu divize Vyhledávání.
Vyhledávání pomocí významových vektorů
Za „nejlepší zlepšení kvality za poslední dobu“ pak Kirschner již před časem v rozhovoru pro Seznam Zprávy označil vyhledávání pomocí významových vektorů. Tato metoda od loňského jara doplňuje způsob vyhledávání, kdy se vyhledávače snaží najít slova zadaná uživatelem v dotazu.
„Člověk použije vyhledávač, když potřebuje něco zjistit. Například chce jít někam k vodě, ale neví, jestli je vhodná na koupání. Vyhledávač bez významových vektorů by dokázal nejlépe odpovědět při jednoduché formulaci textu, který se má hledat,“ uvedl Kirschner.
„Vyhledávač, který využívá významové vektory, ale zvládne i složitější formulace. Například ‚jak se pozná bezpečné koupání‘ nebo ‚jak poznám, jestli ve vodě nejsou sinice‘. Hledání pomocí významových vektorů vyhledávači pomáhá mnohem lépe pochopit, co uživatel vlastně potřeboval. Lidé pak nemusejí vymýšlet, jaký dotaz zadat, výsledky budou dobré i při intuitivní formulaci otázky,“ dodal.
Vektory aktuálně použité ve Vyhledávání jsou tvořené relativně složitými neuronovými sítěmi, které se napřed dlouho učí. Takové učení je dvoustupňové, přičemž nejprve se na několika miliardách českých textů naučí chápat jazyk tím, že doplňují do vět chybějící slova. Potom se teprve doučují na milionech výsledků hledání jak vytvořit vektory, které budou výhodné pro vyhledávání.
Skokani roku aneb Nejhledanější výrazy
Vyhledávač Seznamu také každý leden zveřejňuje takzvaný žebříček skokanů. Zařazuje mezi ně takové výrazy, které uživatelé vyhledávali výrazně více než o rok dříve. Jednotlivé „skokany“ dělí do několika tematických kategorií.
V kategorii „zprávy a kauzy“ lidé loni nejvíce vyhledávali informace o tom, kdy budou zavřené obchody. Ve „volnočasových událostech“ zase uživatele nejvíce zajímaly letní olympijské hry v Tokiu. Skokanem roku v kategorii audiovizuálních děl se stal film Matky, druhý byl pak seriál Božena o spisovatelce Boženě Němcové.
Společnost Seznam.cz je vydavatelem Seznam Zpráv.