Článek
Cílem Vyhledávání je především zjednodušení práce na internetu. Občas se však může stát, že uživatel nenajde odkaz, který hledal. S tím však pomohou významové vektory.
Kromě informačních karet a dalších bloků stránky, které přímo odpovídají na otázky hledajícího, obsahuje stránka výsledků odkazy na užitečné webové stránky z celého internetu, vysvětluje Martin Kirschner, který má vyhledávání v Seznam.cz na starosti.
Jak fungovalo vyhledávání na Seznamu bez pomoci významových vektorů?
Od první verze fungoval vyhledávač podobně jako rejstřík na konci knihy. V rejstříku našel čísla stránek, na kterých se vyskytují slova z hledané fráze, a seřadil je podle užitečnosti pro hledajícího. V průběhu let jsme vylepšovali výběr slov, které vyhledávač v rejstříku hledá, přidávali jsme například synonyma. Zlepšovali jsme i způsoby řazení. I s využitím umělé inteligence základ hledání zůstával založený na principu rejstříku v knize, což znamená filtrování databáze webových stránek na základě slov ze zadané fráze.
Proč bylo zapotřebí způsob vyhledávání změnit?
Tento „filtrovací“ přístup k hledání dobře vyhovoval dřívějšímu způsobu vyhledávání. Dnes lidé častěji popisují, čeho chtějí dosáhnout. Například pokládají otázky nebo popisují výrobek, který chtějí koupit. Díky tomu do hledání zadávají delší nebo složitější fráze, u kterých se po aplikaci filtru často stávalo, že nezbyla žádná stránka, která by obsahovala slova alespoň trochu podobná všem slovům z hledané fráze. Kvůli tomu se museli lidé snažit svůj dotaz správně formulovat, což je stálo čas, který jim chceme ušetřit.
Martin Kirschner
– Vystudoval počítačovou lingvistiku na Matematicko-fyzikální fakultě UK.
– Již od roku 2012 se Martin Kirschner věnuje vyhledávání v Seznamu a v současné době je manažerem produktového týmu v Seznam.cz.
V čem se novější způsob vyhledávání liší?
Nový způsob vyhledávání místo se slovy pracuje s jejich představou, kterou ukládáme jako vektor čísel. Funguje to trochu jako strojový překlad z cizího jazyka. Původní způsob hledání by se dal přirovnat k doslovnému překladu. Vektorový způsob hledání lze přirovnat k překládání pomocí umělých neuronových sítí, kde se text překládá mezi jazyky s mezikrokem, kdy je význam textu převedený do vektoru čísel.
Co to znamená pro uživatele?
Člověk použije vyhledávač, když potřebuje něco zjistit. Například chce jít někam k vodě, ale neví, jestli je vhodná na koupání. Vyhledávač bez významových vektorů by dokázal nejlépe odpovědět při jednoduché formulaci textu, který se má hledat. Vyhledávač, který využívá významové vektory, ale zvládne i složitější formulace. Například „jak se pozná bezpečné koupání“ nebo „jak poznám, jestli ve vodě nejsou sinice“. Hledání pomocí významových vektorů vyhledávači pomáhá mnohem lépe pochopit, co uživatel vlastně potřeboval. Lidé pak nemusejí vymýšlet, jaký dotaz zadat, výsledky budou dobré i při intuitivní formulaci otázky.
Je vidět, že se výsledky hledání složitých frází zlepšují.
Je tento způsob vyhledávání spolehlivější?
Ano, vyhledávání pomocí významových vektorů je největší zlepšení kvality hledání na Seznam.cz za poslední dobu. Navíc dává dobré výsledky bez ohledu na to, jak komplikovaný dotaz člověk zadal.
Jak dlouho Seznam významové vektory používá?
Různé okrajové použití významových vektorů se v Seznamu objevuje už deset let. Největší změna – chápání a hledání slov pomocí významových vektorů – se odehrála letos v několika fázích. První už v lednu a teď přibližně každý měsíc nebo dva přidáváme další zlepšující kroky.
Myslíte, že internetoví uživatelé zaznamenali změnu?
Dole na stránce pod výsledky hledání se lidem ukazuje tlačítko, které se ptá na zpětnou vazbu. Jestli našli, co hledali. Když se lidem něco najít nedaří, často nám to píší. Z těchto zpráv je vidět, že se výsledky hledání složitých frází zlepšují. Dostalo se ke mně i několik pozitivních reakcí z odborné komunity. Celkově bych řekl, že lidé změnu vnímají.
Narazili jste na nějaké překážky?
Těžká část vektorového hledání spočívá v překladu slova na jeho představu vyjádřenou vektorem čísel. Vlastně se snažíme vytvořit model jazyka tak, aby vyhledávač nebral slova jako shluky písmen, ale aby chápal jejich význam. K tomu jsme se, myslím, docela přiblížili.
Další výzvou, kterou jsme překonali, je velikost dat – pracujeme s celým českým internetem a s částí světového internetu, jež je zajímavá pro Čechy. Jde o miliardy stránek, které máme uložené ve více kopiích pro různé účely využití. Také vytváření modelu je výpočetně náročné. Experimenty trvají i několik dní. Na vytvoření modelu, který teď používáme, bylo potřeba provést přes sto experimentů.