Seznam.cz hledá podle vektorů. Je to rychlejší a přesnější

Článek

Cílem Vyhledávání je především zjednodušení práce na internetu. Občas se však může stát, že uživatel nenajde odkaz, který hledal. S tím však pomohou významové vektory.

Kromě informačních karet a dalších bloků stránky, které přímo odpovídají na otázky hledajícího, obsahuje stránka výsledků odkazy na užitečné webové stránky z celého internetu, vysvětluje Martin Kirschner, který má vyhledávání v Seznam.cz na starosti.

Jak fungovalo vyhledávání na Seznamu bez pomoci významových vektorů?

Od první verze fungoval vyhledávač podobně jako rejstřík na konci knihy. V rejstříku našel čísla stránek, na kterých se vyskytují slova z hledané fráze, a seřadil je podle užitečnosti pro hledajícího. V průběhu let jsme vylepšovali výběr slov, které vyhledávač v rejstříku hledá, přidávali jsme například synonyma. Zlepšovali jsme i způsoby řazení. I s využitím umělé inteligence základ hledání zůstával založený na principu rejstříku v knize, což znamená filtrování databáze webových stránek na základě slov ze zadané fráze.

Proč bylo zapotřebí způsob vyhledávání změnit?

Tento „filtrovací“ přístup k hledání dobře vyhovoval dřívějšímu způsobu vyhledávání. Dnes lidé častěji popisují, čeho chtějí dosáhnout. Například pokládají otázky nebo popisují výrobek, který chtějí koupit. Díky tomu do hledání zadávají delší nebo složitější fráze, u kterých se po aplikaci filtru často stávalo, že nezbyla žádná stránka, která by obsahovala slova alespoň trochu podobná všem slovům z hledané fráze. Kvůli tomu se museli lidé snažit svůj dotaz správně formulovat, což je stálo čas, který jim chceme ušetřit.

Martin Kirschner

– Vystudoval počítačovou lingvistiku na Matematicko-fyzikální fakultě UK.

– Již od roku 2012 se Martin Kirschner věnuje vyhledávání v Seznamu a v současné době je manažerem produktového týmu v Seznam.cz.

V čem se novější způsob vyhledávání liší?

Nový způsob vyhledávání místo se slovy pracuje s jejich představou, kterou ukládáme jako vektor čísel. Funguje to trochu jako strojový překlad z cizího jazyka. Původní způsob hledání by se dal přirovnat k doslovnému překladu. Vektorový způsob hledání lze přirovnat k překládání pomocí umělých neuronových sítí, kde se text překládá mezi jazyky s mezikrokem, kdy je význam textu převedený do vektoru čísel.

Co to znamená pro uživatele?

Člověk použije vyhledávač, když potřebuje něco zjistit. Například chce jít někam k vodě, ale neví, jestli je vhodná na koupání. Vyhledávač bez významových vektorů by dokázal nejlépe odpovědět při jednoduché formulaci textu, který se má hledat. Vyhledávač, který využívá významové vektory, ale zvládne i složitější formulace. Například „jak se pozná bezpečné koupání“ nebo „jak poznám, jestli ve vodě nejsou sinice“. Hledání pomocí významových vektorů vyhledávači pomáhá mnohem lépe pochopit, co uživatel vlastně potřeboval. Lidé pak nemusejí vymýšlet, jaký dotaz zadat, výsledky budou dobré i při intuitivní formulaci otázky.

Je vidět, že se výsledky hledání složitých frází zlepšují.

Je tento způsob vyhledávání spolehlivější?

Ano, vyhledávání pomocí významových vektorů je největší zlepšení kvality hledání na Seznam.cz za poslední dobu. Navíc dává dobré výsledky bez ohledu na to, jak komplikovaný dotaz člověk zadal.

Jak dlouho Seznam významové vektory používá?

Různé okrajové použití významových vektorů se v Seznamu objevuje už deset let. Největší změna – chápání a hledání slov pomocí významových vektorů – se odehrála letos v několika fázích. První už v lednu a teď přibližně každý měsíc nebo dva přidáváme další zlepšující kroky.

Myslíte, že internetoví uživatelé zaznamenali změnu?

Dole na stránce pod výsledky hledání se lidem ukazuje tlačítko, které se ptá na zpětnou vazbu. Jestli našli, co hledali. Když se lidem něco najít nedaří, často nám to píší. Z těchto zpráv je vidět, že se výsledky hledání složitých frází zlepšují. Dostalo se ke mně i několik pozitivních reakcí z odborné komunity. Celkově bych řekl, že lidé změnu vnímají.

10 miliard jako náhrada škody. Seznam viní Google ze zneužití postavení

17. 6. 2021 11:35

Narazili jste na nějaké překážky?

Těžká část vektorového hledání spočívá v překladu slova na jeho představu vyjádřenou vektorem čísel. Vlastně se snažíme vytvořit model jazyka tak, aby vyhledávač nebral slova jako shluky písmen, ale aby chápal jejich význam. K tomu jsme se, myslím, docela přiblížili.

Další výzvou, kterou jsme překonali, je velikost dat – pracujeme s celým českým internetem a s částí světového internetu, jež je zajímavá pro Čechy. Jde o miliardy stránek, které máme uložené ve více kopiích pro různé účely využití. Také vytváření modelu je výpočetně náročné. Experimenty trvají i několik dní. Na vytvoření modelu, který teď používáme, bylo potřeba provést přes sto experimentů.

Vyhledat

Hlavní menu

záhlaví

Hlavní obsah

Inovace a Češi. Chválí si nové způsoby placení, chybí jim ve zdravotnictví

Index dostupnosti bytů: Absolutní strnulost

ČNB rozdávala pokuty za porušení pravidel proti praní špinavých peněz

PPF prodala svou ruskou pojišťovnu investorům v Dubaji

Papír za 20 milionů. Do aukce jde nejcennější „bankovka“ na území Česka

Jak na drahé boby? Česká čokoládovna koupila plantáž v Bolívii a pěstuje kakao

Seznam.cz hledá podle vektorů. Je to rychlejší a přesnější

Článek

Martin Kirschner

10 miliard jako náhrada škody. Seznam viní Google ze zneužití postavení

Související články

Vlajkové telefony od Huawei budou vyhledávat díky Seznamu

Umí umělá inteligence i česky? Google ukázal „maminku“ i tajnou složku

Postranní panel

Doporučované

Hlavní zprávy

Komentář: Nestresujme, kdo usedne v Bílém domě. Prezident není všemocný

Dillí zahalil jedovatý smog. Kvalita ovzduší klesla na kritickou úroveň

Aramco hlásí nižší zisk, dividenda ale zůstane stejná

Došlo na klonování Havlíčka, které avizoval Babiš. Má zlomit pražské prokletí

Při útocích v Gaze bylo zabito nejméně 29 lidí, píše palestinská agentura

Zásilkovnu prodala za miliardy. Teď sype peníze do firem, které pomáhají

Kdy bude jasný vítěz: Těsné sčítání se může v USA pořádně protáhnout

Zaměstnanci Boeingu schválili zvýšení mezd. Stávka skončí

Postranní panel