Historie a vývoj webových vyhledávačů (crawlerů) od Archieho ke Googlu | Jiří Wolf

11. 4. 2025

Počátky internetu a raného World Wide Webu charakterizoval exponenciální růst informací, které však postrádaly efektivní strukturu. Uživatelé čelili zásadnímu problému: jak nalézt konkrétní data v tomto rychle se rozpínajícím digitálním prostoru plném FTP serverů, Gopher prostorů a prvních webových stránek. Bez nástrojů pro vyhledávání byla navigace tímto prostředím srovnatelná s hledáním v obrovské knihovně bez katalogu.

Navigace v rodícím se digitálním vesmíru

Evoluce webového vyhledávání nebyla dílem jediného vynálezu, ale postupným procesem zahrnujícím odlišné technologické kroky – od jednoduchého indexování souborů a manuálního katalogizování přes automatizované procházení (crawling), fulltextové indexování, hodnocení relevance (včetně analýzy odkazů) až po sémantické porozumění poháněné umělou inteligencí.

Před Webem: průkopníci raného indexování (před rokem 1993)

Potřeba vyhledávání informací v sítích předcházela samotnému World Wide Webu. Rané systémy se zaměřovaly na tehdy dominantní protokoly jako FTP (File Transfer Protocol) a Gopher.

Archie (1990): První internetový vyhledávač

Prvním významným krokem k automatizovanému vyhledávání byl Archie, vytvořený v roce 1990 Alanem Emtagem, Billem Heelanem a Peterem Deutschem na McGill University v Montrealu. Archie je považován za první internetový vyhledávač. Jeho primárním účelem bylo indexovat archivy dostupné přes FTP. Pravidelně stahoval seznamy souborů z veřejných anonymních FTP serverů a vytvářel prohledávatelnou databázi jejich názvů. Uživatelé mohli tento index prohledávat (původně pomocí rozhraní Telnet) a zjistit, na kterém serveru se nachází hledaný soubor. Archie však neindexoval obsah souborů, pouze jejich názvy. Název "Archie" byl odvozen od slova "archive" (archiv) bez písmene 'v', nemá tak žádnou souvislosti s komiksovou postavou, ačkoli pozdější nástroje jako Veronica a Jughead byly pojmenovány právě podle postav z tohoto komiksu. Archie si rychle získal popularitu; již v roce 1993 zpracovával až 50 000 dotazů denně. Jeho vývoj byl ukončen koncem 90. let.

Vznik Archieho jasně ukazuje, že základní potřeba nástrojů pro správu a vyhledávání rostoucích online zdrojů existovala ještě před nástupem Webu. I když se jednalo primárně o soubory na FTP serverech, Archie prokázal význam automatizovaného indexování a vzdáleného dotazování a položil konceptuální základy pro budoucí vyhledávače.

Gopher (1991) a jeho vyhledávací nástroje: Veronica (1992) a Jughead (1993)

Dalším významným systémem před masivním rozšířením Webu byl Gopher, protokol založený na menu, spuštěný v roce 1991. Pro navigaci v hierarchické struktuře Gopheru vznikly specializované vyhledávací nástroje:

Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives): Vydána v listopadu 1992 Stevenem Fosterem a Fredem Barriem na University of Nevada.⁷ Veronica prohledávala názvy položek v menu napříč mnoha Gopher servery a vytvářela tak index velké části tehdejšího "Gopherspace".⁷
Jughead (Jonzy's Universal Gopher Hierarchy Excavation And Display): Vyvinut v roce 1993 Rhettem Jonesem na University of Utah. Na rozdíl od Veronicy prohledával Jughead názvy menu pouze na jednom konkrétním Gopher serveru.

Názvy Veronica a Jughead byly záměrně zvoleny jako analogie k Archiemu. Tyto nástroje představovaly další krok ve vývoji, umožňující vyhledávání ve strukturovaném informačním systému Gopheru. Existence a popularita nástrojů pro Gopher zdůrazňuje rané napětí mezi prohledáváním strukturovaných, hierarchických systémů (menu Gopheru) a chaotičtější, hypertextově propojenou strukturou rodícího se Webu. Ukazují alternativní cestu, kterou se mohlo objevování informací ubírat, než Web definitivně převládl a vyžádal si odlišná řešení založená na procházení (crawlingu).

Geneze webového vyhledávání (1991-1994): první kroky a základní technologie

S nástupem World Wide Webu se objevily nové výzvy spojené s jeho hypertextovou, rychle rostoucí a decentralizovanou povahou. Bylo třeba vyvinout nové metody pro organizaci a vyhledávání informací.

WWW Virtual Library (VLib) (1991): první katalog

První pokus o organizaci webového obsahu přišel od samotného tvůrce Webu. WWW Virtual Library (VLib) byla spuštěna Timem Berners-Leem v CERNu v Ženevě již v roce 1991. Jednalo se o první index nebo katalog webového obsahu. Fungovala jako manuálně spravovaný adresář, kde dobrovolní experti sestavovali seznamy klíčových odkazů pro konkrétní obory. Později správu převzal Arthur Secret. VLib kupodivu funguje v distribuované podobě dodnes https://www.vlib.org, ale moc tam toho nenajdete.

VLib představuje nejranější snahu o zkrocení Webu pomocí lidské expertízy a manuální kurace, podobně jako tradiční knihovní katalogy. Tento přístup, založený na lidském úsudku, stál v příkrém kontrastu k automatizovaným metodám, které brzy následovaly, a ukázal zásadní rozdíl ve strategiích pro škálování indexace webu. Zatímco manuální katalogizace mohla zaručit kvalitu v malém měřítku, automatizace se ukázala jako nezbytná pro zvládnutí exponenciálního růstu Webu.

Měření Webu: World Wide Web Wanderer a Wandex (červen 1993)

Klíčovou technologií pro automatizované vyhledávání se stalo procházení webu (crawling). Prvním známým webovým robotem (crawlerem, spiderem) byl World Wide Web Wanderer, vyvinutý Matthewem Grayem na MIT a poprvé nasazený v červnu 1993. Tento robot, napsaný v Perlu, nebyl primárně navržen jako vyhledávač, ale jako nástroj pro měření velikosti a růstu World Wide Webu. Jako vedlejší produkt své činnosti generoval index navštívených stránek nazvaný Wandex, který vznikl později v roce 1993. Wandex je považován za první webovou databázi a často bývá označován za první webový vyhledávač, ačkoli sám Gray nic podobného neříkal. Wanderer mapoval růst webu až do konce roku 1995.

Případ Wandereru a Wandexu ilustruje, jak technologie vyvinutá pro jeden účel (měření webu) může neúmyslně položit základy pro jiný (vyhledávání). Ukazuje to na stav raného vývoje webu, kde nástroje často nacházely nové, nepředpokládané aplikace. Wanderer také upozornil na technické a etické problémy spojené s automatickým procházením webu, jako byla zátěž serverů.

Rané manuální a poloautomatické indexery

Mezi plně manuálními adresáři a plně automatizovanými crawlery existovaly i přechodné formy:

W3Catalog (září 1993)

Vyvinut Oscarem Nierstraszem na Ženevské univerzitě a spuštěn 2. září 1993. Je považován za první primitivní webový vyhledávač. Na rozdíl od crawlerů neprocházel web aktivně. Místo toho periodicky stahoval (zrcadlil) již existující, manuálně udržované seznamy webových zdrojů (jako VLib nebo seznamy "What's New"), přeformátoval jejich obsah do standardizované podoby a poskytoval rozhraní (založené na Perlu) pro jejich prohledávání. W3Catalog tedy automatizoval konsolidaci existující lidské práce. Byl ukončen 8. listopadu 1996.

ALIWEB (Archie-Like Indexing for the Web) (listopad 1993)

Vytvořen Martijnem Kosterem ve společnosti Nexor. Oznámen v listopadu 1993 a prezentován v květnu 1994 na první mezinárodní WWW konferenci. ALIWEB nepoužíval webového robota. Místo toho spoléhal na to, že administrátoři webových stránek sami vytvoří speciálně formátovaný soubor s popisem svého webu (včetně klíčových slov a popisů stránek) a jeho adresu zašlou ALIWEBu. ALIWEB se tak snažil distribuovat práci na indexaci mezi samotné tvůrce obsahu. Martijn Koster je také tvůrcem standardu Robots Exclusion Standard (robots.txt), který umožňuje webmasterům specifikovat, které části jejich webu nemají být procházeny roboty – což byla přímá reakce na problémy způsobené ranými crawlery jako Wanderer.

Tyto nástroje demonstrují ústřední dilema rané indexace: jak získat informace do indexu? W3Catalog využíval existující lidskou práci, ALIWEB se ji snažil delegovat na vlastníky stránek. Oba přístupy se vyhýbaly technickým a etickým problémům raného crawlingu (zátěž serverů, tzv. "neslušní roboti"), ale měly svá omezení, zejména v pokrytí webu, které záviselo na ochotě třetích stran spolupracovat. Kosterova pozdější práce na robots.txt ukazuje povědomí o problémech spojených s crawlery z obou perspektiv.

Vznik skutečných crawlerů a vyhledávačů

Konec roku 1993 a začátek roku 1994 přinesly nástroje, které již více odpovídaly moderní představě vyhledávače:

JumpStation (prosinec 1993)

Vytvořen Jonathonem Fletcherem na University of Stirling. Spuštěn v prosinci 1993. Je považován za první systém, který integroval všechny tři základní komponenty webového vyhledávače: crawling (použití robota k nalezení stránek), indexing (vytvoření indexu) a searching (poskytnutí rozhraní, v tomto případě webového formuláře, pro zadávání dotazů). Kvůli omezeným zdrojům však JumpStation indexoval pouze titulky (titles) a nadpisy (headings) nalezených stránek, nikoli jejich plný text.

World Wide Web Worm (WWWW) (vyvíjen 1993, vydán březen 1994)

World Wide Web Worm (WWWW) byl vyvinut Oliverem McBryanem na University of Colorado od září 1993. Veřejně spuštěn v březnu 1994, tedy po JumpStation, ALIWEBu a W3Catalogu. V roce 1994 indexoval přibližně 110 000 webových stránek a vytvořil databázi 300 000 multimediálních objektů. Umožňoval vyhledávání pomocí klíčových slov a podporoval Perlovské regulární výrazy. Vznikl z dřívějšího adresářového webu, který McBryan také provozoval. Technologie byla později odkoupena společností Goto.com.

RBSE Spider (počátek 1994)

Vyvinul ho David Eichmann v rámci projektu RBSE (Repository Based Software Engineering) financovaného NASA na University of Houston-Clear Lake. Byl funkční již počátkem ledna 1994 (indexoval části webu), spuštěn pravděpodobně kolem nebo po lednu 1994, ale před koncem února 1994. Jeho účelem bylo indexování a statistika. Používal technologie Oracle, C a WAIS. Klíčovým přínosem bylo, že poskytoval fulltextové indexování HTML dokumentů, na rozdíl od JumpStation, který indexoval jen titulky a nadpisy. Index byl přístupný přes rozhraní nazvané URLSearch.

Toto období značí zrod rozpoznatelného modelu vyhledávače. JumpStation integroval základní funkce. WWWW dosáhl na svou dobu významného rozsahu indexu. RBSE Spider představil fulltextové indexování, kritický krok k hlubší analýze obsahu. Označení "první" je diskutabilní a závisí na preferovaném kritériu (integrace funkcí, fulltext, datum veřejného spuštění). Souběžný vznik JumpStation, WWWW a RBSE Spider během několika měsíců ukazuje na paralelní inovace řešící různé aspekty problému vyhledávání a podtrhuje obtížnost jednoznačného určení "prvního" skutečného webového vyhledávače.

WebCrawler (duben 1994): první široce známý fulltextový vyhledávač

Projekt WebCrawler zahájil Brian Pinkerton na University of Washington 27. ledna 1994, původně jako desktopovou aplikaci. Na webu byl spuštěn 20. dubna 1994. WebCrawler byl prvním široce známým vyhledávačem, který nabízel fulltextové indexování celého obsahu stránek, což uživatelům umožnilo hledat jakékoli slovo na jakékoli indexované stránce. Je považován za nejstarší vyhledávač, který je stále aktivní https://www.webcrawler.com (i když dnes funguje jako metavyhledávač). Při spuštění indexoval stránky z přibližně 4000 webů , brzy nato z 6000 serverů. Svůj miliontý dotaz ("nuclear weapons design and research") zpracoval 14. listopadu 1994. Byl postupně koupen společnostmi AOL (červen 1995), Excite (duben 1997) a InfoSpace (2001).

Ačkoli RBSE Spider nabízel fulltextové indexování ve stejné době nebo dokonce o něco dříve, WebCrawler dosáhl mnohem většího veřejného povědomí a dostupnosti. Nastavil standard toho, co uživatelé začali od vyhledávačů očekávat – schopnost najít stránky na základě jejich kompletního obsahu. Téměř současný vývoj fulltextového indexování v RBSE Spider a WebCrawleru naznačuje, že se jednalo o kritickou, emergentní potřebu rozpoznanou více výzkumníky nezávisle na sobě. Větší publicita a delší životnost WebCrawleru upevnily jeho místo v historii jako průkopníka této funkce.

Raní komerční hráči a adresáře (1994)

Rok 1994 byl svědkem vstupu prvních komerčních subjektů a upevnění adresářového modelu:

Infoseek (leden 1994 / únor 1995)

Byl založen v roce 1994 Stevem Kirschem. Spuštěn v lednu 1994 jako placená služba, v únoru 1995 byl znovu spuštěn jako bezplatný vyhledávač. V roce 1995 se stal výchozím vyhledávačem v prohlížeči Netscape Navigator, což výrazně zvýšilo jeho popularitu. V červnu 1996 vstoupil na burzu (IPO). Umožňoval přidávání stránek do indexu v reálném čase. Potýkal se však s problémy se spamem. V roce 1997 byl 7. nejnavštěvovanějším webem. V roce 1999 byl koupen společností Disney a integrován do portálu Go.com.

Yahoo! (Adresář - leden 1994; Společnost 1995)

Projekt zahájili v lednu 1994 Jerry Yang a David Filo na Stanfordově univerzitě pod názvem "Jerry and David's Guide to the World Wide Web". Původně se jednalo o manuálně spravovaný hierarchický adresář webových stránek. Společnost byla založena v roce 1995 a ve stejném roce spustila vyhledávací funkci, která prohledávala pouze obsah adresáře. Yahoo! se rychle stalo nesmírně populárním portálem.

Infoseek představuje jeden z prvních pokusů o komercializaci webového vyhledávání, což zdůrazňuje brzy rozpoznaný obchodní potenciál. Počáteční úspěch Yahoo! jako adresáře podtrhl hodnotu lidské organizace v raném, menším webu a nasměroval společnost na jinou cestu, než jakou se vydaly vyhledávače založené na crawlerech. Současný vzestup Infoseeku (komerční vyhledávání) a Yahoo! (kurátorovaný adresář) v letech 1994/1995 ukazuje dvě odlišné rané strategie pro řešení navigace na webu a její monetizace. Infoseek vsadil na to, že se technologie automatického vyhledávání stane byznysem, zatímco Yahoo! vsadilo na lidskou kuraci a portálové funkce.

Éra komerčních vyhledávačů (1995-1998): konkurence, inovace a vzestup portálů

Web explodoval co do velikosti i komerčního zájmu. Vyhledávače se staly klíčovými vstupními branami na internet a přilákaly značné investice a konkurenci.

Hlavní hráči

Toto období bylo charakterizováno nástupem několika dominantních hráčů:

Lycos (červenec 1994 / 1995)

Byl vyvinut v roce 1994 Michaelem Mauldinem na Carnegie Mellon University. Spuštěn 20. července 1994. Zpočátku měl katalog 54 000 dokumentů, v lednu 1995 již 1,5 milionu a do konce roku 1996 přes 60 milionů dokumentů, což z něj v té době činilo vyhledávač s největším indexem. Komerčně byl spuštěn v roce 1995 a na burzu vstoupil v roce 1996. V roce 1998 koupil společnost Wired Digital, vlastníka vyhledávače HotBot. Později (od roku 1999) využíval vyhledávací technologii FAST a následně výsledky od Yahoo!. Byl známý především velikostí svého indexu.

Excite (říjen 1995)

Vznikl jako projekt Architext v roce 1993 studenty ze Stanfordu. Jako Excite byl spuštěn v říjnu 1995. Na burzu vstoupil v dubnu 1996. Koupil WebCrawler (duben 1997) a Magellan. V roce 1997 byl 6. nejnavštěvovanějším webem. Proslul ranými portálovými funkcemi, jako byl bezplatný e-mail. Byl koupen společností @Home, která později zkrachovala; aktiva (včetně WebCrawleru) byla v roce 2001 prodána společnosti InfoSpace.

AltaVista (prosinec 1995)

Vyvinuta v Digital Equipment Corporation (DEC) Louisem Monierem, Joellou Paquette a Paulem Flahertym v létě 1995. Spuštěn 15. prosince 1995. Představoval významný technologický skok: používal vysokorychlostní, vícevláknové crawlery schopné rychle indexovat miliony stránek a měl rozsáhlý index. Nabízel pokročilé vyhledávací operátory (Booleovské AND/OR/NOT, vyhledávání frází, vyhledávání v polích jako url:, link:, title:). Během několika týdnů zpracovával 2 miliony dotazů denně, v listopadu 1997 již kolem 20 milionů denně. Postupně byl koupen společnostmi Compaq, CMGI, Overture a nakonec Yahoo! (2003). Provoz byl ukončen v roce 2013.

HotBot (květen 1996)

Spuštěn v květnu 1996 online divizí časopisu Wired, HotWired. Vyhledávací výsledky poskytovala databáze společnosti Inktomi. Inktomi byl startup založený studenty z UC Berkeley. HotBot využíval technologii Inktomi "Smart Crawl", která umožňovala procházet 10 milionů stránek týdně. V pozdních 90. letech byl populární (19. nejnavštěvovanější web v roce 1998). V roce 1998 byl koupen společností Lycos. Později nabízel možnost výběru výsledků z databází FAST, Google, Inktomi nebo Teoma. Doména byla prodána v roce 2016 a v roce 2022 byl vyhledávač znovu spuštěn pod novým vlastníkem - https://www.hotbot.com.

Inktomi (1996)

Ačkoli Inktomi (založena 1996) nebyla sama o sobě vyhledávačem pro koncové uživatele, stala se klíčovým poskytovatelem technologie pro jiné. Její vyhledávací technologie a databáze poháněly HotBot, po určitou dobu Yahoo! (před dohodou s Googlem a po akvizici), MSN a další. V letech 2002/2003 byla koupena společností Yahoo!.

Tato éra byla svědkem intenzivní soutěže zaměřené na velikost indexu (Lycos), rychlost a pokročilé funkce (AltaVista) a integraci vyhledávání do širších webových portálů (Excite, Yahoo!). Vznik poskytovatelů backendových technologií jako Inktomi také ukazuje rostoucí komplexitu a specializaci trhu. Technologická převaha AltaVisty nastavila novou laťku a donutila konkurenty ke zlepšení. Polovina 90. let se tak stala jakýmisi "závody ve zbrojení" zaměřenými na technické parametry jako velikost indexu a rychlost crawlerů. Současně společnosti jako Excite a Yahoo! začaly diverzifikovat do "portálů" nabízejících e-mail, zprávy atd., což naznačuje strategickou debatu: spočívá budoucnost v čisté vyhledávací technologii, nebo v tom stát se hlavní internetovou bránou pro uživatele? Tato dualita formovala trh, který později narušil Google.

Role Inktomi, která poháněla několik front-endových vyhledávacích webů (HotBot, Yahoo!, MSN), demonstruje raný vznik specializace v rámci vyhledávacího průmyslu. Ne každá populární značka vyhledávače budovala vlastní základní infrastrukturu pro crawling a indexaci, což vytvořilo trh pro poskytovatele backendových technologií. To kontrastuje s vertikálně integrovanými hráči jako AltaVista a později Google.

Evoluce Yahoo!: Adresář, portál a outsourcované vyhledávání

Cesta Yahoo! byla jedinečná a odlišná od ostatních velkých hráčů:

Počátky a strategie

Yahoo! začalo jako manuálně tříděný adresář. V roce 1995 přidalo funkci prohledávání tohoto adresáře.Aby mohlo nabídnout prohledávání celého webu, strategicky se rozhodlo licencovat technologii od jiných společností. Zpočátku (1995-1997) využívalo technologii Open Text. Později spolupracovalo s AltaVistou (některé zdroje naznačují tuto možnost, ale není to jednoznačně potvrzeno). Kolem roku 2001 využívalo technologii Inktomi. V červnu 2000 uzavřelo klíčovou dohodu se společností Google, která se stala jeho hlavním poskytovatelem výsledků vyhledávání.

Posun k vlastní technologii

Tento outsourcing umožnil Yahoo! soustředit se na budování populárního portálu s mnoha službami, aniž by muselo okamžitě masivně investovat do vývoje vlastní vyhledávací technologie. V letech 2002/2003 však Yahoo! provedlo strategické akvizice: koupilo Inktomi (poskytovatele crawlerové technologie) a Overture (předního poskytovatele placených výsledků vyhledávání, dříve GoTo.com). Následně, v dubnu 2003, spustilo vlastní crawler-based vyhledávač založený na technologii Inktomi, nazvaný Yahoo! Slurp. V roce 2004 přestalo používat výsledky od Googlu.

Dlouhodobé spoléhání Yahoo! na vyhledávací technologie třetích stran bylo vědomou strategickou volbou, která upřednostňovala šíři portálu před vlastnictvím klíčové vyhledávací technologie. I když byla tato strategie po určitou dobu úspěšná, znamenala, že Yahoo! budovalo svou značku na technologii konkurentů. Pozdější akvizice Inktomi a Overture a spuštění vlastního crawleru v roce 2003 představovaly významný, ale možná opožděný pokus převzít kontrolu nad vlastním osudem tváří v tvář rostoucí dominanci Googlu.

Vzestup Googlu a moderní éra vyhledávání (1998-současnost)

Konec 90. let přinesl nového hráče, jehož inovativní přístup k hodnocení relevance zásadně změnil vyhledávací prostředí.

Dominance Googlu (1996-současnost)

Počátky a PageRank

Projekt Google začal v roce 1996 jako výzkumný projekt Larryho Page a Sergeye Brina na Stanfordově univerzitě pod názvem "BackRub". Zaměřili se na analýzu zpětných odkazů (backlinks) s myšlenkou, že počet a kvalita odkazů směřujících na stránku je dobrým indikátorem její důležitosti a autority. Na základě toho vyvinuli algoritmus PageRank, který hodnotil stránky právě podle struktury odkazů, přičemž odkazy považoval za "hlasy". To byl klíčový rozdíl oproti tehdejším vyhledávačům, které se více spoléhaly na frekvenci klíčových slov na stránce. PageRank byl ovlivněn dřívějšími pracemi na analýze odkazů a citační analýze, včetně algoritmu RankDex, který v roce 1996 vyvinul Robin Li (pozdější zakladatel Baidu). Pageův patent na PageRank z roku 1998 obsahuje citaci Liho dřívějšího patentu.

Spuštění a růst

Společnost Google Inc. byla oficiálně založena v září 1998. Název "Google" je odvozen od matematického termínu "googol" (číslo 1 následované 100 nulami), což mělo symbolizovat obrovské množství informací, které chtěl vyhledávač organizovat. Google se odlišoval jednoduchým, čistým rozhraním, které kontrastovalo s přeplněnými portály tehdejší doby. Rychle si získal popularitu díky vnímané vyšší relevanci výsledků.V červnu 2000 se stal poskytovatelem vyhledávání pro Yahoo!. V roce 2004 vstoupil na burzu (IPO) a postupně dosáhl dominantního postavení na globálním trhu.

Úspěch Googlu pramenil z technologické inovace (PageRank), která lépe řešila problém relevance v masivním a rostoucím webu. Využitím struktury odkazů jako signálu autority a důvěryhodnosti poskytoval výsledky, které uživatelé považovali za kvalitnější než výsledky založené na frekvenci klíčových slov. Tento posun v definici relevance, založený na kolektivním úsudku vyjádřeném odkazy, se ukázal jako mnohem efektivnější s rostoucím objemem webu. Zatímco PageRank byl revoluční, koncept analýzy odkazů pro hodnocení nebyl zcela nový. Uznání vlivu RankDexu Robina Li ukazuje, že inovace často staví na existujících nápadech. Úspěch Googlu spočíval v efektivní implementaci, škálování a marketingu tohoto přístupu pro World Wide Web.

Pokračující konkurence a regionální hráči

I přes globální dominanci Googlu přetrvávali významní konkurenti:

Baidu (2000)

Baidu Založen v lednu 2000 v Číně Robinem Li (tvůrcem RankDexu) a Ericem Xu. Využil Liho algoritmus RankDex. Specializoval se na čínský jazykový trh a stal se zde dominantním hráčem. Úspěch Baidu demonstruje význam lokalizace a přizpůsobení se specifickým jazykovým trhům.

Snahy Microsoftu (MSN Search 1998, Live Search 2006, Bing 2009)

Microsoft spustil MSN Search ve třetím čtvrtletí 1998, zpočátku s výsledky od Inktomi, krátce od AltaVisty, a poté vyvinul vlastního crawlera (beta listopad 2004, finální verze únor 2005). V září 2006 byl přejmenován na Windows Live Search a v březnu 2007 na Live Search. Nakonec v roce 2009 spustil Bing, který nahradil Live Search s cílem lépe konkurovat Googlu. V roce 2009 uzavřel Microsoft partnerství s Yahoo!, na jehož základě Bing pohání vyhledávání na Yahoo!. Vytrvalé úsilí Microsoftu prostřednictvím několika rebrandů ukazuje strategický význam, který velké technologické společnosti přikládaly účasti na trhu vyhledávání, i tváří v tvář dominantnímu Googlu.

Příběhy Baidu a Bingu ukazují dvě klíčové strategie v post-googlovské éře: úspěch Baidu díky hluboké lokalizaci a zaměření na obrovský nejazykový trh a naprostá vytrvalost a alokace zdrojů Microsoftu k udržení konkurenční alternativy na obecném trhu vyhledávání.

Transformační technologie: Směrem k porozumění významu

Moderní éra je definována posunem od shody klíčových slov a analýzy odkazů k porozumění záměru uživatele a významu dotazů.

Sémantické vyhledávání (kořeny ~1999, implementace 2012/2013+)

Snahy Googlu o sémantické vyhledávání lze vysledovat až k patentové práci Sergeye Brina z roku 1999. Konkrétnější podobu získaly akvizicí sémantické databáze Freebase v roce 2010, zavedením Knowledge Graph (zobrazování informací o entitách přímo ve výsledcích vyhledávání) v roce 2012 a zásadní změnou algoritmu Hummingbird v roce 2013. Hummingbird přesunul důraz z klíčových slov ("strings") na koncepty a entity ("things") a ovlivnil přibližně 90% dotazů. Cílem bylo porozumět významu a kontextu dotazů, nejen hledat shodu slov. Knowledge Vault (2014) měl za cíl automatizovat extrakci dat o entitách z nestrukturovaných zdrojů.

RankBrain (2015)

První významný systém umělé inteligence a strojového učení integrovaný do hodnotícího algoritmu Googlu. Oznámen 26. října 2015, ale nasazen již dříve (jaro 2015). Pomáhá zpracovávat nové, nejednoznačné nebo komplexní dotazy (původně asi 15% dotazů), kterým tradiční algoritmy nerozuměly, tím, že se učí vztahy mezi slovy a koncepty. V roce 2015 byl považován za třetí nejdůležitější hodnotící faktor (po odkazech a obsahu). Využívá vektorové reprezentace slov a dotazů.

BERT (Bidirectional Encoder Representations from Transformers) (2018/2019)

Pokročilá technika hlubokého učení pro zpracování přirozeného jazyka (NLP), představená výzkumníky Googlu v říjnu 2018. Nasazena do vyhledávání Google od týdne 21. října 2019 pro anglické dotazy. Výrazně zlepšila porozumění nuancím a kontextu přirozeného jazyka v dotazech tím, že zpracovává slova ve vztahu ke všem ostatním slovům ve větě (obousměrně), nikoli sekvenčně. Cílem bylo lépe interpretovat konverzační nebo složité dotazy.

Posloupnost od Knowledge Graph (strukturovaná data, 2012) -> Hummingbird (interpretace dotazů, 2013) -> RankBrain (strojové učení pro neznámé dotazy, 2015) -> BERT (hluboké NLP pro kontext, 2019) odhaluje jasnou a zrychlující se trajektorii. Google se posunul od organizace známých faktů, přes lepší analýzu dotazů, k využití strojového učení pro neznámé dotazy, až po použití hlubokého učení pro porozumění nuancím jazyka. To představuje kontinuální evoluci směrem ke skutečnému porozumění záměru, poháněnou pokroky v AI a NLP.

Chronologický přehled raných nástrojů pro objevování webových zdrojů

Následující tabulka poskytuje shrnutí klíčových raných nástrojů pro vyhledávání a indexaci na webu, seřazených chronologicky podle data jejich spuštění nebo vydání, a zdůrazňuje jejich hlavní charakteristiky a inovace.

Klíčové rané nástroje pro objevování internetových a webových zdrojů (před dominancí Googlu)

Nástroj	Typ	Datum spuštění/vydání (ověřeno)	Tvůrce(i)/Původ	Definující charakteristika/Inovace
Archie	FTP Indexer.	1990	Emtage, Heelan, Deutsch/McGill Univ.	První internetový vyhledávač (pro FTP soubory).
Gopher	Protokol (menu-based).	1991	Univ. of Minnesota	Hierarchický systém procházení informací.
WWW Virtual Library (VLib)	Webový katalog (manuální).	1991	Tim Berners-Lee/CERN	První webový katalog/index, kurátorovaný experty.
Veronica	Gopher vyhledávač (více serverů).	Listopad 1992	Foster, Barrie/Univ. Nevada, Reno	Prohledávání názvů menu napříč Gopherspace.
Jughead	Gopher vyhledávač (jeden server).	1993	Rhett Jones/Univ. Utah	Prohledávání názvů menu na jednom Gopher serveru.
WWW Wanderer	Web Crawler/Měření.	Červen 1993	Matthew Gray/MIT	První webový robot, primárně pro měření velikosti webu.
Wandex	Webová databáze.	Později 1993	Matthew Gray/MIT	Index generovaný Wandererem, první webová databáze.
W3Catalog	Agregátor webových indexů.	2. září 1993	Oscar Nierstrasz/Univ. Geneva	Automaticky agregoval a formátoval existující manuální seznamy.
ALIWEB	Indexer založený na ruční editaci obsahu.	Listopad 1993 (oznámení)	Martijn Koster/Nexor	Nepoužíval crawlera, spoléhal na soubory s informace mi o webech zaslané administrátory webů.
JumpStation	Crawler+Indexer+Vyhledávač.	Prosinec 1993	Jonathon Fletcher/Univ. Stirling	První integrovaný systém (crawl, index, search), indexoval titulky/nadpisy.
Infoseek (placená verze)	Komerční vyhledávač.	Leden 1994	Steve Kirsch	Raný komerční pokus o webové vyhledávání.
Yahoo! Directory	Manuální webový adresář.	Leden 1994	Jerry Yang, David Filo/Stanford Univ.	Vedoucí manuální adresář, později základ portálu.
RBSE Spider	Fulltextový Crawler.	Počátek 1994 (funkční leden '94)	David Eichmann/NASA/Univ. Houston-Clear Lake	Rané fulltextové indexování HTML dokumentů.
World Wide Web Worm (WWWW)	Crawler+Indexer+Vyhledávač.	Březen 1994 (veřejné vydání)	Oliver McBryan/Univ. Colorado	Raný rozsáhlý crawler, podporoval regulární výrazy.
WebCrawler	Fulltextový Crawler.	20. duben 1994 (webová verze)	Brian Pinkerton/Univ. Washington	První široce známý fulltextový vyhledávač.
Lycos	Crawler+Indexer+Vyhledávač.	20. červenec 1994	Michael Mauldin/Carnegie Mellon Univ.	Raný vyhledávač s velmi velkým indexem.
Infoseek (bezplatná verze)	Komerční vyhledávač.	Únor 1995	Steve Kirsch	Populární bezplatný vyhledávač, výchozí v Netscape.
Yahoo! Search	Vyhledávání v adresáři.	1995	Yahoo!	Funkce prohledávání vlastního manuálního adresáře.
Excite	Crawler+Indexer+Vyhledávač/Portál.	Říjen 1995	Architext (Stanford studenti)	Raný portál s vyhledáváním, koupil WebCrawler.
AltaVista	Crawler+Indexer+Vyhledávač.	15. prosinec 1995	DEC (Monier, Paquette, Flaherty)	Technologický skok: rychlé crawlery, velký index, pokročilé operátory.
HotBot	Crawler+Indexer+Vyhledávač (Inktomi).	Květen 1996	Wired/Inktomi	Populární vyhledávač poháněný technologií Inktomi.
RankDex	Algoritmus/Vyhledávač (link analysis).	1996	Robin Li/IDD Information Services	Raný algoritmus využívající analýzu odkazů, předchůdce Baidu.
BackRub (Google)	Crawler+Indexer+Vyhledávač (PageRank).	1996 (projekt), 1998 (firma)	Larry Page, Sergey Brin/Stanford Univ.	Revoluční algoritmus PageRank založený na analýze odkazů.
MSN Search	Crawler+Indexer+Vyhledávač (různé zdroje).	Q3 1998	Microsoft	Počáteční vyhledávací snaha Microsoftu, používala Inktomi/AltaVista/vlastní crawler.

Od jednoduchého indexování k sémantickému porozumění

Historie webových vyhledávačů je příběhem neustálé inovace tváří v tvář exponenciálnímu růstu informací dostupných na internetu. Od prvních pokusů o indexaci FTP souborů (Archie) a manuální katalogizaci raného webu (VLib) jsme byli svědky klíčových technologických skoků: vzniku webových crawlerů (Wanderer, JumpStation), zavedení fulltextového indexování (RBSE Spider, WebCrawler), které umožnilo prohledávat celý obsah stránek, a následného boomu komerčních vyhledávačů (Lycos, Excite, AltaVista), které soupeřily o velikost indexu, rychlost a pokročilé funkce.

Zásadní zlom přišel s Googlem a jeho algoritmem PageRank, který změnil paradigma hodnocení relevance přesunutím důrazu z obsahu stránky na strukturu odkazů na webu. Tento přístup se ukázal jako mnohem efektivnější pro nalezení autoritativních a relevantních informací v masivním měřítku.

Moderní éra je pak charakterizována přechodem od relevance založené na odkazech a klíčových slovech k hlubšímu porozumění záměru uživatele a sémantickému významu dotazů. Technologie jako Knowledge Graph, algoritmus Hummingbird a zejména systémy umělé inteligence jako RankBrain a BERT představují další evoluční fázi, kde se vyhledávače snaží nejen najít stránky obsahující určitá slova, ale skutečně pochopit, co uživatel hledá, a poskytnout co nejpřesnější a nejkontextuálnější odpověď.

Tento vývoj ukazuje, že zdánlivě jednoduchý akt "vyhledávání na webu" je dnes postaven na desetiletích komplexních inovací, tvrdé konkurence a neustále se vyvíjejících technologických paradigmat, které směřují k cíli porozumět informacím a lidskému jazyku na úrovni blížící se lidskému chápání. Cesta od prostého seznamu souborů k systémům schopným sémantické analýzy je svědectvím o snaze lidstva využít sílu digitálních informací.

Vyhledávače (crawlery)

Historie internetu

Pro vkládání komentářů se musíte přihlásit

Pokud by jste chtěli nové webové stránky a nebo redesign současných, zavolejte mi na mobil: +420 608 23 33 34, nebo mi pošlete zprávu na email: jiri.wolf@jw.cz.

Můžete taky využít tento formulář