Rozhovor: Chci konkurovat Googlu a Seznamu

Internet | 06.12.10

Petr Hejl se s projektem Nový hledač na českém internetu objevil již několikrát. Nyní se však zdá, že již brzy posbírá zamýšlený kapitál a bude schopen s jeho realizací skutečně začít.





Petr Hejl se s projektem Nový hledač na českém internetu objevil již několikrát. Nyní se však zdá, že již brzy posbírá zamýšlený kapitál a bude schopen s jeho realizací skutečně začít.

O projektu Nový hledač již jistě celá řada našich čtenářů slyšela. Mohl byste však přesto stručně shrnout, co je jeho hlavním cílem?

Hlavním cílem je ověřit můj nový princip hledání na prototypu a následně prodat můj algoritmus hledání Microsoftu pro Bing nebo jinému (alternativnímu) hledači. Sekundárním cílem, pokud by toto nevyšlo, je realizace a provozování kompletního Nového českého hledače. Informace o mém projektu jsou na WWW adrese: http://www.milionovastranka.net.

Historie tohoto projektu je docela zajímavá. Já jsem se o seznamy a hledače začal zajímat někdy okolo roku 1995. Seznamem přitom míním katalog, kdy se kliká na jednotlivé kategorie, hledačem míním hledání pomocí hledacího okénka, kam napíšete hledané klíčové slovo nebo frázi. Nyní se někdy nesprávně namísto termínu „hledač“ používá slovo „vyhledávač“, což je ovšem vzhledem k překladu z anglického „search engine“ nesprávné (search = hledat, vyhledat = find out). Ale k historii. Kolem roku 1995 mne napadlo, že by možná bylo zajímavé hledače dělat, a že by z toho mohl být i nezanedbatelný finanční přínos. Zkusil jsem si tehdy hledat na několika hledačích, tuším Yahoo a AltaVista, ale výsledky byly úplně nesmyslné. Z toho jsem usoudil, že hledání jako takové nemá perspektivu. Usoudil jsem tak v souladu s tehdejším odborným míněním, ale úplně špatně. Autoři Google si tehdy jako jedni z mála uvědomili, že chyba není v hledání jakožto principu, ale v tehdejších nedokonalých hledačích.

Dále jsem se k hledání dostal asi před pěti lety. Potřeboval jsem se podívat na potenciální zákazníky a konkurenty v mém oboru, tj. turistice na Internetu na jižní Moravě. A jak jsem tak hledal, trklo mne přes nos, že hledání zdaleka není Googlem definitivně vyřešeno, jak jsem se dříve po mnoho let nesprávně domníval. Prostě Google je nejlepší současný hledač, ale zdaleka není optimální. Uvědomil jsem si, jak moc linků je tam umístěno špatně, a jak moc často musím proklikávat množství nalezených linků, než se dostanu na link, který mne skutečně zajímá. Tak jsem začal bádat, čím to je, zkusil jsem tu kvalitu zlepšit. Tři roky jsem nic nevymyslel, protože jsem se, stejně jako stávající hledače, soustředil na hodnocení jednotlivých WWW stránek. Ale po třech letech bádání mi to najednou doklaplo, že namísto jednotlivých WWW stránek je potřeba hodnotit jejich množiny, resp. dokonce množiny komponent Internetu, kam patří také dokumenty, obrázky, audio, video. Tyto množiny jsou tedy ty moje, již dnes takřka legendární, „jiné objekty“. Já tady tedy můj princip hledání dostatečně objasňuji. Jediné, co neprozrazuji je, jak ty množiny konstruuji.

Tyto množiny jsou větší než jednotlivé WWW stránky, vzájemně se více liší, tudíž je pro můj algoritmus jednodušší stanovit jejich pořadí. Jinými slovy aplikuji podobná kriteria jako Google (výskyt hledaných klíčových slov, Rank apod.), ale na jiné objekty, než to dělá Google. Hodnoty těchto kriterií jsou pro množiny několikanásobkem hodnot pro jednotlivé WWW stránky, tudíž je interval pro můj rozlišovací lineární výraz mnohem více roztažen než obdobný interval pro jednotlivé WWW stránky (hrubým odhadem desetkrát). Tudíž je pro můj algoritmus mnohem jednodušší tyto množiny (a tedy i WWW stránky v nich obsažené) rozlišit a tedy i vyhodnotit. A tedy moje pořadí je lepší, než pořadí Google a jiných existujících hledačů. Přitom Google a spol. můj princip hledání takřka na sto procent nepoužívají, to by jeho pořadí linků muselo být prostě jiné.

Hovoříte o tom, že současné vyhledávače neodvádějí svoji práci tak dobře, jak by mohly. V čem vidíte jejich největší slabiny?

Je to právě v pořadí nalezených linků, které je často nerelevantní dotazu. Kvalitní stránky, odpovídající přesně dotazu, se často skrývají na třetí, páté stránce nalezených linků, nebo nejsou reálně k nalezení. Zatímco nahoře nabídne hledač bezobsažné stránky, MFAčka, stránky mimo hledané téma apod. Myslím, že všichni, kteří alespoň občas hledají, s tím mají své zkušenosti. Prostě pokud si dáte do hledání dotaz „hotely v Praze“, máte na prvních místech dostat jako odpověď souhrnné stránky o hotelech (kde Vám nabídnou určité přehledy, srovnání cen, aktuální slevy atd.), nikoli na stránky jednotlivých hotelů (protože nikdo nedokáže určit, jaké hotely by měly být zrovna nahoře).

Ostatně, i mne na stopu mého projektu přivedla vlastní zkušenost se špatným hledáním v Google a na Seznamu, viz moje odpověď na předchozí otázku. Souhrnně se dá říci, že stávající princip hledání, kdy se hodnotí jednotlivé WWW stránky, hlavně na základě PageRanku, vyčerpal svoje možnosti, už jej není možno dále optimalizovat. Nyní tedy přichází na řadu můj nový princip hledání, tedy hodnocení množin komponent Internetu.

Jaké inovace by tedy podle vás mohl projekt Nový hledač přinést? V čem by byly přínosné pro běžného uživatele internetu?

Místo jednotlivých WWW stránek hodnotím množiny komponent Internetu, místo statického PageRanku, který nezávisí na hledaném klíčovém slově, používám dynamický Rank, který na hledaném klíčovém slově závisí, a tudíž je přesnější. Oboje vede k lepšímu (relevantnějšímu) pořadí nalezených linků.

Nalezené výsledky (linky) budou ovšem graficky na displeji vypadat hodně podobně, jak to dělají stávající hledače, budou to už linky na konkrétní WWW, nikoli na množiny (ty jsou ukryty v hledacím algoritmu). Rozdíl bude v pořadí, kdy je moje cca o 10 procent lepší, než dává Google. Ale i těch pár procent může způsobit posun a možná i propastný rozdíl v návštěvnosti, jak je to nyní vidět na rozdílu mezi Google a Bing (rozdíl v kvalitě je podle studie City Group 20 procent, poměr návštěvnosti ve světě je 30:1, v USA 10:1, viz statistiky a grafy StatCounter). Mám v oblibě opírat se o statistiky a analýzy…

Myslíte si, že s investorským kapitálem ve výši 1 milionu Kč budete skutečně schopen konkurovat internetovým "molochům", za nimiž stojí armády právníků a miliardy korun?

Bezpochyby. Vtip je totiž v tom, že já primárně nechci vyvíjet kompletní Nový světový hledač. Chci pouze, po ověření, vložit můj algoritmus do nějakého existujícího hledače, například do Bing. To je relativně snadné, stačí vyměnit jádro hledače, tj. zpracování. Stahování i odpovídání se bude měnit jen minimálně. Ještě na vysvětlenou: samozřejmě, na každém velkém existujícím hledači pracují desítky, stovky, nebo v případě Google i tisíce odborníků. Ale oni dělají kompletní práci: detaily algoritmu a váhy kriterií, programování, síť, hardware, nápovědu, techhelp atd. atd. Krom toho mají hledače další desítky až stovky funkcí, které s hledáním souvisí často okrajově: Google Maps, Google Street View atd. atd. S tím se samozřejmě měřit nemohu a nechci. Jak jsem uvedl, soustředím se na to centrální, co v hledání je, to je na kvalitní pořadí nalezených linků. A každý hledač vymysleli a jeho princip a jádro algoritmu dělají 1-3 lidé, jmenujme Yahoo, Google nebo Seznam. A s těmi se měřit mohu.

Takže mým primárním cílem je prodat můj algoritmus Microsoftu. To, že můj business postup je správný a že mám velkou naději můj algoritmus Microsoft prodat, mohu opřít o následující důkaz: Microsoft působí na Internetu v oblasti hledání od roku 1998. Od té doby, tedy za 12 let, změnil Microsoft už 6x strategii v jeho internetovém hledání (Inktomi, Netscape, MSN Search, Live Search, Yahoo, Bing). Tedy mění tuto strategii cca každé dva roky, vždy, kdy zjistí, že nastoupená cesta nikam nevede, že je to, řečeno v souladu s Járou da Cimrmanem, slepá ulička. A cesta Microsoftu po internetovém hledání je až doteď samá slepá ulička, oni tomu principu ani businessu, na rozdíl od operačních systémů, prostě dosud neporozuměli.

Steve Ballmer při otevření Binga (před rokem a půl) prohlásil, že hodlají vložit do Bing v dalších 5 letech 8 miliard dolarů. Ovšem jen letošní ztráta vychází na 2.8 miliard dolarů, tedy částku 8 miliard vyčerpají během necelých tří let. Tedy asi za rok a půl odteď dojde nutně opět ke změně jejich strategie. Aby Microsoft v Bingu aspoň trošku Google dohnal, bude muset zlepšit kvalitu hledání, tedy změnit algoritmus (to říkají i analytici). Na tenhle moment chci být připraven. Pokud by se povedlo Microsoftu ten algoritmus prodat, je odhad prodejní ceny 2 miliardy dolarů. Ale oni nekupují myšlenky, chtějí vidět něco funkčního, proto je potřeba ten prototyp. To můžu dokladovat na mojí korespondenci s Microsoftem, kdy mi (nepřímo, přes jejich zaměstnance) odpovídal Steve Ballmer, ta korespondence je uveřejněna na stránkách mého projektu.

Teprve v případě, kdy by se mi prodej mého algoritmu nepodařil, bych realizoval a provozoval Nový český hledač, který by měl být primárně konkurentem Seznamu. Za tím účelem by byla potřeba další investice ve výši 1 milion Kč, a to na první rok činnosti, ale je to jen alternativní varianta. Nicméně i pro tuto variantu mám připraven postup i rozpočet, kde se držím příjmy i výdaji hodně při zemi.

Hledání na Seznamu bylo až do léta 2009 výborné (posílal jsem tehdy pochvalný mailík Štěpánu Škrobovi), od té doby je mizerné. Nechápu proč (i když je to v můj prospěch), ale oni vyměnili v září 2009 jejich algoritmus za horší a ještě více to pokazili v září 2010. Svědčí o tom stovky stížností v diskusních fórech na internetu (dokonce v diskuzích k jejich blogu, které necenzurují), ale hlavně pokles počtu jejich uživatelů. Od začátku tohoto roku ztratilo hledání na Seznamu dle TopListu 10 procent uživatelů, což je umění…

Tito uživatelé se nyní přesouvají na Google, protože v oblasti hledačů v ČR není žádná jiná reálná alternativa. Přitom Google na tom nemá žádnou zásluhu, ten se, co se týče pořadí linků, tedy kvality hledání, již 15 let nemění. Prostě uživatelé tam Google padají od Seznamu jako hrušky. Na tom je také založena část mé obchodní strategie pro Nový hledač: sbírat odpadlíky od Seznamu. Podle odhadu by jich Nový český hledač za tři roky mohl nasbírat 15 procent, takže by se stal trojkou na českém trhu hledání, což by stačilo na bohatý roční zisk i pro investory. Primárně se tedy budu soustředit na hledání, další funkce bude Nový český hledač získávat převážně pomocí barterů.

Musím přiznat, že jsem především „technology man“, nikoli tak úplně „business man“. Na druhé straně i pro Nový český hledač mám připraveny dva nové, dosud hledači nepoužívané zdroje příjmů. První z nich se týká aktualizace linků, druhý SEO, kde dosud hledačům berou kompletně příjmy SEO agentury.

Jaké reakce jste se svým projektem zatím sklidil u potenciálních investorů?

Chápu určitou nedůvěru investorů, ta moje myšlenka a z ní plynoucí výzva je dosti velká a odvážná. Na druhé straně, autoři Google hledali investora 3 roky, přitom měli Silicon Valley takřka za rohem a v posledním roce hledání toho investora také hotový prototyp. Nemálo velkých společností a investorů, kteří je tehdy odmítli, si teď jistě drbe hlavu, na druhou stranu pro ředitele Sun Microsystems, který do Google investoval v roce 1998 prvních sto tisíc dolarů, to byla jistě nejlepší investice jeho života.

Zatím hledám investory jeden rok. Velkého investora jsem nenašel. Nyní mám poskládáno 900 tisíc Kč od menších investorů, poskládáno znamená investováno nebo aktuálně a reálně přislíbeno, jedná se o částky od 10 do 300 tisíc Kč. Chybí mi tedy ještě 100 tisíc Kč do potřebného milionu, abych mohl začít. Pokud by se mezi čtenáři našel potenciální investor, prosím, mailněte mi na email phejl@lednice.org, rád s Vámi o projektu podiskutuji. Děkuji PC World za rozhovor, těším se, že brzy oznámím začátek práce na projektu.














Komentáře