|
Тема |
Re: мивки [re: Nero] |
|
Автор | lR (Нерегистриран) | |
Публикувано | 16.06.05 19:29 |
|
|
Vij sega kakvo shte ti kaja. Mnogo hora viarvaha, 4e hipervryzkite pomagat za tyrseneto i sortiraneto na rezultatite. BTW tova se nari4a "Hyperlink Analyses". V rezultat na tova se syzdade edna kolekcia nare4ena Wt10g koyato e 10GB i sydyrja 1.69 miliona stranici (ima i edna po-goliama 100GB) (dvete kolekcii biaha syzdadeni za TREC-9). Tazi kolekcia sydyrja zna4itelno pove4e hipervryzki otkolkoto predishnite kolekcii za TREC. Zna4i rezultatite pokazaha, 4e algoritmite bazirani na hipervryzkite davat po-loshi rezultati, s edna duma pagerank algorityma i negovite variacii sa BULLSHIT. Ako ne mi viarvash, otivash na stranicata na TREC-9 i gledash rezultatite za Webtrack session-a. Edno obiasnenie, 4e pagerank ne raboti e 4e vypreki, 4e v Wt10g stranicite sydyrjat zna4itelno goliam broy "cross links" mnogo ot tezi vryzki sa "broken". Ako idesh na TREC-9 stranicata shte namerish i statistika za broya na stranicite, average hyp. links per page, etc. Sega ne se seshtam na koya konferencia beshe (znam, 4e beshe ili v Portugalia ili Ispania), ama tam pak dosta narod beshe napravil testove s drugi kolekcii i rezultata pak beshe PageRank=BULLSHIT.
Sega pak ne temata za stemming: Google ne pravi stemming. Ako Google praveshe stemming, to "computer" i "computers" shtiaha da vryshtat edin i syshti rezultat poneje korena na dumite e edin i sysht. Stemming to4no tova ozna4ava- koren na duma. Po-goliamo dokazatestvo ot tova ne znam kak da ti nameria. A i vmesto da pravish stemming e mnogo po-dobre da izpolzvash "singular form" na dumata (naprimer tova lesno moje da go napravish s WordNet ili nehto drugo).
|
| |
|
|
|