|
Тема |
Re: мивки [re: Nero] |
|
Автор | lR (Нерегистриран) | |
Публикувано | 13.06.05 14:03 |
|
|
Izviniavam se na tezi na koito ne moga da otgovoria direktno poneje sym malko zaet tia dni. V tozi post sym otgovoril na pove4eto vyprosi deto sa mi zadadeni.
Podhodyt na Google korenno se razli4ava ot podhoda s ontologies. Problemyt sys search engines (SE) (Google, etc) kato cialo e 4e SE ne mogat da reshat taka nare4enia "ambiguity problem". Edin primer koyto postoyanno se citira po konferenciite e 4e pove4eto SE kato Google ne praviat razlika mejdu "turkey" (strana) i "turkey" (ptica). Syshto taka ako imash naprimer stranica koyato e otnostno "lyvove i tigri", no v stranicata nikyde ne se kazva, 4e lyvovete i tigrite sa bozaynici, to ako tyrsish po klu4 "bozaynici", stranicata za lyvove i tigri direktno shte byde izpusnata.
Podhoda s ontologies e nan4inyt da se reshi tozi vid problemi, no kakto ve4e kazah takiva systemi pyk imat nedostatyka, 4e po4ti vsi4ko se vkarva na ryka i to ot ekspert. Response time ot takava systema e syshto dosta goliam.
Ima i treti vid systemy deto izvyrshvat "phrase evaluation" i 4esto izpolzvat taxonomy, koeto e neshto sredno mejdu SE i "ontology based system". Takiva systemi mogat da ti otgovariat na zadadeni vyprosi kato izpolzvat sydyrjanieto na dokumenta (question answering systems). Te po4ti ne iziskvat ry4na rabota, no sa syshto po-bavni ot obiknovenite SE poneje po-ve4e oceniavania (iz4islenia) se praviat.
V USA v momenta v ontology based system (decision support systems, etc) se nalivat pove4e pari otkolkoto e budjeta na niakoi evropeyski dyrjavi i vsi4ko tova zaradi terorizma.
Tezi koito me pitaha kyde mogat da nameriat 4etivo za SE, etc:
Na http://www.dcs.gla.ac.uk/Keith/Preface.html ima edna dosta stara no mnogo hubava kniga koyato dobre opisva kakvo vsyshtnost pravi edin SE (IR engine). Knigata e stari4ka, no ot 70-te nasam neshtata ne sa se promenili mnogo (izklu4enie praviat niakoy SE deto polzvat font size, title text, hyperlinks, etc na web stranicite). Ima opisanie na razli4ni similarity functions deto se izpolzvat za sravniavane na klu4ovi dumi i text i t.n. Vseki deto ya pro4ete moje da si napravi simple SE deto shte mu vyrshi rabota.
Ima edna stara statia za edna ot nay-rannite versii na google at: http://www-db.stanford.edu/~backrub/google.html
http://trec.nist.gov/ - tova e edin site deto moje da vidite poslednite rezultati ot razli4ni SE. Tam ima razli4ni klasove "competitions"- naprimer Web Track se nari4a tozi za tyrsene po klu4ovi dumi.
Ako niakoy napishe IR (information retrieval) v koy da e SE, shte mu izplue kup info za algorithmii t.n.
Za ontologies: nay-golemia KB (knowledge base) na sveta e cyc KB. Ima open cyc (mnogo oriazana versia) na cyc, koyato moje da se downloadne ot http://www.cyc.com/. W3C ima niakolko ezici za predstaviane na "ontology" predimno za Semantic Web (RDF, OWL, DAML-OIL), no te daje ne se doblijavat do CycL.
Niakoy beshe kazal, 4e Microsoft shte nastigne Google za 1-2 godini. Molia idete na http://trec.nist.gov/ i vijte kyde e Microsoft i kyde sa drugite. Pri oceniavaneto se gleda precision and recall. Moyat vypros e: Zashto Microsoft izprashta tehnite rezultati na TREC sled kato na drugi u4astnici ve4e ne im priemat rezultatite?
Syshto taka Noname beshe kazal "Това, че си способен да забравиш езика си и да пишеш "4" вместо "ч" говори лошо за теб." i t.n. Ot 2001 nasam nito sym bil v BG nito sym imal shtastieto da govoria s niakogo na bylgarski i nay-malkoto sym doshyl v tozi klub da se pravia na velik.
Pozdravi
|
| |
|
|
|