Re: мивки / Компютри и Интернет / Програмисти

Я, че интересна дискусия. Простете ме за дългия постинг, но си имам поне две причини – хем съм от Онтотекст, хем имам безценни мисли за споделяне.

Онтологиите и всеки друг модел базиран на математическа логика (МЛ) имат доста кусури. Основния е, че МЛ е доста несъвършенo приближение на начина, по които мислят хората - когнитивен модел измислен от математици преди 1-2-3 века. (Това според мен. Което ми се вижда важна забележка, щото тук много хора се изказват като носители на универсалната истина.) В момента, в който започнеш да използваш някакъв вид МЛ (независимо дали му викаш експертна система, онтология , business-logic-rules-turbo-combi или TopicMaps…) за нещо по-сложно от курсова работа в куса по ИИ, машината почва да извежда някакви работи, дето човек не може да прецени от къде идват. Колкото по-сложна/богата/изразителна логика ползваш, толкова по-малък обем правила/данни са достатъчни, за да престане да може да прецени смисъла/верността на резултата дори трениран knowledge engineer. Хората не обичат такива неща, щото ... ми, щото никой не иска да зависи от нещо, върху което няма контрол. Или контрола е толкова тежък/скъп, че обезсмисля упражнението. Някъде по треда някой разправяше за онези хора дето едвам успяват да добавят две-три правила на ден без да преебат работата – е за същото иде реч. Базите просперират, щото можеш да съобразиш какво и защо ти връщат (в достатъчна степен). Това безценно разсъждение мога да го разтегля още, но викам основната идея да е станала ясна.

Нещо което прави смисъл (:-) да се пробва е човек да усложни малко модела на RDBMS за да добави малко изводимост/интерпретация. Щото е досадно като кажеш на една база „Х живее в София” и тя да не може да стопли някакви прости работи, кат например, че ако има съответната географска информация Х трябва да се връща и на заявки за жители на БГ. Пиниза е тази „аугментация” да се направи *много* внимателно за да не изгубиш по пътя двете важни качества: предвидимост на резултата и скалируемост на алгоритмите (виж лакардиите за МС? ;-) . Това хората и в щатите и в Европа го стоплят макар и бавно и това може да се види в много нещата около т.н. Semantic Web – виж RDF, OWL (и в частност Lite и DLP). Бавно, щото много от „влиятелните” мислители, кат малки са научили логика и това им е основния компетитиве аджантадге и ... ми, борят се да са в играта.

По въпроса СЕ срещу Онтологии. Ебати безсмисления въпрос. Както е казал дядо поп: и бира чедо, и бира. Друг въпрос е кой как нарича/реализира структурираните разширения на статистиките на класическия Information Retrieval (тъй се нарича науката за СЕ, както май още някой спомена). Можеш да правиш комбинации на СЕ с бази (виж ORACLE Text), можеш да правиш същото през всяко други структурирано представяне, вкл. онтологии. Можеш да не си го признаваш, и да кажеш „ми ние имаме едни малко по-особени индекси” ... не прави разлика. Това последното е донякъде подхода на Гугъл – една от основните им посоки на развитие е да правят сходен частичен анализ на текста, като този дето го борим в Онтотекст, само че не казват в какво пазят резултатите, заради негативите, който с годините са се полепили по всичко свързано с ИИ, вкл. онтологии. Разбирам ги, хората са на борсата все пак, не могат да разправят такива „чувствителни” работи :-)

СЕ имат същия проблем както МЛ но в по-малка степен – резултатите които ти връщат са непредвидими. (Предвидим е булевия full-text search, но тук нали има много разбирачи, та не си говорим за такива прости работи.) Положението не е толкова зле колкото в МЛ, щото явно СЕ модела е по-близко до мисленето на хората.

Проблема на МС със СЕ донякъде е, че заложиха на една по принцип хитра хватка в IR наречена Latent Semantic Analysis/Indexing (скачай в Гугъла да видиш какво е и поздрави Сузана Думаис от мен, ако се чуете). Общо взето идеята е да свалиш размерността на пространството по „добър” начин, да махнеш шума и да оставиш „смисъла”. И всичко това по един турбо автоматически и статистически начин. Хубаво, ама губиш предвидимост и юзърите почват да се чувстват една идея по-малко комфортно. Има начини да направиш същото, без да губиш толкова предвидимост, но ... това е за напреднали, та не го разправяме извън Онтотекст :-)

Пак прощавайте за дългия постинг и за рекламата, но трябваше някой да отговори, веднъж като сте ни споменали, пък аз като почна и ... ми, оня знак, децата нямат спирачки :-)