|
Тема |
Re: Дължини и статистически данни [re: xakepxakep] |
|
Автор |
ivz (любопитен) |
|
Публикувано | 19.02.12 09:59 |
|
|
Изглежда има някаква формула за претеглено изчисляване на тези характеристики, като под претеглено имам предвид не просто честотата на дадена дума, а присъствието й в текстове от различен тип: художествена литература, техническа, публицистика и т.н. (какво значи "т.н." не знам). Казвам това, защото си направих труда да проверя ср. дължина в английски текстове (худ. литература) и най-голямото число, което получих, беше 4.40. А за английския се дава (почти единодушно) 5.1 букви/дума. Явно в тази стойност участват с по-голямо тегло думи с по-голяма дължна. Всички тези неща са (били са - вече не в такава степен, както някога) от голямо значение в криптографията и по-точно в криптоанализа, и несъмнено са отдавна изчислени (и текущо преизчислявани) за повечето езици. Чел съм, че най-добрата граматика на българския език била написана още 50-те/60-те години в NSA. Там със сигурност знаят всякаква статистика за българския, но е за тяхна консумация...
Иначе не е голям проблем да се сметнат дължините и честотите за произволно големи извадки на текстове ("Читанка" е налице като източник, по-трудно е се подберат представителни текстове от различен вид/тип). Не сте казали, не съм написал програмата за няколко часа. Но какъв е смисълът?
Иначе да се дели общата дължина на броя на думите (в даден списък) е абсолютно безсмислено, защото така се приравняват предлозите на по- рядко използваните думи от по 10+ (примерно) букви, което очевидно няма нищо общо с истината ("на" = "перлюстрация"?). Много по-близко до нея е да се вземе един текст и същата сметка да се направи за него (като се премахнат от текста всички знаци, които не са букви - пунктоация, числа, табулация, сдвоени интервали, свързващи тирета и пр.)
"You'd be surprised how much it costs to look this cheap."Редактирано от ivz на 19.02.12 10:07.
|
| |
|
|
|