|
Страници по тази тема: 1 | 2 | 3 | 4 | 5 | (покажи всички)
Тема
|
Регресия и корелация
|
|
Автор |
enchoj_enchoj (непознат
) |
Публикувано | 29.10.13 16:47 |
|
Имам един въпрос от областта на статистиката. Не знам доколко е за математици, но мисля, че тук е най-удачно да потърся отговор.
Аз дори не търся отговор, а ми се иска да чуя мнението на хора, които са се занимавали с регресия и корелация.
Представете си, че разглеждаме една линейна зависимост - например, зависимостта на разходите за поддръжка на автомобила от продължителността на неговата употреба при да речем, 100 автомобила от различни марки и модели.
Знаете, че според регресионния и корелационен анализ, като изобразим стойностите на двата признака като точки на двумерната координатна система, колкото по-близо са тези точки до регресионната права, толкова по-силна е зависимостта.
Не ви ли се струва, че това не е много правилно и че зависимостта на разходите за поддръжка при различните автомобили ще се проявява по различен начин?
Зависимост винаги ще има, но тя ще е различна при различните автомобили.
Как мислите?
| |
|
Нормално е всеки автомобилен модел (тип) да има своя зависимост, но това не значи, че общата зависимост няма да е вярна. Верността на общата зависимост мисля че следва от закона за големите числа.
| |
|
Не ви ли се струва, че това не е много правилно и че зависимостта на разходите за поддръжка при различните автомобили ще се проявява по различен начин?
Зависимост винаги ще има, но тя ще е различна при различните автомобили.
Т.е. при някои автомобили няма да има зависимост, а при други ще има? Или при някои ще е по-силна, при други - по-слаба? При 1 000 000 автомобила от 100 марки може да се провери тая хипотеза. От друга страна може да се окаже, че зависимостта (връзката по-скоро) е желязна и не зависи (кой знае колко) от марката на автомобила.
| |
|
Т.е. при някои автомобили няма да има зависимост, а при други ще има? Или при някои ще е по-силна, при други - по-слаба?
По-скоро - второто.
Разбира се, не е невъзможно в някои случаи, единиците в съвкупността да са подбрани по такъв начин, че "индивидуалните" за всяка единица зависимости да са много близки или дори - еднакви. Това изобщо не променя факта, че общата зависимост е едновременно проявление от всички тези близки или еднакви индивидуални зависимости. А и подобни случаи биха били рядкост.
Вижте сега, според регресионния и корелационния анализ, правата, която изразява зависимостта е една обща, и ако точките се отклоняват от нея, то е поради случайни причини.
Иначе казано, при трабанта и при ролс-ройса, зависимостта на разходите за поддръжка от възрастта на автомобила е една и съща, и отклоненията на разходите от тази зависимост се дължат само на случайни фактори.
Това е тъпо.
Ясно е, че никакви случайни фактори не могат да направят разходите за трабанта, колкото тези за ролс-ройса, както и обратното...
| |
|
Дръж пред око "процеса". При него счупването на ролс-ройс пред трабант е случаен фактор. Обаче ако разглеждаш само ролс-ройси и търсиш тяхната зависимост е друг процес. Как може изводите от единия процес да се пренесат към другия процес е различен въпрос.
| |
|
Това е тъпо.
Ясно е, че никакви случайни фактори не могат да направят разходите за трабанта, колкото тези за ролс-ройса, както и обратното...
Добре, де, нали те интересува зависимостта, а не абсолютните стойности на разходите? Според мен на ролс-ройса и трабанта ще се усреднят към волксвагена и там ще мине линията като начало и наклонът и ще бъде общ, ако е една и съща зависимостта.
Предполагам, че формулките ще игнорират ширината на облака от точките около правата, ако има някакво системно, а не случайно разсейване. Т.е. за смятането на регресионната права има ли значение колко близо са точките до нея, ако отклоненията се запазват?
ОФФ Някакво ужасно число се появи след ника ми. Не намирам никакъв смисъл в него.:)Редактирано от naiv73958 на 30.10.13 10:41.
| |
|
Добре, де, нали те интересува зависимостта, а не абсолютните стойности на разходите? Според мен на ролс-ройса и трабанта ще се усреднят към волксвагена и там ще мине линията като начало и наклонът и ще бъде общ, ако е една и съща зависимостта.
Ами там е работата, че от абсолютните стойности зависи местоположението на правите, които изразяват зависимостта при различните марки.
Дори и да е една и съща зависимостта, средните разходи за някаква поредица от години за ролс-ройса и трабанта са много-много различни. А индивидуалните прави минават през точките с координати - тези средни стойности.
Значи, правата на ролс-ройса ще е много по-високо от правата на трабанта.
| |
|
Статистиката не дава детерминирани отговори, а само вероятностни. Когато се строи регресионен модел стандартната процедура е да се се изпробват няколко формули и да се провери с МНМК, коя дава най-малко отклонение. Понякога действителното решение има по-високо отклонение от някое, което е просто игра на числата, но такъв е живота.
Такъв случай се нарича грешка от първи род.
| |
|
Ми аз мислех, че математиката може да се справи с този проблем и кривата да е по средата на такава обединена извадка и да е напълно успоредна на двете отделни.
| |
|
"Значи, правата на ролс-ройса ще е много по-високо от правата на трабанта."
твоята хипотеза е, че зависимостта на разходите за поддръжка на автомобила от продължителността на неговата употреба е една и съща за различните марки (наклона на регресионните прави е един и същ), но абсолютните стойности са различни (правите са успоредни, но пресичат ординатната ос в различни точки).
тази хипотеза се тества лесно с dummy variables:
Y=b0+b1*X+b2*D
Y: разходи за поддръжка
X: продължителност на употреба на автомобила
D: 1 ако е Ролс Ройс, 0 за Трабант
правиш (мултилинейна) регресия и хипотезата b2=0 (т.е. няма разлика в абсолютните стойности между трабант и ролс ройс) се тества с t-statistic.
ако имаш 100 различни марки автомобили, ще имаш 99 dummy variables:
Y=b0+b1*X+b2*D1+b3*D2+...+b100*D99.
D1=1 за Опел, 0 за всички други марки
D2=1 за Ауди, 0 за всички други марки
.... и така нататък.
| |
|
Страници по тази тема: 1 | 2 | 3 | 4 | 5 | (покажи всички)
|
|
|