Reklama
|
Statystyka, prognozowanie, ekonometria, data mining
Forum miłośników statystyki - Statystycy całego Świata - Łączcie się :-)
|
|
regresja logistyczna |
| Autor |
Wiadomość |
green power
Szeregowy

Posty: 16 Skąd: Kraków
|
Wysłany: 2008-03-29, 19:01 regresja logistyczna
|
|
|
Witam!
Mam do Was moi mili pytanie nt. błędów jakie pojawiają sie przy stosowaniu w/w regresji. Chodzi mi tu o zbieżne ze sobą błędy "złego uwarunkowania macierzy" i "zmiennych niezależnych nadmiarowych". Wobec powyższych pewne zmienne w mojej analizie są redundantne, a więc nadmiarowe wobec pozostałych (mogą być poprzez nie wyrażone). Z matematycznego pkt widzenia ok. Prowadzę jednak badania przyrodnicze i z tego właśnie punktu widzenia wyeliminowanie niektórych zmiennych nie jest w mojej opinii pożądane (i tak już znaczną ilość zmiennych wyeliminowałem, upraszczając statystykę) i wolałbym je pozostawić w analizie. Jak zatem pozbyć się w wspomnianych błędów. Wyczytałem gdzieś, ze można zmienić (tu: zmniejszyć) domyślną wartość minimalnej akceptowalnej tolerancji (tj. 0,01), tylko jak to zrobić i czy ten sposób rozwiąże powyższe problemy?
z góry dziękuję za pomoc
pozdrawiam
tomek |
| Ostatnio zmieniony przez mathkit 2008-07-31, 12:45, w całości zmieniany 1 raz |
|
|
|
 |
Google
|
Wysłany: Reklama google.
|
|
|
|
|
|
|
|
|
Skorka
Starszy Szeregowy Piotr Skorka

Pomógł: 1 raz Posty: 18 Skąd: Kraków
|
Wysłany: 2008-03-29, 23:49
|
|
|
Witam,
Jesli masz sporo zmiennych skorelowanych ze soba i nie chcesz sie ich pozbywac, to mozna z nich obliczyc np pierwsza zmienna skladową. Taka nowa zmienna (zawierająca w pewnym sensie efekty zmiennych skorelowych ze sobą) moze byc potem użyta w analize. Tyczy sie to zreszta nie tylko regresji logistycznej, ale kazdego typu regresji.
Zmienne skladowe da sie wyciagnac chyba w kazdym pakiecie statystycznym, wiec z ich obliczeniem nie powinno byc problemu.
Pozdrawiam
Piotrek |
|
|
|
 |
green power
Szeregowy

Posty: 16 Skąd: Kraków
|
Wysłany: 2008-03-30, 15:13
|
|
|
Dzięki za szybką odpowiedź
Rozumiem, że masz na myśli np. coś ala analiza składowych głównych; również o jej zastosowaniu myślałem, ale niestety nigdy tego nie robiłem (znaczy nie stosowałem PCA ); czy (i jak) da się ją przeprowadzić w pakiecie Statistica 7 ?
dodano:
właśnie znalazłem ją w Stat 7 teraz będę próbował ją rozgryźć, może jakieś wskazówki...? |
|
|
|
 |
cogito
Podporucznik

Pomógł: 30 razy Posty: 297 Skąd: Wrocław
|
Wysłany: 2008-03-30, 16:32
|
|
|
Zmienic minimalna dopuszczalna tolerancje mozna tylko w wyjatkowych sytuacjach, gdy masz bardzo duzo danych (obserwacji nie zmiennych) a i wtedy wymaga to dodatkowej uwagi
zle uwarunkowana macierz prowadzi do bledow w ocenach efektow i generalnie to nie jest dobre rozwiazanie
Pomysl Skorka wydaje sie najrosadniejszy jezeli nie chcesz rezygnowac ze zmiennych, taka regresja z PCA nazywa sie PCR, jest zaimplementowana m.in. w R
nie musisz oczywiscie ograniczac sie do pierwszej skladowej mozesz ich wybrac wiecej
Innym rozwiazaniem jest Bayesowskie podejscie do estymacji ale wymaga to sprecyzowania wielu rzeczy, wiec jezeli tego nie robiles to lepiej nie eksperymentowac na jeszcze zywym pacjencie |
_________________ pozdrawiam
Przemek
www.biecek.pl |
|
|
|
 |
green power
Szeregowy

Posty: 16 Skąd: Kraków
|
Wysłany: 2008-03-30, 19:25
|
|
|
co do PCA będę się jeszcze jutro konsultował, mam za to jeszcze inne pytanie, mianowicie o metodę estymacji w regresji logistycznej - od czego zależy jej wybór i czy wybrać np "quasi-Newtona" czy "Rosenbrocka i quasi-Newtona" (po zastosowaniu tego drugiego przypadku, w jednej z macierzy wyeliminował się błąd złego uwarunkowania!, a wyniki testów, różnią sie jedynie w przypadku zmiennych nadmiarowych, wobec pozostałych są identyczne)
[ Dodano: 2008-11-01, 09:26 ]
witajcie ponownie
tym razem chciałem zapytać o kwestie lingwistyczne - przygotowuję publikację i poszukuję właściwych angielskich tłumaczeń dla statystycznych określeń znajdujących się w wynikach regresji tj.
Stała B0
błąd standardowy
poziom p
poziom istotności
całkowita strata
Ufam, że dla kogoś obytego ze statystycznymi publikacjami nie bedzie z tym kłopotu
z góry dzięki za pomoc
[ Dodano: 2009-02-13, 13:48 ]
Jeszcze jedna kwestia - chciałem zapytać o waloryzację otrzymanych modeli. Jeśli np. otrzymałem trzy modele (zestawy zmiennych), a każdy z nich zawiera po 4 zmienne. Jak teraz sprawdzić, który z nich jest najlepszy. W różnych publikacjach podawany jest "procent przypadków, jaki został przez dany model prawidłowo zaklasyfikowany" (cytat z publikacji: "The resulting models were assessed using goodness-of-fit based on maximum likelihood estimates, and the overall rate of correct classification of the response variable" oraz "The complete set of parameters correctly classified 76,9% of plots occupied (...) and 93,8% of plots unoccupied (...).")
Jak to sprawdzić/obliczyć? Używam STATISTICA 7.
dziękuje za wskazówki |
|
|
|
 |
Pearson
Podporucznik Pearson


Pomógł: 9 razy Posty: 169 Skąd: Wrocław
|
Wysłany: 2009-02-13, 14:35
|
|
|
| Cytat: | | co do PCA będę się jeszcze jutro konsultował, mam za to jeszcze inne pytanie, mianowicie o metodę estymacji w regresji logistycznej - od czego zależy jej wybór i czy wybrać np "quasi-Newtona" czy "Rosenbrocka i quasi-Newtona" (po zastosowaniu tego drugiego przypadku, w jednej z macierzy wyeliminował się błąd złego uwarunkowania!, a wyniki testów, różnią sie jedynie w przypadku zmiennych nadmiarowych, wobec pozostałych są identyczne) |
Chyba sam sobie odpowiedziałeś. Zauważ również, że w metodzie quasi-Newtona stosuje się różne aktualizacji macierzy hessianu, np. DFP, BFGS. Która wybrać - nieraz trzeba poeksperymentować.
| green power napisał/a: |
Stała B0
błąd standardowy
poziom p
poziom istotności
całkowita strata |
intercept
standard error
p-value
significance level
loss ... (a czego to dotyczy?)
| green power napisał/a: | | Jeszcze jedna kwestia - chciałem zapytać o waloryzację otrzymanych modeli. Jeśli np. otrzymałem trzy modele (zestawy zmiennych), a każdy z nich zawiera po 4 zmienne. Jak teraz sprawdzić, który z nich jest najlepszy. |
Nie funkcjonuje taki termin jak waloryzacja. Zapewne chodzi ci o walidację. Tutaj jest duża dowolność, ale warto wykorzystać kilka rzeczy, m.in. te o których wspominasz. Zauważ, że jeśli wykorzystasz test oparty na ilorazie wiarygodności (LRT), wtedy otrzymujesz odpowiedź - tak/nie lepszy/niegorszy. Gdy wykorzystasz kryterium klasyfikacji to sam musisz podjąć decyzję, kiedy powiedzieć, że model A jest lepszy od B. Musisz pamiętać o jednej ważnej rzeczy odnoście testu LRT: modele muszą być hierarchiczne. Gdy nie są, oprócz poprawności klasyfikacji wykorzystaj kryteria informacyjne: AIC, BIC, CAIC, ICOMP itd. |
|
|
|
 |
green power
Szeregowy

Posty: 16 Skąd: Kraków
|
Wysłany: 2009-02-13, 15:38
|
|
|
Dziekuję bardzo za odpowiedź,
| Pearson napisał/a: | | Nie funkcjonuje taki termin jak waloryzacja | być może nie do końca trafnie to określiłem, chodziło mi o waloryzację w sensie wartościowania;
zatem, czy mógłbym prosić o szczegółowe wskazania techniczne jak obliczyć ten procent prawidłowo zaklasyfikowanych przypadków...
i może jeszcze co nieco więcej o tych tajemniczych kryteriach informacyjnych AIC, BIC...
Wybaczcie, że być może pytam o rzeczy prozaiczne, ale nie wykonywałem do tej pory takich testów. |
|
|
|
 |
Pearson
Podporucznik Pearson


Pomógł: 9 razy Posty: 169 Skąd: Wrocław
|
Wysłany: 2009-02-14, 12:09
|
|
|
| green power napisał/a: | | zatem, czy mógłbym prosić o szczegółowe wskazania techniczne jak obliczyć ten procent prawidłowo zaklasyfikowanych przypadków... |
Rozumiem, że masz do czynienia z modelem logitowym - jako zmienną zależną masz zmienną binarną. Jeśli tak, to program sam powinien wyrzucić ci taką tabelę poprawności klasyfikacji. Stworzenie samemu takiej tabeli nie jest trudne. Bedzie to tabela 2x2. Załóżmy, że zmienna binarna przyjmuje wartości: 1-Kobieta lub 0-Mężczyzna. Jeśli podstawisz do modelu wartości zmiennych objaśniających (predyktorów) dla kobiety, to otrzymasz prawdopodobieństwo tego, że masz do czynienia z kobietą. Jeśli ono jest większe od 0.5 to faktycznie jest to kobieta, w przeciwnym wypadku mężczyzna. Wtedy zobaczysz, ile poprawnie zaklasyfikowano a ile nie.
| Cytat: | | i może jeszcze co nieco więcej o tych tajemniczych kryteriach informacyjnych AIC, BIC... |
Podam ci nazwy angielskie to sobie znajdziesz: Akaike Information Cirteria, Bayesian Information Criteria. Mogę ci polecić książkę (są tam różne modyfikacje i uogólnienia kryteriów Akaike), jest naprawdę b.dobra: Information Criteria and Statistical Modeling - Sadanori Konishi, Genshiro Kitagawa (Springer 2008). Jeśli chodzi o kryterium bayesowskie to warto zapoznać się z artykułami:
Kass, R.E. and Raftery, A.E. (1995). Bayes factors. Journal of the American Statistical Association, 90, 773-795.
Raftery, A.E. (1995). Bayesian model selection in social research (with Discussion). Sociological Methodology, 25, 111-196.
Fajnie, bo te artykuły są na stronie autora. Warto też zerknąć na inne.
http://www.stat.washingto...blications.html
A w skrócie:
AIC=-2logL+2r
BIC=-2logL+rlogN
L- f.wiarygodności
r- liczba estymowanych parametrów
N- rozmiar próby
Powodzenia |
|
|
|
 |
green power
Szeregowy

Posty: 16 Skąd: Kraków
|
Wysłany: 2009-06-17, 13:35
|
|
|
Wracając raz jeszcze do kryteriów AIC, BIC - czy mają one zastosowanie w przypadku, gdy nie wszystkie parametry modeli mają rozkład ciągły (są tam np. zmienne dychotomiczne 0/1, jak w modelach regresji logistycznej)? Spotkałem się bowiem w kilku artykułach nt kryterium Akaike, że ma ono zastosowanie tylko w przypadku, gdy parametry modeli mają rozkład ciągły.
z góry dziękuję za odpowiedź |
|
|
|
 |
Pearson
Podporucznik Pearson


Pomógł: 9 razy Posty: 169 Skąd: Wrocław
|
Wysłany: 2009-06-17, 14:47
|
|
|
| green power napisał/a: | | Spotkałem się bowiem w kilku artykułach nt kryterium Akaike, że ma ono zastosowanie tylko w przypadku, gdy parametry modeli mają rozkład ciągły. |
Chętnie się z nimi zapoznam. Jak masz skonstruowaną funkcję wiarygodności to nie ma żadnego problemu. Zresztą koncepcja AIC opiera się na informacji Kulbacka-Leiblera, a ta nie jest zarezerwowana dla rozkładów ciągłych. Tym bardziej chciałbym zobaczyć te artykuły. |
|
|
|
 |
green power
Szeregowy

Posty: 16 Skąd: Kraków
|
Wysłany: 2009-06-17, 17:07
|
|
|
| Pearson napisał/a: | | Chętnie się z nimi zapoznam. Jak masz skonstruowaną funkcję wiarygodności to nie ma żadnego problemu. Zresztą koncepcja AIC opiera się na informacji Kulbacka-Leiblera, a ta nie jest zarezerwowana dla rozkładów ciągłych. Tym bardziej chciałbym zobaczyć te artykuły. |
No właśnie, też miałem wątpliwości, dlatego zapytałem. Być może coś źle zrozumiałem, ale jest o tym mowa np. tu. Jest to co prawda "tylko" praca mgr, ale w zakończeniu jest odwołanie do prac naukowych i stwierdzenie: AIC ma zastosowanie tylko do zagadnień, w których parametry modeli mają rozkład ciągły. |
|
|
|
 |
Pearson
Podporucznik Pearson


Pomógł: 9 razy Posty: 169 Skąd: Wrocław
|
Wysłany: 2009-06-17, 22:02
|
|
|
| green power napisał/a: | | No właśnie, też miałem wątpliwości, dlatego zapytałem. Być może coś źle zrozumiałem, ale jest o tym mowa np. tu. Jest to co prawda "tylko" praca mgr, ale w zakończeniu jest odwołanie do prac naukowych i stwierdzenie: AIC ma zastosowanie tylko do zagadnień, w których parametry modeli mają rozkład ciągły. |
Dopiero teraz zwróciłem na to uwagę: autor pisze o ROZKŁADACH PARAMETRÓW, a nie rozkładzie zmiennych losowych. To tym bardziej dziwi, gdyż to nie bayesowskie podejście. Coś miesza. Widzę również, że jest problem z tłumaczeniem angielskich terminów. Nie mówi się, że "Konsystentna wersja AIC to CAIC" tylko zgodna (od pojęcia z teorii estymacji). |
|
|
|
 |
green power
Szeregowy

Posty: 16 Skąd: Kraków
|
Wysłany: 2009-06-18, 08:04
|
|
|
| Pearson napisał/a: | | Dopiero teraz zwróciłem na to uwagę: autor pisze o ROZKŁADACH PARAMETRÓW, a nie rozkładzie zmiennych losowych. To tym bardziej dziwi, gdyż to nie bayesowskie podejście. Coś miesza. Widzę również, że jest problem z tłumaczeniem angielskich terminów. Nie mówi się, że "Konsystentna wersja AIC to CAIC" tylko zgodna (od pojęcia z teorii estymacji). | Dzięki, też dopiero później zauważyłem, że chodzi o rozkłady parametrów.
| Skorka napisał/a: | | Jesli masz sporo zmiennych skorelowanych ze soba i nie chcesz sie ich pozbywac, to mozna z nich obliczyc np pierwsza zmienna skladową. Taka nowa zmienna (zawierająca w pewnym sensie efekty zmiennych skorelowych ze sobą) moze byc potem użyta w analize. Tyczy sie to zreszta nie tylko regresji logistycznej, ale kazdego typu regresji. | a jeszcze a propos PCA - załóżmy, że któraś z wejściowych zmiennych (nazwijmy ją - X) wyjaśnianych (reprezentowanych) przez PCA1 jest z nią skorelowana ujemnie. Jeśli teraz owej PCA1 użyjemy np. regresji logistycznej i okaże się, że wpływ tej zmiennej składowej na zmienną zależną jest ujemny, to wspominana zmienna X (skorelowana ujemnie z PCA1) będzie w rzeczywistości na zmienną zależną wpływać dodatnio...?
Mam nadzieje, że nie skomplikowałem za bardzo... |
|
|
|
 |
Pearson
Podporucznik Pearson


Pomógł: 9 razy Posty: 169 Skąd: Wrocław
|
Wysłany: 2009-06-18, 09:26
|
|
|
| green power napisał/a: | | Mam nadzieje, że nie skomplikowałem za bardzo... |
Czytając robię tzw. skimming, więc nie za bardzo wiem o co pytasz
Może dorzucę coś od siebie. Jeśli zmienne są bardzo silnie ze sobą skorelowane, np. na poziomie 0.95 to po co stosować PCA i włączać składowe zamiast zmiennych do modelu? Wybierz zmienne i zbuduj model. Musisz pamiętać, że interpretacja przy PCA będzie utrudniona. |
|
|
|
 |
green power
Szeregowy

Posty: 16 Skąd: Kraków
|
Wysłany: 2009-06-18, 10:49
|
|
|
| Pearson napisał/a: | | Czytając robię tzw. skimming, więc nie za bardzo wiem o co pytasz |
| Pearson napisał/a: | | Musisz pamiętać, że interpretacja przy PCA będzie utrudniona. | właśnie o ową interpretację mi chodzi ; mam kilka zmiennych skorelowanych ze sobą na poziomie 0,60-0,80 (istotność nawet przy p = 0,00001), zmienne te korelują dodatkowo z PCA1 na poziomie 0,78-0,85. Oczywiście budowałem już modele na "surowych" zmiennych, ale największy istotny model jaki otrzymałem zawierał tylko dwie zmienne wyjaśniające. Stosując dodatkowo miary proste jak np. U-test czy ch^2 okazało się, że większość zmiennych (jest ich 12) istotnie różnicuje badane grupy. I chyba właśnie z uwagi na kolinearność predyktorów ciężko o liczniejszy model regresji. W celu obejścia tego chciałem do analizy włączyć składową... Chyba, że jest jakiś inny sposób, by więcej zmiennych "weszło w model"... |
|
|
|
 |
|
|
Nie możesz pisać nowych tematów Nie możesz odpowiadać w tematach Nie możesz zmieniać swoich postów Nie możesz usuwać swoich postów Nie możesz głosować w ankietach Nie możesz załączać plików na tym forum Możesz ściągać załączniki na tym forum
|
Dodaj temat do Ulubionych zakładek(IE) Wersja do druku
|
salon fryzjerski warszawa |mieszkania w suwałkach | Ogłoszenia Podlasie | implanty | Bukmacherzy | Liga Polska | numizmatyka | Typy bukmacherskie | betterware | bilety autokarowe | wynajem agregatów prądotwórczych | forum | portal studencki | płyty warstwowe | bronze crane statues | fotografia ślubna szczecin | alufelgi chromowane | okulary przeciwsłoneczne | rolety | hotel poznań | restauracja poznań | Ogrody Warszawa | strony internetowe olsztyn | stairlift | Patelnia elektryczna | Kosmetyki naturalne Florame | Radiografia | Nauka Jazdy Warszawa | konferansjer | | | Strona wygenerowana w 0,5 sekundy. Zapytań do SQL: 9 |
|
|