Statystyka, prognozowanie, ekonometria, data mining
Reklama analizy statystyczne, statystyka, analiza wyników badań
Statystyka, prognozowanie, ekonometria, data mining
Forum miłośników statystyki - Statystycy całego Świata - Łączcie się :-)

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  Programy statystyczneProgramy statystyczne  DownloadDownload
 Ogłoszenie 
Zanim napiszesz posta zapoznaj się z regulaminem forum Zalecamy korzystać z TEX'a przy pisaniu wzorów Zlot użytkowników R - WZUR 3.0

Poprzedni temat «» Następny temat
regresja logistyczna
Autor Wiadomość
green power 
Szeregowy


Posty: 16
Skąd: Kraków
Wysłany: 2008-03-29, 19:01   regresja logistyczna

Witam!
Mam do Was moi mili pytanie nt. błędów jakie pojawiają sie przy stosowaniu w/w regresji. Chodzi mi tu o zbieżne ze sobą błędy "złego uwarunkowania macierzy" i "zmiennych niezależnych nadmiarowych". Wobec powyższych pewne zmienne w mojej analizie są redundantne, a więc nadmiarowe wobec pozostałych (mogą być poprzez nie wyrażone). Z matematycznego pkt widzenia ok. Prowadzę jednak badania przyrodnicze i z tego właśnie punktu widzenia wyeliminowanie niektórych zmiennych nie jest w mojej opinii pożądane (i tak już znaczną ilość zmiennych wyeliminowałem, upraszczając statystykę) i wolałbym je pozostawić w analizie. Jak zatem pozbyć się w wspomnianych błędów. Wyczytałem gdzieś, ze można zmienić (tu: zmniejszyć) domyślną wartość minimalnej akceptowalnej tolerancji (tj. 0,01), tylko jak to zrobić i czy ten sposób rozwiąże powyższe problemy?
z góry dziękuję za pomoc

pozdrawiam
tomek
Ostatnio zmieniony przez mathkit 2008-07-31, 12:45, w całości zmieniany 1 raz  
 
 
     
Google

Wysłany:    Reklama google.

 
 
Skorka 
Starszy Szeregowy
Piotr Skorka


Pomógł: 1 raz
Posty: 18
Skąd: Kraków
Wysłany: 2008-03-29, 23:49   

Witam,
Jesli masz sporo zmiennych skorelowanych ze soba i nie chcesz sie ich pozbywac, to mozna z nich obliczyc np pierwsza zmienna skladową. Taka nowa zmienna (zawierająca w pewnym sensie efekty zmiennych skorelowych ze sobą) moze byc potem użyta w analize. Tyczy sie to zreszta nie tylko regresji logistycznej, ale kazdego typu regresji.
Zmienne skladowe da sie wyciagnac chyba w kazdym pakiecie statystycznym, wiec z ich obliczeniem nie powinno byc problemu.
Pozdrawiam
Piotrek
 
 
     
green power 
Szeregowy


Posty: 16
Skąd: Kraków
Wysłany: 2008-03-30, 15:13   

Dzięki za szybką odpowiedź
Rozumiem, że masz na myśli np. coś ala analiza składowych głównych; również o jej zastosowaniu myślałem, ale niestety nigdy tego nie robiłem (znaczy nie stosowałem PCA ;-) ); czy (i jak) da się ją przeprowadzić w pakiecie Statistica 7 ?

dodano:

właśnie znalazłem ją w Stat 7 :-) teraz będę próbował ją rozgryźć, może jakieś wskazówki...?
 
 
     
cogito 
Podporucznik


Pomógł: 30 razy
Posty: 297
Skąd: Wrocław
Wysłany: 2008-03-30, 16:32   

Zmienic minimalna dopuszczalna tolerancje mozna tylko w wyjatkowych sytuacjach, gdy masz bardzo duzo danych (obserwacji nie zmiennych) a i wtedy wymaga to dodatkowej uwagi
zle uwarunkowana macierz prowadzi do bledow w ocenach efektow i generalnie to nie jest dobre rozwiazanie

Pomysl Skorka wydaje sie najrosadniejszy jezeli nie chcesz rezygnowac ze zmiennych, taka regresja z PCA nazywa sie PCR, jest zaimplementowana m.in. w R
nie musisz oczywiscie ograniczac sie do pierwszej skladowej mozesz ich wybrac wiecej

Innym rozwiazaniem jest Bayesowskie podejscie do estymacji ale wymaga to sprecyzowania wielu rzeczy, wiec jezeli tego nie robiles to lepiej nie eksperymentowac na jeszcze zywym pacjencie
_________________
pozdrawiam
Przemek
www.biecek.pl
 
     
green power 
Szeregowy


Posty: 16
Skąd: Kraków
Wysłany: 2008-03-30, 19:25   

co do PCA będę się jeszcze jutro konsultował, mam za to jeszcze inne pytanie, mianowicie o metodę estymacji w regresji logistycznej - od czego zależy jej wybór i czy wybrać np "quasi-Newtona" czy "Rosenbrocka i quasi-Newtona" (po zastosowaniu tego drugiego przypadku, w jednej z macierzy wyeliminował się błąd złego uwarunkowania!, a wyniki testów, różnią sie jedynie w przypadku zmiennych nadmiarowych, wobec pozostałych są identyczne)

[ Dodano: 2008-11-01, 09:26 ]
witajcie ponownie
tym razem chciałem zapytać o kwestie lingwistyczne - przygotowuję publikację i poszukuję właściwych angielskich tłumaczeń dla statystycznych określeń znajdujących się w wynikach regresji tj.

Stała B0
błąd standardowy
poziom p
poziom istotności
całkowita strata

Ufam, że dla kogoś obytego ze statystycznymi publikacjami nie bedzie z tym kłopotu

z góry dzięki za pomoc

[ Dodano: 2009-02-13, 13:48 ]
Jeszcze jedna kwestia - chciałem zapytać o waloryzację otrzymanych modeli. Jeśli np. otrzymałem trzy modele (zestawy zmiennych), a każdy z nich zawiera po 4 zmienne. Jak teraz sprawdzić, który z nich jest najlepszy. W różnych publikacjach podawany jest "procent przypadków, jaki został przez dany model prawidłowo zaklasyfikowany" (cytat z publikacji: "The resulting models were assessed using goodness-of-fit based on maximum likelihood estimates, and the overall rate of correct classification of the response variable" oraz "The complete set of parameters correctly classified 76,9% of plots occupied (...) and 93,8% of plots unoccupied (...).")
Jak to sprawdzić/obliczyć? Używam STATISTICA 7.
dziękuje za wskazówki
 
 
     
Pearson 
Podporucznik
Pearson



Pomógł: 9 razy
Posty: 169
Skąd: Wrocław
Wysłany: 2009-02-13, 14:35   

Cytat:
co do PCA będę się jeszcze jutro konsultował, mam za to jeszcze inne pytanie, mianowicie o metodę estymacji w regresji logistycznej - od czego zależy jej wybór i czy wybrać np "quasi-Newtona" czy "Rosenbrocka i quasi-Newtona" (po zastosowaniu tego drugiego przypadku, w jednej z macierzy wyeliminował się błąd złego uwarunkowania!, a wyniki testów, różnią sie jedynie w przypadku zmiennych nadmiarowych, wobec pozostałych są identyczne)


Chyba sam sobie odpowiedziałeś. Zauważ również, że w metodzie quasi-Newtona stosuje się różne aktualizacji macierzy hessianu, np. DFP, BFGS. Która wybrać - nieraz trzeba poeksperymentować.
green power napisał/a:

Stała B0
błąd standardowy
poziom p
poziom istotności
całkowita strata

intercept
standard error
p-value
significance level
loss ... (a czego to dotyczy?)

green power napisał/a:
Jeszcze jedna kwestia - chciałem zapytać o waloryzację otrzymanych modeli. Jeśli np. otrzymałem trzy modele (zestawy zmiennych), a każdy z nich zawiera po 4 zmienne. Jak teraz sprawdzić, który z nich jest najlepszy.

Nie funkcjonuje taki termin jak waloryzacja. Zapewne chodzi ci o walidację. Tutaj jest duża dowolność, ale warto wykorzystać kilka rzeczy, m.in. te o których wspominasz. Zauważ, że jeśli wykorzystasz test oparty na ilorazie wiarygodności (LRT), wtedy otrzymujesz odpowiedź - tak/nie lepszy/niegorszy. Gdy wykorzystasz kryterium klasyfikacji to sam musisz podjąć decyzję, kiedy powiedzieć, że model A jest lepszy od B. Musisz pamiętać o jednej ważnej rzeczy odnoście testu LRT: modele muszą być hierarchiczne. Gdy nie są, oprócz poprawności klasyfikacji wykorzystaj kryteria informacyjne: AIC, BIC, CAIC, ICOMP itd.
 
     
green power 
Szeregowy


Posty: 16
Skąd: Kraków
Wysłany: 2009-02-13, 15:38   

Dziekuję bardzo za odpowiedź,

Pearson napisał/a:
Nie funkcjonuje taki termin jak waloryzacja
być może nie do końca trafnie to określiłem, chodziło mi o waloryzację w sensie wartościowania;

zatem, czy mógłbym prosić o szczegółowe wskazania techniczne jak obliczyć ten procent prawidłowo zaklasyfikowanych przypadków...

i może jeszcze co nieco więcej o tych tajemniczych kryteriach informacyjnych AIC, BIC...

Wybaczcie, że być może pytam o rzeczy prozaiczne, ale nie wykonywałem do tej pory takich testów.
 
 
     
Pearson 
Podporucznik
Pearson



Pomógł: 9 razy
Posty: 169
Skąd: Wrocław
Wysłany: 2009-02-14, 12:09   

green power napisał/a:
zatem, czy mógłbym prosić o szczegółowe wskazania techniczne jak obliczyć ten procent prawidłowo zaklasyfikowanych przypadków...

Rozumiem, że masz do czynienia z modelem logitowym - jako zmienną zależną masz zmienną binarną. Jeśli tak, to program sam powinien wyrzucić ci taką tabelę poprawności klasyfikacji. Stworzenie samemu takiej tabeli nie jest trudne. Bedzie to tabela 2x2. Załóżmy, że zmienna binarna przyjmuje wartości: 1-Kobieta lub 0-Mężczyzna. Jeśli podstawisz do modelu wartości zmiennych objaśniających (predyktorów) dla kobiety, to otrzymasz prawdopodobieństwo tego, że masz do czynienia z kobietą. Jeśli ono jest większe od 0.5 to faktycznie jest to kobieta, w przeciwnym wypadku mężczyzna. Wtedy zobaczysz, ile poprawnie zaklasyfikowano a ile nie.
Cytat:
i może jeszcze co nieco więcej o tych tajemniczych kryteriach informacyjnych AIC, BIC...

Podam ci nazwy angielskie to sobie znajdziesz: Akaike Information Cirteria, Bayesian Information Criteria. Mogę ci polecić książkę (są tam różne modyfikacje i uogólnienia kryteriów Akaike), jest naprawdę b.dobra: Information Criteria and Statistical Modeling - Sadanori Konishi, Genshiro Kitagawa (Springer 2008). Jeśli chodzi o kryterium bayesowskie to warto zapoznać się z artykułami:
Kass, R.E. and Raftery, A.E. (1995). Bayes factors. Journal of the American Statistical Association, 90, 773-795.
Raftery, A.E. (1995). Bayesian model selection in social research (with Discussion). Sociological Methodology, 25, 111-196.

Fajnie, bo te artykuły są na stronie autora. Warto też zerknąć na inne.
http://www.stat.washingto...blications.html

A w skrócie:
AIC=-2logL+2r
BIC=-2logL+rlogN

L- f.wiarygodności
r- liczba estymowanych parametrów
N- rozmiar próby

Powodzenia
 
     
green power 
Szeregowy


Posty: 16
Skąd: Kraków
Wysłany: 2009-06-17, 13:35   

Wracając raz jeszcze do kryteriów AIC, BIC - czy mają one zastosowanie w przypadku, gdy nie wszystkie parametry modeli mają rozkład ciągły (są tam np. zmienne dychotomiczne 0/1, jak w modelach regresji logistycznej)? Spotkałem się bowiem w kilku artykułach nt kryterium Akaike, że ma ono zastosowanie tylko w przypadku, gdy parametry modeli mają rozkład ciągły.
z góry dziękuję za odpowiedź
 
 
     
Pearson 
Podporucznik
Pearson



Pomógł: 9 razy
Posty: 169
Skąd: Wrocław
Wysłany: 2009-06-17, 14:47   

green power napisał/a:
Spotkałem się bowiem w kilku artykułach nt kryterium Akaike, że ma ono zastosowanie tylko w przypadku, gdy parametry modeli mają rozkład ciągły.

Chętnie się z nimi zapoznam. Jak masz skonstruowaną funkcję wiarygodności to nie ma żadnego problemu. Zresztą koncepcja AIC opiera się na informacji Kulbacka-Leiblera, a ta nie jest zarezerwowana dla rozkładów ciągłych. Tym bardziej chciałbym zobaczyć te artykuły.
 
     
green power 
Szeregowy


Posty: 16
Skąd: Kraków
Wysłany: 2009-06-17, 17:07   

Pearson napisał/a:
Chętnie się z nimi zapoznam. Jak masz skonstruowaną funkcję wiarygodności to nie ma żadnego problemu. Zresztą koncepcja AIC opiera się na informacji Kulbacka-Leiblera, a ta nie jest zarezerwowana dla rozkładów ciągłych. Tym bardziej chciałbym zobaczyć te artykuły.

No właśnie, też miałem wątpliwości, dlatego zapytałem. Być może coś źle zrozumiałem, ale jest o tym mowa np. tu. Jest to co prawda "tylko" praca mgr, ale w zakończeniu jest odwołanie do prac naukowych i stwierdzenie: AIC ma zastosowanie tylko do zagadnień, w których parametry modeli mają rozkład ciągły.
 
 
     
Pearson 
Podporucznik
Pearson



Pomógł: 9 razy
Posty: 169
Skąd: Wrocław
Wysłany: 2009-06-17, 22:02   

green power napisał/a:
No właśnie, też miałem wątpliwości, dlatego zapytałem. Być może coś źle zrozumiałem, ale jest o tym mowa np. tu. Jest to co prawda "tylko" praca mgr, ale w zakończeniu jest odwołanie do prac naukowych i stwierdzenie: AIC ma zastosowanie tylko do zagadnień, w których parametry modeli mają rozkład ciągły.

Dopiero teraz zwróciłem na to uwagę: autor pisze o ROZKŁADACH PARAMETRÓW, a nie rozkładzie zmiennych losowych. To tym bardziej dziwi, gdyż to nie bayesowskie podejście. Coś miesza. Widzę również, że jest problem z tłumaczeniem angielskich terminów. Nie mówi się, że "Konsystentna wersja AIC to CAIC" tylko zgodna (od pojęcia z teorii estymacji).
 
     
green power 
Szeregowy


Posty: 16
Skąd: Kraków
Wysłany: 2009-06-18, 08:04   

Pearson napisał/a:
Dopiero teraz zwróciłem na to uwagę: autor pisze o ROZKŁADACH PARAMETRÓW, a nie rozkładzie zmiennych losowych. To tym bardziej dziwi, gdyż to nie bayesowskie podejście. Coś miesza. Widzę również, że jest problem z tłumaczeniem angielskich terminów. Nie mówi się, że "Konsystentna wersja AIC to CAIC" tylko zgodna (od pojęcia z teorii estymacji).
Dzięki, też dopiero później zauważyłem, że chodzi o rozkłady parametrów.

Skorka napisał/a:
Jesli masz sporo zmiennych skorelowanych ze soba i nie chcesz sie ich pozbywac, to mozna z nich obliczyc np pierwsza zmienna skladową. Taka nowa zmienna (zawierająca w pewnym sensie efekty zmiennych skorelowych ze sobą) moze byc potem użyta w analize. Tyczy sie to zreszta nie tylko regresji logistycznej, ale kazdego typu regresji.
a jeszcze a propos PCA - załóżmy, że któraś z wejściowych zmiennych (nazwijmy ją - X) wyjaśnianych (reprezentowanych) przez PCA1 jest z nią skorelowana ujemnie. Jeśli teraz owej PCA1 użyjemy np. regresji logistycznej i okaże się, że wpływ tej zmiennej składowej na zmienną zależną jest ujemny, to wspominana zmienna X (skorelowana ujemnie z PCA1) będzie w rzeczywistości na zmienną zależną wpływać dodatnio...?
Mam nadzieje, że nie skomplikowałem za bardzo...
 
 
     
Pearson 
Podporucznik
Pearson



Pomógł: 9 razy
Posty: 169
Skąd: Wrocław
Wysłany: 2009-06-18, 09:26   

green power napisał/a:
Mam nadzieje, że nie skomplikowałem za bardzo...

Czytając robię tzw. skimming, więc nie za bardzo wiem o co pytasz :lol:
Może dorzucę coś od siebie. Jeśli zmienne są bardzo silnie ze sobą skorelowane, np. na poziomie 0.95 to po co stosować PCA i włączać składowe zamiast zmiennych do modelu? Wybierz zmienne i zbuduj model. Musisz pamiętać, że interpretacja przy PCA będzie utrudniona.
 
     
green power 
Szeregowy


Posty: 16
Skąd: Kraków
Wysłany: 2009-06-18, 10:49   

Pearson napisał/a:
Czytając robię tzw. skimming, więc nie za bardzo wiem o co pytasz
:mrgreen:
Pearson napisał/a:
Musisz pamiętać, że interpretacja przy PCA będzie utrudniona.
właśnie o ową interpretację mi chodzi :-) ; mam kilka zmiennych skorelowanych ze sobą na poziomie 0,60-0,80 (istotność nawet przy p = 0,00001), zmienne te korelują dodatkowo z PCA1 na poziomie 0,78-0,85. Oczywiście budowałem już modele na "surowych" zmiennych, ale największy istotny model jaki otrzymałem zawierał tylko dwie zmienne wyjaśniające. Stosując dodatkowo miary proste jak np. U-test czy ch^2 okazało się, że większość zmiennych (jest ich 12) istotnie różnicuje badane grupy. I chyba właśnie z uwagi na kolinearność predyktorów ciężko o liczniejszy model regresji. W celu obejścia tego chciałem do analizy włączyć składową... Chyba, że jest jakiś inny sposób, by więcej zmiennych "weszło w model"...
 
 
     
Wyświetl posty z ostatnich:   
Odpowiedz do tematu
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych zakładek(IE)
Wersja do druku

Skocz do:  

Powered by phpBB modified by Przemo © 2003 phpBB Group
salon fryzjerski warszawa |mieszkania w suwałkach | Ogłoszenia Podlasie | implanty | Bukmacherzy | Liga Polska | numizmatyka | Typy bukmacherskie | betterware | bilety autokarowe | wynajem agregatów prądotwórczych | forum | portal studencki | płyty warstwowe | bronze crane statues | fotografia ślubna szczecin | alufelgi chromowane | okulary przeciwsłoneczne | rolety | hotel poznań | restauracja poznań | Ogrody Warszawa | strony internetowe olsztyn | stairlift | Patelnia elektryczna | Kosmetyki naturalne Florame | Radiografia | Nauka Jazdy Warszawa | konferansjer |
Strona wygenerowana w 0,5 sekundy. Zapytań do SQL: 9