Statystyka, prognozowanie, ekonometria, data mining
Reklama analizy statystyczne, statystyka, analiza wyników badań
Statystyka, prognozowanie, ekonometria, data mining
Forum miłośników statystyki - Statystycy całego Świata - Łączcie się :-)

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  Programy statystyczneProgramy statystyczne  DownloadDownload
 Ogłoszenie 
Zanim napiszesz posta zapoznaj się z regulaminem forum Zalecamy korzystać z TEX'a przy pisaniu wzorów Zlot użytkowników R - WZUR 3.0

Poprzedni temat «» Następny temat
Rozład dwugarbny :)
Autor Wiadomość
plynny 
Szeregowy


Posty: 19
Skąd: Andrychów
Wysłany: 2009-11-03, 23:26   Rozład dwugarbny :)

Pierwszy mój post to na początku się przywitam serdecznie, czasami będę Was zanudzał swoimi problemami.

Pierwszy z problemów to fakt że mam dane których wykres posiada dwa wyraźne maxima dość od siebie oddalone, dlatego branie średniej nie ma najmniejszego sensu.
W jaki sposób postępować z takimi danymi jeśli chcemy obliczyć prawdopodobieństwo?
przy rozkładzie normalnym nie ma problemu, ale jak sobie poradzić z takimi danymi?
Czy można jakoś sprowadzić taki rozkład do postaci normalnej?
Jeśli zaś podzielić na dwa to w którym miejscu przeciąć?
Ostatnio zmieniony przez mathkit 2009-11-04, 16:12, w całości zmieniany 1 raz  
 
     
Google

Wysłany:    Reklama google.

 
 
Shidley 
Major
Shidley



Pomógł: 65 razy
Wiek: 39
Posty: 1280
Skąd: Gdańsk
Wysłany: 2009-11-04, 12:10   

rozkłady dwu (bi) modalne są najczęściej sztucznie tworzonymi rozkładami - oczywiście nie ma sensu liczenia średniej jak i dominanty ;-)
_________________
Każdy ma to na co zasłużył...
 
     
Maro 
Podporucznik


Pomógł: 9 razy
Posty: 340
Skąd: Nisko
Wysłany: 2009-11-04, 13:37   

a prawdopodobieństwo da się w takich przypadkach wyznaczyć inaczej niż empirycznie (*a posteriori)?
 
 
     
Shidley 
Major
Shidley



Pomógł: 65 razy
Wiek: 39
Posty: 1280
Skąd: Gdańsk
Wysłany: 2009-11-04, 14:30   

chyba się nie da... powiem szczerze nie zajmowałem się taki problemem... może inny z forumowiczów?
_________________
Każdy ma to na co zasłużył...
 
     
bstq 
Chorąży


Pomógł: 9 razy
Posty: 108
Skąd: Warszawa
Wysłany: 2009-11-04, 15:09   

a może estymatorem jądrowym?
w jakim programie chcesz to robić?
 
     
Crunchy 
Porucznik
Crunchy


Pomógł: 40 razy
Posty: 503
Skąd: Katowice
Wysłany: 2009-11-04, 20:33   Re: Rozład dwugarbny :)

plynny napisał/a:
Jeśli zaś podzielić na dwa to w którym miejscu przeciąć?

Jeżeli masz więcej cech (zmiennych) opisujących badane obiekty, to musisz się zastanowić, co może być przyczyną takiego rozkładu i próbować dzielić je ze względu na (i tu stawiamy hipotezę). Na przykład, mam rozkład ilości minut poświęcanych tygodniowo na spacer. Uruchamiamy mózg i się zastanawiamy, wiek i bycie w związku? Posiadanie psa? Sam wiek? Posiadanie lub brak samochodu? :lol: itd. Taki podział ma sens kiedy próba jest spora >50-70 i widzisz, że rozkłady są symetryczne. Przy małych próbach, należałoby je raczej powiększyć niż dzielić. Przy braku innych cech, można spróbować dopasować rozkłady i próbować zrekonstruować mając tylko połowę rozkładu względem wartości maksymalnej, jeżeli ma to oczywiście sens.
 
     
plynny 
Szeregowy


Posty: 19
Skąd: Andrychów
Wysłany: 2009-11-04, 23:33   



Tak wygląda wykres, trochę zaszalałem z kolorami ale dopiero się uczę R :), wysokość to ilość, a słupek to ilość lat, jeszcze nie znalazłem gdzie się wstawia wartości na osi x.

Średnia- 45.88083
Odchylenie- 15.44371

Ale jak widać nie ma sensu tych wartości wyliczać.
Skąd taki rozkład? Klienci którzy przychodzą z ulicy po prostu tacy są :)
A wielkość próby to ponad kilkadziesiąt- kilkaset tysięcy.
Od wczoraj przejrzałem książkę pana Biecka na temat nauki programu R, byłem w szoku jak zobaczyłem bardzo podobny wykres (rysunek 3.3 strona 132), też odnoszący się do wieku osób. Widocznie nasze społeczeństwo tak ma.
Dlatego dzielić to raczej nie ma sensu.
Trudno przy takim rozkładzie określić czy np próbka 100 osób jest wylosowana z tego zbioru czy nie.
 
     
Crunchy 
Porucznik
Crunchy


Pomógł: 40 razy
Posty: 503
Skąd: Katowice
Wysłany: 2009-11-04, 23:54   

plynny napisał/a:
Trudno przy takim rozkładzie określić czy np próbka 100 osób jest wylosowana z tego zbioru czy nie.

Zadaj pytanie, bo nie bardzo rozumiem o co chodzi... jeżeli taki rozkład pochodzi z próby 100 osób to raczej znaczy, że populacja tak wygląda. I oczywiście warto dzielić, bo nie zawsze różne grupy wiekowe mają np. te same preferencje. Wiek i płeć to dwie podstawowe ("naturalne") sposoby podziału.
 
     
plynny 
Szeregowy


Posty: 19
Skąd: Andrychów
Wysłany: 2009-11-05, 00:14   

Może zły przykład podałem, chodzi mi raczej czy takie dane mogą się poddawać dalszej obróbce statystycznej bo takie miary jak średnia czy odchylenie nie są w stanie dobrze określić tego zbioru.
A z tą próbką to chodzi: Proszę kogoś by wylosować 1000 osób z tego zbioru i zachować rozkład lat. Dostaje tą próbkę ale mam wątpliwości czy to zostało wylosowane czy po prostu losowanie polegało wybraniu 1000 z brzegu. Czy jest wiec test który by powiedział, z takim to a takim prawdopodobieństwem ta próbka została wylosowana a z takim to a takim że ktoś się nie przyłożył do roboty.

Po za tym średnia to 46 lat, więc można założyć że to nasi najlepsi klienci. Podczas gdy najliczniejsze grupy to 30-34 i 51-54 lat (te dwa szczyty to tam wypadają).
Dlatego być może niektóre modele statystyczne nie mogą być brane pod uwagę z uwagi na to ze nie jest to rozkład normalny.
 
     
Maro 
Podporucznik


Pomógł: 9 razy
Posty: 340
Skąd: Nisko
Wysłany: 2009-11-05, 01:48   

plynny napisał/a:
czy takie dane mogą się poddawać dalszej obróbce statystycznej bo takie miary jak średnia czy odchylenie nie są w stanie dobrze określić tego zbioru.
Tak. Można. Do tego celu służą procedury należące do statystyki nieparametrycznej, nazywanej też czasem odpornościową.

Cytat:
Po za tym średnia to 46 lat, więc można założyć że to nasi najlepsi klienci.
No widzisz właśnie sam, że nie można. Cała statystyka nie opiera sie tylko i wyłącznie na średniej arytmetycznej, więc są sposoby analizy danych które nie mogą lub usilnie nie chcą mieć rozkładu normalnego ;-)

Jeśli chodzi o jakieś metody weryfikacji dopasowania rozkładu do innego niż normalny to Ci nie podpowiem bo się nie znam. No może jeszcze umiem sprawdzić rozkład testem chi kwadrat zgodności rozkładów, ale tutaj to on mi nie pasuje. Chociaż, jakby zrobić przedziały... Nie wiem.

Co do samego rozkładu wieku, to uzyskałem podobne rezultaty kiedy sprawdzałem rozkład wieku ze względu na płeć (bez podziału też tak wygląda, ale mi się już nie chce robić kolejnego wykresu). Dane z jakiegoś dużego sondażu. Chyba PGSS, ale głowy nie dam. Może nie tak skrajnie jak u Ciebie, ale gdzieś się ten drugi "garb" już kształtuje.

wiek1.jpg
Plik ściągnięto 51 raz(y) 30,51 KB

 
 
     
plynny 
Szeregowy


Posty: 19
Skąd: Andrychów
Wysłany: 2009-11-05, 10:27   

Maro napisał/a:
plynny napisał/a:
czy takie dane mogą się poddawać dalszej obróbce statystycznej bo takie miary jak średnia czy odchylenie nie są w stanie dobrze określić tego zbioru.
Tak. Można. Do tego celu służą procedury należące do statystyki nieparametrycznej, nazywanej też czasem odpornościową.

Cytat:
Po za tym średnia to 46 lat, więc można założyć że to nasi najlepsi klienci.
No widzisz właśnie sam, że nie można. Cała statystyka nie opiera sie tylko i wyłącznie na średniej arytmetycznej, więc są sposoby analizy danych które nie mogą lub usilnie nie chcą mieć rozkładu normalnego ;-)


Dzięki za wskazanie "statystyki nieparametrycznej, nazywanej też czasem odpornościową" poszukam na wiki, google, podręcznikach do R może uda mi się to rozgryźć.
A z tym najlepszym wiekiem 46 to oczywiście było wskazanie tego że sama średnia nie jest w tym przypadku miarodajna.
 
     
bstq 
Chorąży


Pomógł: 9 razy
Posty: 108
Skąd: Warszawa
Wysłany: 2009-11-05, 12:55   

plynny napisał/a:
A z tą próbką to chodzi: Proszę kogoś by wylosować 1000 osób z tego zbioru i zachować rozkład lat. Dostaje tą próbkę ale mam wątpliwości czy to zostało wylosowane czy po prostu losowanie polegało wybraniu 1000 z brzegu. Czy jest wiec test który by powiedział, z takim to a takim prawdopodobieństwem ta próbka została wylosowana a z takim to a takim że ktoś się nie przyłożył do roboty.


nie rozumiem chcesz sprawdzac czy wylosowana probka jest "reprezentatywna", czy chcesz wylosować "reprezentatywną" próbkę?:>

a jeśli chodzi o statystykę nieparametryczną to w jej skład wchodzą estymatory jądrowe - przybliżenie gęstości...
 
     
Crunchy 
Porucznik
Crunchy


Pomógł: 40 razy
Posty: 503
Skąd: Katowice
Wysłany: 2009-11-05, 13:33   

plynny napisał/a:
Czy jest wiec test który by powiedział, z takim to a takim prawdopodobieństwem ta próbka została wylosowana a z takim to a takim że ktoś się nie przyłożył do roboty.

Się nazywa
Cytat:
Two-sample Kolmogorov-Smirnov test
 
     
bstq 
Chorąży


Pomógł: 9 razy
Posty: 108
Skąd: Warszawa
Wysłany: 2009-11-05, 14:47   

Crunchy napisał/a:
plynny napisał/a:
Czy jest wiec test który by powiedział, z takim to a takim prawdopodobieństwem ta próbka została wylosowana a z takim to a takim że ktoś się nie przyłożył do roboty.

Się nazywa
Cytat:
Two-sample Kolmogorov-Smirnov test


proponuje lepiej test Andersena - Darlinga, albo najlepszy test Cramera-von Misesa :) test Kolmogorowa-Smirnowa zbyt czesto odrzuca...

[ Dodano: 2009-11-05, 14:49 ]
chodzilo mi czy sa potrzebne jakies metody reprezentacji (teoria probkowania, sampling theory), bo akurat mam to w SAS-ie i moglbym pomoc...
 
     
Crunchy 
Porucznik
Crunchy


Pomógł: 40 razy
Posty: 503
Skąd: Katowice
Wysłany: 2009-11-05, 15:42   

bstq napisał/a:

proponuje lepiej test Andersena - Darlinga, albo najlepszy test Cramera-von Misesa :) test Kolmogorowa-Smirnowa zbyt czesto odrzuca...

I dla mnie to byłby argument za K-S'em właśnie :-D ale najlepiej zrobić sobie samemu symulacje, bo moc tych testów zależy od rozkładu.

gof.tests.png
Plik ściągnięto 51 raz(y) 40,92 KB

 
     
Wyświetl posty z ostatnich:   
Odpowiedz do tematu
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych zakładek(IE)
Wersja do druku

Skocz do:  

Powered by phpBB modified by Przemo © 2003 phpBB Group
salon fryzjerski warszawa |mieszkania w suwałkach | Ogłoszenia Podlasie | implanty | Bukmacherzy | Liga Polska | złoto | Typy bukmacherskie | betterware | bilety autokarowe | wynajem agregatów prądotwórczych | forum | portal studencki | płyty warstwowe | gotowa praca licencjacka | fotografia ślubna szczecin | alufelgi chromowane | okulary przeciwsłoneczne | rolety | hotel poznań | restauracja poznań | Ogrody Warszawa | strony internetowe olsztyn | stairlift | Radiologia cyfrowa | Nauka Jazdy Warszawa | konferansjer | Naprawa maszyn budowlanych | Maszyny budowlane części | sylwester na Słowacji | Kasyno | automyjnia | przetworniki ciśnienia | studio nagrań warszawa | dentysta warszawa | nowoczesne obrazy | |
Strona wygenerowana w 0,28 sekundy. Zapytań do SQL: 12