|
Rozład dwugarbny :) |
| Autor |
Wiadomość |
plynny
Szeregowy

Posty: 17 Skąd: Andrychów
|
Wysłany: 2009-11-03, 23:26 Rozład dwugarbny :)
|
|
|
Pierwszy mój post to na początku się przywitam serdecznie, czasami będę Was zanudzał swoimi problemami.
Pierwszy z problemów to fakt że mam dane których wykres posiada dwa wyraźne maxima dość od siebie oddalone, dlatego branie średniej nie ma najmniejszego sensu.
W jaki sposób postępować z takimi danymi jeśli chcemy obliczyć prawdopodobieństwo?
przy rozkładzie normalnym nie ma problemu, ale jak sobie poradzić z takimi danymi?
Czy można jakoś sprowadzić taki rozkład do postaci normalnej?
Jeśli zaś podzielić na dwa to w którym miejscu przeciąć? |
| Ostatnio zmieniony przez mathkit 2009-11-04, 16:12, w całości zmieniany 1 raz |
|
|
|
 |
Google
|
Wysłany: Reklama google.
|
|
|
|
|
|
|
|
|
Shidley
Major Shidley


Pomógł: 52 razy Wiek: 38 Posty: 1064 Skąd: Gdańsk
|
Wysłany: 2009-11-04, 12:10
|
|
|
rozkłady dwu (bi) modalne są najczęściej sztucznie tworzonymi rozkładami - oczywiście nie ma sensu liczenia średniej jak i dominanty |
_________________ Każdy ma to na co zasłużył... |
|
|
|
 |
Maro
Podporucznik

Pomógł: 9 razy Posty: 322 Skąd: Lublin
|
Wysłany: 2009-11-04, 13:37
|
|
|
| a prawdopodobieństwo da się w takich przypadkach wyznaczyć inaczej niż empirycznie (*a posteriori)? |
|
|
|
 |
Shidley
Major Shidley


Pomógł: 52 razy Wiek: 38 Posty: 1064 Skąd: Gdańsk
|
Wysłany: 2009-11-04, 14:30
|
|
|
| chyba się nie da... powiem szczerze nie zajmowałem się taki problemem... może inny z forumowiczów? |
_________________ Każdy ma to na co zasłużył... |
|
|
|
 |
bstq
Chorąży

Pomógł: 9 razy Posty: 106 Skąd: Warszawa
|
Wysłany: 2009-11-04, 15:09
|
|
|
a może estymatorem jądrowym?
w jakim programie chcesz to robić? |
|
|
|
 |
Crunchy
Porucznik Crunchy

Pomógł: 33 razy Posty: 396 Skąd: Katowice
|
Wysłany: 2009-11-04, 20:33 Re: Rozład dwugarbny :)
|
|
|
| plynny napisał/a: | | Jeśli zaś podzielić na dwa to w którym miejscu przeciąć? |
Jeżeli masz więcej cech (zmiennych) opisujących badane obiekty, to musisz się zastanowić, co może być przyczyną takiego rozkładu i próbować dzielić je ze względu na (i tu stawiamy hipotezę). Na przykład, mam rozkład ilości minut poświęcanych tygodniowo na spacer. Uruchamiamy mózg i się zastanawiamy, wiek i bycie w związku? Posiadanie psa? Sam wiek? Posiadanie lub brak samochodu? itd. Taki podział ma sens kiedy próba jest spora >50-70 i widzisz, że rozkłady są symetryczne. Przy małych próbach, należałoby je raczej powiększyć niż dzielić. Przy braku innych cech, można spróbować dopasować rozkłady i próbować zrekonstruować mając tylko połowę rozkładu względem wartości maksymalnej, jeżeli ma to oczywiście sens. |
|
|
|
 |
plynny
Szeregowy

Posty: 17 Skąd: Andrychów
|
Wysłany: 2009-11-04, 23:33
|
|
|
Tak wygląda wykres, trochę zaszalałem z kolorami ale dopiero się uczę R :), wysokość to ilość, a słupek to ilość lat, jeszcze nie znalazłem gdzie się wstawia wartości na osi x.
Średnia- 45.88083
Odchylenie- 15.44371
Ale jak widać nie ma sensu tych wartości wyliczać.
Skąd taki rozkład? Klienci którzy przychodzą z ulicy po prostu tacy są :)
A wielkość próby to ponad kilkadziesiąt- kilkaset tysięcy.
Od wczoraj przejrzałem książkę pana Biecka na temat nauki programu R, byłem w szoku jak zobaczyłem bardzo podobny wykres (rysunek 3.3 strona 132), też odnoszący się do wieku osób. Widocznie nasze społeczeństwo tak ma.
Dlatego dzielić to raczej nie ma sensu.
Trudno przy takim rozkładzie określić czy np próbka 100 osób jest wylosowana z tego zbioru czy nie. |
|
|
|
 |
Crunchy
Porucznik Crunchy

Pomógł: 33 razy Posty: 396 Skąd: Katowice
|
Wysłany: 2009-11-04, 23:54
|
|
|
| plynny napisał/a: | | Trudno przy takim rozkładzie określić czy np próbka 100 osób jest wylosowana z tego zbioru czy nie. |
Zadaj pytanie, bo nie bardzo rozumiem o co chodzi... jeżeli taki rozkład pochodzi z próby 100 osób to raczej znaczy, że populacja tak wygląda. I oczywiście warto dzielić, bo nie zawsze różne grupy wiekowe mają np. te same preferencje. Wiek i płeć to dwie podstawowe ("naturalne") sposoby podziału. |
|
|
|
 |
plynny
Szeregowy

Posty: 17 Skąd: Andrychów
|
Wysłany: 2009-11-05, 00:14
|
|
|
Może zły przykład podałem, chodzi mi raczej czy takie dane mogą się poddawać dalszej obróbce statystycznej bo takie miary jak średnia czy odchylenie nie są w stanie dobrze określić tego zbioru.
A z tą próbką to chodzi: Proszę kogoś by wylosować 1000 osób z tego zbioru i zachować rozkład lat. Dostaje tą próbkę ale mam wątpliwości czy to zostało wylosowane czy po prostu losowanie polegało wybraniu 1000 z brzegu. Czy jest wiec test który by powiedział, z takim to a takim prawdopodobieństwem ta próbka została wylosowana a z takim to a takim że ktoś się nie przyłożył do roboty.
Po za tym średnia to 46 lat, więc można założyć że to nasi najlepsi klienci. Podczas gdy najliczniejsze grupy to 30-34 i 51-54 lat (te dwa szczyty to tam wypadają).
Dlatego być może niektóre modele statystyczne nie mogą być brane pod uwagę z uwagi na to ze nie jest to rozkład normalny. |
|
|
|
 |
Maro
Podporucznik

Pomógł: 9 razy Posty: 322 Skąd: Lublin
|
Wysłany: 2009-11-05, 01:48
|
|
|
| plynny napisał/a: | | czy takie dane mogą się poddawać dalszej obróbce statystycznej bo takie miary jak średnia czy odchylenie nie są w stanie dobrze określić tego zbioru. | Tak. Można. Do tego celu służą procedury należące do statystyki nieparametrycznej, nazywanej też czasem odpornościową.
| Cytat: | | Po za tym średnia to 46 lat, więc można założyć że to nasi najlepsi klienci. | No widzisz właśnie sam, że nie można. Cała statystyka nie opiera sie tylko i wyłącznie na średniej arytmetycznej, więc są sposoby analizy danych które nie mogą lub usilnie nie chcą mieć rozkładu normalnego
Jeśli chodzi o jakieś metody weryfikacji dopasowania rozkładu do innego niż normalny to Ci nie podpowiem bo się nie znam. No może jeszcze umiem sprawdzić rozkład testem chi kwadrat zgodności rozkładów, ale tutaj to on mi nie pasuje. Chociaż, jakby zrobić przedziały... Nie wiem.
Co do samego rozkładu wieku, to uzyskałem podobne rezultaty kiedy sprawdzałem rozkład wieku ze względu na płeć (bez podziału też tak wygląda, ale mi się już nie chce robić kolejnego wykresu). Dane z jakiegoś dużego sondażu. Chyba PGSS, ale głowy nie dam. Może nie tak skrajnie jak u Ciebie, ale gdzieś się ten drugi "garb" już kształtuje.
wiek1.jpg
|
 |
| Plik ściągnięto 14 raz(y) 30,51 KB |
|
|
|
|
 |
plynny
Szeregowy

Posty: 17 Skąd: Andrychów
|
Wysłany: 2009-11-05, 10:27
|
|
|
| Maro napisał/a: | | plynny napisał/a: | | czy takie dane mogą się poddawać dalszej obróbce statystycznej bo takie miary jak średnia czy odchylenie nie są w stanie dobrze określić tego zbioru. | Tak. Można. Do tego celu służą procedury należące do statystyki nieparametrycznej, nazywanej też czasem odpornościową.
| Cytat: | | Po za tym średnia to 46 lat, więc można założyć że to nasi najlepsi klienci. | No widzisz właśnie sam, że nie można. Cała statystyka nie opiera sie tylko i wyłącznie na średniej arytmetycznej, więc są sposoby analizy danych które nie mogą lub usilnie nie chcą mieć rozkładu normalnego
|
Dzięki za wskazanie "statystyki nieparametrycznej, nazywanej też czasem odpornościową" poszukam na wiki, google, podręcznikach do R może uda mi się to rozgryźć.
A z tym najlepszym wiekiem 46 to oczywiście było wskazanie tego że sama średnia nie jest w tym przypadku miarodajna. |
|
|
|
 |
bstq
Chorąży

Pomógł: 9 razy Posty: 106 Skąd: Warszawa
|
Wysłany: 2009-11-05, 12:55
|
|
|
| plynny napisał/a: | | A z tą próbką to chodzi: Proszę kogoś by wylosować 1000 osób z tego zbioru i zachować rozkład lat. Dostaje tą próbkę ale mam wątpliwości czy to zostało wylosowane czy po prostu losowanie polegało wybraniu 1000 z brzegu. Czy jest wiec test który by powiedział, z takim to a takim prawdopodobieństwem ta próbka została wylosowana a z takim to a takim że ktoś się nie przyłożył do roboty. |
nie rozumiem chcesz sprawdzac czy wylosowana probka jest "reprezentatywna", czy chcesz wylosować "reprezentatywną" próbkę?:>
a jeśli chodzi o statystykę nieparametryczną to w jej skład wchodzą estymatory jądrowe - przybliżenie gęstości... |
|
|
|
 |
Crunchy
Porucznik Crunchy

Pomógł: 33 razy Posty: 396 Skąd: Katowice
|
Wysłany: 2009-11-05, 13:33
|
|
|
| plynny napisał/a: | | Czy jest wiec test który by powiedział, z takim to a takim prawdopodobieństwem ta próbka została wylosowana a z takim to a takim że ktoś się nie przyłożył do roboty. |
Się nazywa
| Cytat: | | Two-sample Kolmogorov-Smirnov test |
|
|
|
|
 |
bstq
Chorąży

Pomógł: 9 razy Posty: 106 Skąd: Warszawa
|
Wysłany: 2009-11-05, 14:47
|
|
|
| Crunchy napisał/a: | | plynny napisał/a: | | Czy jest wiec test który by powiedział, z takim to a takim prawdopodobieństwem ta próbka została wylosowana a z takim to a takim że ktoś się nie przyłożył do roboty. |
Się nazywa
| Cytat: | | Two-sample Kolmogorov-Smirnov test |
|
proponuje lepiej test Andersena - Darlinga, albo najlepszy test Cramera-von Misesa :) test Kolmogorowa-Smirnowa zbyt czesto odrzuca...
[ Dodano: 2009-11-05, 14:49 ]
chodzilo mi czy sa potrzebne jakies metody reprezentacji (teoria probkowania, sampling theory), bo akurat mam to w SAS-ie i moglbym pomoc... |
|
|
|
 |
Crunchy
Porucznik Crunchy

Pomógł: 33 razy Posty: 396 Skąd: Katowice
|
Wysłany: 2009-11-05, 15:42
|
|
|
| bstq napisał/a: |
proponuje lepiej test Andersena - Darlinga, albo najlepszy test Cramera-von Misesa :) test Kolmogorowa-Smirnowa zbyt czesto odrzuca... |
I dla mnie to byłby argument za K-S'em właśnie ale najlepiej zrobić sobie samemu symulacje, bo moc tych testów zależy od rozkładu.
gof.tests.png
|
 |
| Plik ściągnięto 13 raz(y) 40,92 KB |
|
|
|
|
 |
|
|