Niet-normale verdelingen en consequenties

Continue & discrete verdelingen, toevalsveranderlijken, betrouwbaarheidsintervallen, correlaties.
Plaats reactie
GerdaC
Nieuw lid
Nieuw lid
Berichten: 5
Lid geworden op: 28 jun 2013, 19:12

Niet-normale verdelingen en consequenties

Bericht door GerdaC » 28 jun 2013, 19:30

Hallo,

Momenteel ben ik bezig met een toepassing van een analyse waar ik een vraag over had.
De verdeling blijkt niet normaal te zijn dus zijn er een aantal oplossingen waar tussen ik twijfel, aangezien de assumptie van de t-toets is dat er een normaal verdeling is. Het transformeren leverde helaas weinig op.

Nu heb ik begrepen dat, omdat mijn steekproefomvang ongeveer 200 is ik alsnog een one sample t-test zou kunnen doen omdat die robust genoeg is. Een andere optie is om bootstrapping te gebruiken of toch over gaan op een non-parametric toets. Wat is het beste, aangezien ik oorspronkelijk van plan was om meerdere type's toetsen te gebruiken die een normaal verdelingen als assumptie hebben (t-test en anova)?
Hebben jullie een advies voor mij?

Daarnaast moet ik ook een deel van de resultaten van mijn data (uit een steekproef) vergelijken met mijn data uit een een landelijke database (waarvan alleen data in percentages beschikbaar is, dus zoveel %procent van de mensen met kenmerk A zit in de eerste groep, zoveel % in B). IK wil dus een percentuele vergelijking maken, maar aangezien er veel groepen zit het er niet in dit handmatig te vergelijken. Ik vroeg mij daarom af hoe ik dit het efficiëntst in SPSS kan doen (direct een toets uitvoeren kan niet omdat de die landelijke data niet in dezelfde dataset staat, dus er moet waarschijnlijk eerst een nieuwe variabele gecreëerd worden)?

Alvast bedankt,

Groeten,

GerdaC.

Gebruikersavatar
wnvl
Vergevorderde
Vergevorderde
Berichten: 1490
Lid geworden op: 05 okt 2011, 16:30

Re: Niet-normale verdelingen en consequenties

Bericht door wnvl » 28 jun 2013, 21:19

Heb je Kolmogorov–Smirnov toegepast om de normaliteit te toetsen? Wijkt het veel af?
Zo ja, dan moet je Manwhithney-U als vervanging van de t test en Kruskall Wallis als vervanging van ANOVA toepassen. Met SPSS is dat geen probleem. Je kan ze altijd allebei eens toepassen. Mijn ervaring is dat er niet te veel verschil op beide testen zit als je in de verdeling min of meer een normale verdeling kan herken op het zicht.

Voor het tweede deel van de vraag ga je veel meer info moeten geven om een zinnig antwoord te kunnen krijgen denk ik.

GerdaC
Nieuw lid
Nieuw lid
Berichten: 5
Lid geworden op: 28 jun 2013, 19:12

Re: Niet-normale verdelingen en consequenties

Bericht door GerdaC » 29 jun 2013, 01:11

Heel erg bedankt voor je snelle reactie.
wnvl schreef:Heb je Kolmogorov–Smirnov toegepast om de normaliteit te toetsen? Wijkt het veel af?
Zowel de Kolmogorov-Smirnov test als de Shapiro Wilk test geven een signifanct resultaat.
Maar ik begreep de parametric toetsen niet perse daarmee afvallen toch? En is bootstrapping niet een elegantere optie, is of dat minder relevant als er sprake is van een skewed verdeling?
wnvl schreef:Zo ja, dan moet je Manwhithney-U als vervanging van de t test en Kruskall Wallis als vervanging van ANOVA toepassen. Met SPSS is dat geen probleem. Je kan ze altijd allebei eens toepassen.
Mijn ervaring is dat er niet te veel verschil op beide testen zit als je in de verdeling min of meer een normale verdeling kan herken op het zicht.
Sorry, hoewel ik snap wat je bedoelt heb ik geen idee hoe je dit in SPSS zou doen. Ik weet wel hoe je de Mann-Whitney toets moet doen (via de non parametric toetsen), maar ik kan niets vinden dat dezelfde opzet heeft als de one sample t-test in SPSS. Oftewel de resultaten vergelijken tegen een bekend (extern) gemiddeld (dat dus ook niet voortkomt uit de resultaten van een eigen steekproef). Is een Wilcox Signed Rank test overigens dan niet beter als ik een een non-parametric toets wil uitvoeren?
wnvl schreef:Voor het tweede deel van de vraag ga je veel meer info moeten geven om een zinnig antwoord te kunnen krijgen denk ik.


Mijn uitleg was inderdaad enigszins vaag. Oke, nu is het geval dat ik dus een eigen dataset heb met wat (ordinale) data (dus groepen ingedeeld in een categorie die bepaald is vanwege hun specifieke kenemerken, er is geen overlap, ze zijn volledige onafhankelijk). Deze groep wil vergelijken tegen de landelijke verhoudingen (dus bijv. 9% van de mensen zit in de spreekproef in groep A, nationaal zit 10% van de mensen in groep A (maar wel andere mensen op kenmerk ingegeeld) en dat wil ik dan vergelijken). Echter, van de mensen uit de steekproef heb ik alle data (hetgeen SPSS fijn vind). Van de overige, landelijke groep, heb ik dus geen cases/individuele data enkel een percentage op nationaal niveau.
Wellicht is het nu (iets) duidelijker?

Gebruikersavatar
wnvl
Vergevorderde
Vergevorderde
Berichten: 1490
Lid geworden op: 05 okt 2011, 16:30

Re: Niet-normale verdelingen en consequenties

Bericht door wnvl » 29 jun 2013, 12:11

GerdaC schreef:Zowel de Kolmogorov-Smirnov test als de Shapiro Wilk test geven een signifanct resultaat.
Maar ik begreep de parametric toetsen niet perse daarmee afvallen toch? En is bootstrapping niet een elegantere optie, is of dat minder relevant als er sprake is van een skewed verdeling?
Bootstrap moet ook een mogelijkheid zijn.

GerdaC schreef:Sorry, hoewel ik snap wat je bedoelt heb ik geen idee hoe je dit in SPSS zou doen. Ik weet wel hoe je de Mann-Whitney toets moet doen (via de non parametric toetsen), maar ik kan niets vinden dat dezelfde opzet heeft als de one sample t-test in SPSS. Oftewel de resultaten vergelijken tegen een bekend (extern) gemiddeld (dat dus ook niet voortkomt uit de resultaten van een eigen steekproef). Is een Wilcox Signed Rank test overigens dan niet beter als ik een een non-parametric toets wil uitvoeren?
Ja, om te vergelijken met een extern gemiddelde (eigenlijk gebruiken we mediaan in dat geval) wordt het de Wilcoxon Signed Rank test.

Non Parametrics Tests - One Sample - Customize tests - Compare median to hypothesized

in SPSS.

Gebruikersavatar
wnvl
Vergevorderde
Vergevorderde
Berichten: 1490
Lid geworden op: 05 okt 2011, 16:30

Re: Niet-normale verdelingen en consequenties

Bericht door wnvl » 29 jun 2013, 12:15

GerdaC schreef: Mijn uitleg was inderdaad enigszins vaag. Oke, nu is het geval dat ik dus een eigen dataset heb met wat (ordinale) data (dus groepen ingedeeld in een categorie die bepaald is vanwege hun specifieke kenemerken, er is geen overlap, ze zijn volledige onafhankelijk). Deze groep wil vergelijken tegen de landelijke verhoudingen (dus bijv. 9% van de mensen zit in de spreekproef in groep A, nationaal zit 10% van de mensen in groep A (maar wel andere mensen op kenmerk ingegeeld) en dat wil ik dan vergelijken). Echter, van de mensen uit de steekproef heb ik alle data (hetgeen SPSS fijn vind). Van de overige, landelijke groep, heb ik dus geen cases/individuele data enkel een percentage op nationaal niveau.
Wellicht is het nu (iets) duidelijker?
Dat klinkt als chi kwadraat. Ik veronderstel dat je niet zoveel groepen hebt, dan is dat toch niet zoveel werk. De berekeningen zijn zelfs goed doenbaar met de hand. Gewoon de lokale frekwenties afzetten tegen de nationale frekwenties.

GerdaC
Nieuw lid
Nieuw lid
Berichten: 5
Lid geworden op: 28 jun 2013, 19:12

Re: Niet-normale verdelingen en consequenties

Bericht door GerdaC » 29 jun 2013, 12:51

Wederom bedankt voor de snelle reactie.
wnvl schreef:
GerdaC schreef:Zowel de Kolmogorov-Smirnov test als de Shapiro Wilk test geven een signifanct resultaat.
Maar ik begreep de parametric toetsen niet perse daarmee afvallen toch? En is bootstrapping niet een elegantere optie, is of dat minder relevant als er sprake is van een skewed verdeling?
Bootstrap moet ook een mogelijkheid zijn.
Ok, heel erg bedankt. Probleem was dat de parametrische toetsen (met en zonder bootstrapping) een significant resultaat opleverden en de Signed Rank test niet onder alle omstandigheden die ik testte. Maar ik vermoed dat het met mijn onderbouwing geen probleem zal opleveren (probleem is dat er wat uitschieters zijn in de steekproef die ik er niet uit kan/wil halen, maar dat transformeren weinig effect had). Ik heb overigens niet ergens een richtlijn/advies gezien wanneer de enige (bootstrapping) de voorkeur heeft boven de andere (non parametric). Maar als ik het zo lees lijkt bootstrapping net iets mooiere resultaten op te leveren (maar ik heb er behalve in wat literatuur weinig over gevonden in meer toegankelijke statistiekboeken).
wnvl schreef:
GerdaC schreef:Sorry, hoewel ik snap wat je bedoelt heb ik geen idee hoe je dit in SPSS zou doen. Ik weet wel hoe je de Mann-Whitney toets moet doen (via de non parametric toetsen), maar ik kan niets vinden dat dezelfde opzet heeft als de one sample t-test in SPSS. Oftewel de resultaten vergelijken tegen een bekend (extern) gemiddeld (dat dus ook niet voortkomt uit de resultaten van een eigen steekproef). Is een Wilcox Signed Rank test overigens dan niet beter als ik een een non-parametric toets wil uitvoeren?
Ja, om te vergelijken met een extern gemiddelde (eigenlijk gebruiken we mediaan in dat geval) wordt het de Wilcoxon Signed Rank test.

Non Parametrics Tests - One Sample - Customize tests - Compare median to hypothesized

in SPSS.
Oh, bedankt. Dat had ik nog niet gevonden. Ik zie het het nu onder een submenu inderdaad staan. Ik had aanvankelijk het via een omweg gedaan, maar dit is net wat efficienter.
wnvl schreef: Dat klinkt als chi kwadraat. Ik veronderstel dat je niet zoveel groepen hebt, dan is dat toch niet zoveel werk. De berekeningen zijn zelfs goed doenbaar met de hand. Gewoon de lokale frekwenties afzetten tegen de nationale frekwenties.
Ja, ik was van plan de Pearson Chi Square test uit te voeren. Maar ik weet niet exact hoe ik de percentages in SPSS kan verwerken, het direct invoegen (als getal) levert geen goede vergelijking op als ik 'count by weight' weet ik niet helemaal zeker of dat goed gaat (want het landelijke getal is gebaseerd op miljoenen i.p.v. tientallen/honderden zoals bij de steekproef; in totaal valt het aantal categorien wel te doen met de hand maar mijn voorkeur gaat uit om dit ook in SPSS te leren doen, zodat ik dit op grotere schaal ook later zal kunnen).

Gebruikersavatar
wnvl
Vergevorderde
Vergevorderde
Berichten: 1490
Lid geworden op: 05 okt 2011, 16:30

Re: Niet-normale verdelingen en consequenties

Bericht door wnvl » 29 jun 2013, 21:50

GerdaC schreef: Ja, ik was van plan de Pearson Chi Square test uit te voeren. Maar ik weet niet exact hoe ik de percentages in SPSS kan verwerken, het direct invoegen (als getal) levert geen goede vergelijking op als ik 'count by weight' weet ik niet helemaal zeker of dat goed gaat (want het landelijke getal is gebaseerd op miljoenen i.p.v. tientallen/honderden zoals bij de steekproef; in totaal valt het aantal categorien wel te doen met de hand maar mijn voorkeur gaat uit om dit ook in SPSS te leren doen, zodat ik dit op grotere schaal ook later zal kunnen).
Ik dacht ook aan 'count by weight' en bij weigth vul je dan heel grootte waarden in ordegrootte van bvb een miljoen. De verhoudingen tussen de groepen moeten natuurlijk kloppen. Dat zou correcte resultaten moeten opleveren.

GerdaC
Nieuw lid
Nieuw lid
Berichten: 5
Lid geworden op: 28 jun 2013, 19:12

Re: Niet-normale verdelingen en consequenties

Bericht door GerdaC » 29 jun 2013, 22:56

wnvl schreef:
GerdaC schreef: Ja, ik was van plan de Pearson Chi Square test uit te voeren. Maar ik weet niet exact hoe ik de percentages in SPSS kan verwerken, het direct invoegen (als getal) levert geen goede vergelijking op als ik 'count by weight' weet ik niet helemaal zeker of dat goed gaat (want het landelijke getal is gebaseerd op miljoenen i.p.v. tientallen/honderden zoals bij de steekproef; in totaal valt het aantal categorien wel te doen met de hand maar mijn voorkeur gaat uit om dit ook in SPSS te leren doen, zodat ik dit op grotere schaal ook later zal kunnen).
Ik dacht ook aan 'count by weight' en bij weigth vul je dan heel grootte waarden in ordegrootte van bvb een miljoen. De verhoudingen tussen de groepen moeten natuurlijk kloppen. Dat zou correcte resultaten moeten opleveren.
Dat had ik inderdaad gedaan, alleen ziet het er nu enigszins vreemd uit omdat een gedeelte getallen heeft in de orde van grote van tonnen/miljoenen en het andere in tientallen. Ik denk dat dit overigens niet eens zo bezwaarlijk aangezien de Chi Square test ook kijkt naar de verhouding dus dat zou vermoed ik geen al te groot probleem moeten opleveren, maar ik twijfel hier wel over...

Gebruikersavatar
wnvl
Vergevorderde
Vergevorderde
Berichten: 1490
Lid geworden op: 05 okt 2011, 16:30

Re: Niet-normale verdelingen en consequenties

Bericht door wnvl » 30 jun 2013, 14:47

GerdaC schreef: Dat had ik inderdaad gedaan, alleen ziet het er nu enigszins vreemd uit omdat een gedeelte getallen heeft in de orde van grote van tonnen/miljoenen en het andere in tientallen. Ik denk dat dit overigens niet eens zo bezwaarlijk aangezien de Chi Square test ook kijkt naar de verhouding dus dat zou vermoed ik geen al te groot probleem moeten opleveren, maar ik twijfel hier wel over...
Ik denk echt dat dit de juiste manier van werken is. Of je nu voor de nationale waarden, aantallen neemt die in de miljoenen liggen, in de tienduizenden of in de duizenden, veel verschil gaat dat niet maken tenzij je groepen hebt waar maar heel weinig mensen inzitten.

GerdaC
Nieuw lid
Nieuw lid
Berichten: 5
Lid geworden op: 28 jun 2013, 19:12

Re: Niet-normale verdelingen en consequenties

Bericht door GerdaC » 30 jun 2013, 23:42

wnvl schreef:
GerdaC schreef: Dat had ik inderdaad gedaan, alleen ziet het er nu enigszins vreemd uit omdat een gedeelte getallen heeft in de orde van grote van tonnen/miljoenen en het andere in tientallen. Ik denk dat dit overigens niet eens zo bezwaarlijk aangezien de Chi Square test ook kijkt naar de verhouding dus dat zou vermoed ik geen al te groot probleem moeten opleveren, maar ik twijfel hier wel over...
Ik denk echt dat dit de juiste manier van werken is. Of je nu voor de nationale waarden, aantallen neemt die in de miljoenen liggen, in de tienduizenden of in de duizenden, veel verschil gaat dat niet maken tenzij je groepen hebt waar maar heel weinig mensen inzitten.
Bedankt voor je reactie!

Ik had al zo'n vermoeden, want uiteindelijk kijkt de Chi Square ook naar de verhoudingen. En een andere methode kon ik niet echt bedenken (eventueel alles omschalen naar 100 of 1000 mensen (dus bijvoorbeeld voor 29% het een weight opgeven van 29), maar dat leek me ook niet ideaal.
Ben er inmiddels ongeveer uit, de resultaten zijn volgens mij wel juist! Dus dat moet wel goedkomen :)

Plaats reactie