Niet-normale verdelingen en consequenties
Niet-normale verdelingen en consequenties
Hallo,
Momenteel ben ik bezig met een toepassing van een analyse waar ik een vraag over had.
De verdeling blijkt niet normaal te zijn dus zijn er een aantal oplossingen waar tussen ik twijfel, aangezien de assumptie van de t-toets is dat er een normaal verdeling is. Het transformeren leverde helaas weinig op.
Nu heb ik begrepen dat, omdat mijn steekproefomvang ongeveer 200 is ik alsnog een one sample t-test zou kunnen doen omdat die robust genoeg is. Een andere optie is om bootstrapping te gebruiken of toch over gaan op een non-parametric toets. Wat is het beste, aangezien ik oorspronkelijk van plan was om meerdere type's toetsen te gebruiken die een normaal verdelingen als assumptie hebben (t-test en anova)?
Hebben jullie een advies voor mij?
Daarnaast moet ik ook een deel van de resultaten van mijn data (uit een steekproef) vergelijken met mijn data uit een een landelijke database (waarvan alleen data in percentages beschikbaar is, dus zoveel %procent van de mensen met kenmerk A zit in de eerste groep, zoveel % in B). IK wil dus een percentuele vergelijking maken, maar aangezien er veel groepen zit het er niet in dit handmatig te vergelijken. Ik vroeg mij daarom af hoe ik dit het efficiëntst in SPSS kan doen (direct een toets uitvoeren kan niet omdat de die landelijke data niet in dezelfde dataset staat, dus er moet waarschijnlijk eerst een nieuwe variabele gecreëerd worden)?
Alvast bedankt,
Groeten,
GerdaC.
Momenteel ben ik bezig met een toepassing van een analyse waar ik een vraag over had.
De verdeling blijkt niet normaal te zijn dus zijn er een aantal oplossingen waar tussen ik twijfel, aangezien de assumptie van de t-toets is dat er een normaal verdeling is. Het transformeren leverde helaas weinig op.
Nu heb ik begrepen dat, omdat mijn steekproefomvang ongeveer 200 is ik alsnog een one sample t-test zou kunnen doen omdat die robust genoeg is. Een andere optie is om bootstrapping te gebruiken of toch over gaan op een non-parametric toets. Wat is het beste, aangezien ik oorspronkelijk van plan was om meerdere type's toetsen te gebruiken die een normaal verdelingen als assumptie hebben (t-test en anova)?
Hebben jullie een advies voor mij?
Daarnaast moet ik ook een deel van de resultaten van mijn data (uit een steekproef) vergelijken met mijn data uit een een landelijke database (waarvan alleen data in percentages beschikbaar is, dus zoveel %procent van de mensen met kenmerk A zit in de eerste groep, zoveel % in B). IK wil dus een percentuele vergelijking maken, maar aangezien er veel groepen zit het er niet in dit handmatig te vergelijken. Ik vroeg mij daarom af hoe ik dit het efficiëntst in SPSS kan doen (direct een toets uitvoeren kan niet omdat de die landelijke data niet in dezelfde dataset staat, dus er moet waarschijnlijk eerst een nieuwe variabele gecreëerd worden)?
Alvast bedankt,
Groeten,
GerdaC.
Re: Niet-normale verdelingen en consequenties
Heb je Kolmogorov–Smirnov toegepast om de normaliteit te toetsen? Wijkt het veel af?
Zo ja, dan moet je Manwhithney-U als vervanging van de t test en Kruskall Wallis als vervanging van ANOVA toepassen. Met SPSS is dat geen probleem. Je kan ze altijd allebei eens toepassen. Mijn ervaring is dat er niet te veel verschil op beide testen zit als je in de verdeling min of meer een normale verdeling kan herken op het zicht.
Voor het tweede deel van de vraag ga je veel meer info moeten geven om een zinnig antwoord te kunnen krijgen denk ik.
Zo ja, dan moet je Manwhithney-U als vervanging van de t test en Kruskall Wallis als vervanging van ANOVA toepassen. Met SPSS is dat geen probleem. Je kan ze altijd allebei eens toepassen. Mijn ervaring is dat er niet te veel verschil op beide testen zit als je in de verdeling min of meer een normale verdeling kan herken op het zicht.
Voor het tweede deel van de vraag ga je veel meer info moeten geven om een zinnig antwoord te kunnen krijgen denk ik.
Re: Niet-normale verdelingen en consequenties
Heel erg bedankt voor je snelle reactie.
Maar ik begreep de parametric toetsen niet perse daarmee afvallen toch? En is bootstrapping niet een elegantere optie, is of dat minder relevant als er sprake is van een skewed verdeling?
Mijn uitleg was inderdaad enigszins vaag. Oke, nu is het geval dat ik dus een eigen dataset heb met wat (ordinale) data (dus groepen ingedeeld in een categorie die bepaald is vanwege hun specifieke kenemerken, er is geen overlap, ze zijn volledige onafhankelijk). Deze groep wil vergelijken tegen de landelijke verhoudingen (dus bijv. 9% van de mensen zit in de spreekproef in groep A, nationaal zit 10% van de mensen in groep A (maar wel andere mensen op kenmerk ingegeeld) en dat wil ik dan vergelijken). Echter, van de mensen uit de steekproef heb ik alle data (hetgeen SPSS fijn vind). Van de overige, landelijke groep, heb ik dus geen cases/individuele data enkel een percentage op nationaal niveau.
Wellicht is het nu (iets) duidelijker?
Zowel de Kolmogorov-Smirnov test als de Shapiro Wilk test geven een signifanct resultaat.wnvl schreef:Heb je Kolmogorov–Smirnov toegepast om de normaliteit te toetsen? Wijkt het veel af?
Maar ik begreep de parametric toetsen niet perse daarmee afvallen toch? En is bootstrapping niet een elegantere optie, is of dat minder relevant als er sprake is van een skewed verdeling?
Sorry, hoewel ik snap wat je bedoelt heb ik geen idee hoe je dit in SPSS zou doen. Ik weet wel hoe je de Mann-Whitney toets moet doen (via de non parametric toetsen), maar ik kan niets vinden dat dezelfde opzet heeft als de one sample t-test in SPSS. Oftewel de resultaten vergelijken tegen een bekend (extern) gemiddeld (dat dus ook niet voortkomt uit de resultaten van een eigen steekproef). Is een Wilcox Signed Rank test overigens dan niet beter als ik een een non-parametric toets wil uitvoeren?wnvl schreef:Zo ja, dan moet je Manwhithney-U als vervanging van de t test en Kruskall Wallis als vervanging van ANOVA toepassen. Met SPSS is dat geen probleem. Je kan ze altijd allebei eens toepassen.
Mijn ervaring is dat er niet te veel verschil op beide testen zit als je in de verdeling min of meer een normale verdeling kan herken op het zicht.
wnvl schreef:Voor het tweede deel van de vraag ga je veel meer info moeten geven om een zinnig antwoord te kunnen krijgen denk ik.
Mijn uitleg was inderdaad enigszins vaag. Oke, nu is het geval dat ik dus een eigen dataset heb met wat (ordinale) data (dus groepen ingedeeld in een categorie die bepaald is vanwege hun specifieke kenemerken, er is geen overlap, ze zijn volledige onafhankelijk). Deze groep wil vergelijken tegen de landelijke verhoudingen (dus bijv. 9% van de mensen zit in de spreekproef in groep A, nationaal zit 10% van de mensen in groep A (maar wel andere mensen op kenmerk ingegeeld) en dat wil ik dan vergelijken). Echter, van de mensen uit de steekproef heb ik alle data (hetgeen SPSS fijn vind). Van de overige, landelijke groep, heb ik dus geen cases/individuele data enkel een percentage op nationaal niveau.
Wellicht is het nu (iets) duidelijker?
Re: Niet-normale verdelingen en consequenties
Bootstrap moet ook een mogelijkheid zijn.GerdaC schreef:Zowel de Kolmogorov-Smirnov test als de Shapiro Wilk test geven een signifanct resultaat.
Maar ik begreep de parametric toetsen niet perse daarmee afvallen toch? En is bootstrapping niet een elegantere optie, is of dat minder relevant als er sprake is van een skewed verdeling?
Ja, om te vergelijken met een extern gemiddelde (eigenlijk gebruiken we mediaan in dat geval) wordt het de Wilcoxon Signed Rank test.GerdaC schreef:Sorry, hoewel ik snap wat je bedoelt heb ik geen idee hoe je dit in SPSS zou doen. Ik weet wel hoe je de Mann-Whitney toets moet doen (via de non parametric toetsen), maar ik kan niets vinden dat dezelfde opzet heeft als de one sample t-test in SPSS. Oftewel de resultaten vergelijken tegen een bekend (extern) gemiddeld (dat dus ook niet voortkomt uit de resultaten van een eigen steekproef). Is een Wilcox Signed Rank test overigens dan niet beter als ik een een non-parametric toets wil uitvoeren?
Non Parametrics Tests - One Sample - Customize tests - Compare median to hypothesized
in SPSS.
Re: Niet-normale verdelingen en consequenties
Dat klinkt als chi kwadraat. Ik veronderstel dat je niet zoveel groepen hebt, dan is dat toch niet zoveel werk. De berekeningen zijn zelfs goed doenbaar met de hand. Gewoon de lokale frekwenties afzetten tegen de nationale frekwenties.GerdaC schreef: Mijn uitleg was inderdaad enigszins vaag. Oke, nu is het geval dat ik dus een eigen dataset heb met wat (ordinale) data (dus groepen ingedeeld in een categorie die bepaald is vanwege hun specifieke kenemerken, er is geen overlap, ze zijn volledige onafhankelijk). Deze groep wil vergelijken tegen de landelijke verhoudingen (dus bijv. 9% van de mensen zit in de spreekproef in groep A, nationaal zit 10% van de mensen in groep A (maar wel andere mensen op kenmerk ingegeeld) en dat wil ik dan vergelijken). Echter, van de mensen uit de steekproef heb ik alle data (hetgeen SPSS fijn vind). Van de overige, landelijke groep, heb ik dus geen cases/individuele data enkel een percentage op nationaal niveau.
Wellicht is het nu (iets) duidelijker?
Re: Niet-normale verdelingen en consequenties
Wederom bedankt voor de snelle reactie.
Ok, heel erg bedankt. Probleem was dat de parametrische toetsen (met en zonder bootstrapping) een significant resultaat opleverden en de Signed Rank test niet onder alle omstandigheden die ik testte. Maar ik vermoed dat het met mijn onderbouwing geen probleem zal opleveren (probleem is dat er wat uitschieters zijn in de steekproef die ik er niet uit kan/wil halen, maar dat transformeren weinig effect had). Ik heb overigens niet ergens een richtlijn/advies gezien wanneer de enige (bootstrapping) de voorkeur heeft boven de andere (non parametric). Maar als ik het zo lees lijkt bootstrapping net iets mooiere resultaten op te leveren (maar ik heb er behalve in wat literatuur weinig over gevonden in meer toegankelijke statistiekboeken).wnvl schreef:Bootstrap moet ook een mogelijkheid zijn.GerdaC schreef:Zowel de Kolmogorov-Smirnov test als de Shapiro Wilk test geven een signifanct resultaat.
Maar ik begreep de parametric toetsen niet perse daarmee afvallen toch? En is bootstrapping niet een elegantere optie, is of dat minder relevant als er sprake is van een skewed verdeling?
Oh, bedankt. Dat had ik nog niet gevonden. Ik zie het het nu onder een submenu inderdaad staan. Ik had aanvankelijk het via een omweg gedaan, maar dit is net wat efficienter.wnvl schreef:Ja, om te vergelijken met een extern gemiddelde (eigenlijk gebruiken we mediaan in dat geval) wordt het de Wilcoxon Signed Rank test.GerdaC schreef:Sorry, hoewel ik snap wat je bedoelt heb ik geen idee hoe je dit in SPSS zou doen. Ik weet wel hoe je de Mann-Whitney toets moet doen (via de non parametric toetsen), maar ik kan niets vinden dat dezelfde opzet heeft als de one sample t-test in SPSS. Oftewel de resultaten vergelijken tegen een bekend (extern) gemiddeld (dat dus ook niet voortkomt uit de resultaten van een eigen steekproef). Is een Wilcox Signed Rank test overigens dan niet beter als ik een een non-parametric toets wil uitvoeren?
Non Parametrics Tests - One Sample - Customize tests - Compare median to hypothesized
in SPSS.
Ja, ik was van plan de Pearson Chi Square test uit te voeren. Maar ik weet niet exact hoe ik de percentages in SPSS kan verwerken, het direct invoegen (als getal) levert geen goede vergelijking op als ik 'count by weight' weet ik niet helemaal zeker of dat goed gaat (want het landelijke getal is gebaseerd op miljoenen i.p.v. tientallen/honderden zoals bij de steekproef; in totaal valt het aantal categorien wel te doen met de hand maar mijn voorkeur gaat uit om dit ook in SPSS te leren doen, zodat ik dit op grotere schaal ook later zal kunnen).wnvl schreef: Dat klinkt als chi kwadraat. Ik veronderstel dat je niet zoveel groepen hebt, dan is dat toch niet zoveel werk. De berekeningen zijn zelfs goed doenbaar met de hand. Gewoon de lokale frekwenties afzetten tegen de nationale frekwenties.
Re: Niet-normale verdelingen en consequenties
Ik dacht ook aan 'count by weight' en bij weigth vul je dan heel grootte waarden in ordegrootte van bvb een miljoen. De verhoudingen tussen de groepen moeten natuurlijk kloppen. Dat zou correcte resultaten moeten opleveren.GerdaC schreef: Ja, ik was van plan de Pearson Chi Square test uit te voeren. Maar ik weet niet exact hoe ik de percentages in SPSS kan verwerken, het direct invoegen (als getal) levert geen goede vergelijking op als ik 'count by weight' weet ik niet helemaal zeker of dat goed gaat (want het landelijke getal is gebaseerd op miljoenen i.p.v. tientallen/honderden zoals bij de steekproef; in totaal valt het aantal categorien wel te doen met de hand maar mijn voorkeur gaat uit om dit ook in SPSS te leren doen, zodat ik dit op grotere schaal ook later zal kunnen).
Re: Niet-normale verdelingen en consequenties
Dat had ik inderdaad gedaan, alleen ziet het er nu enigszins vreemd uit omdat een gedeelte getallen heeft in de orde van grote van tonnen/miljoenen en het andere in tientallen. Ik denk dat dit overigens niet eens zo bezwaarlijk aangezien de Chi Square test ook kijkt naar de verhouding dus dat zou vermoed ik geen al te groot probleem moeten opleveren, maar ik twijfel hier wel over...wnvl schreef:Ik dacht ook aan 'count by weight' en bij weigth vul je dan heel grootte waarden in ordegrootte van bvb een miljoen. De verhoudingen tussen de groepen moeten natuurlijk kloppen. Dat zou correcte resultaten moeten opleveren.GerdaC schreef: Ja, ik was van plan de Pearson Chi Square test uit te voeren. Maar ik weet niet exact hoe ik de percentages in SPSS kan verwerken, het direct invoegen (als getal) levert geen goede vergelijking op als ik 'count by weight' weet ik niet helemaal zeker of dat goed gaat (want het landelijke getal is gebaseerd op miljoenen i.p.v. tientallen/honderden zoals bij de steekproef; in totaal valt het aantal categorien wel te doen met de hand maar mijn voorkeur gaat uit om dit ook in SPSS te leren doen, zodat ik dit op grotere schaal ook later zal kunnen).
Re: Niet-normale verdelingen en consequenties
Ik denk echt dat dit de juiste manier van werken is. Of je nu voor de nationale waarden, aantallen neemt die in de miljoenen liggen, in de tienduizenden of in de duizenden, veel verschil gaat dat niet maken tenzij je groepen hebt waar maar heel weinig mensen inzitten.GerdaC schreef: Dat had ik inderdaad gedaan, alleen ziet het er nu enigszins vreemd uit omdat een gedeelte getallen heeft in de orde van grote van tonnen/miljoenen en het andere in tientallen. Ik denk dat dit overigens niet eens zo bezwaarlijk aangezien de Chi Square test ook kijkt naar de verhouding dus dat zou vermoed ik geen al te groot probleem moeten opleveren, maar ik twijfel hier wel over...
Re: Niet-normale verdelingen en consequenties
Bedankt voor je reactie!wnvl schreef:Ik denk echt dat dit de juiste manier van werken is. Of je nu voor de nationale waarden, aantallen neemt die in de miljoenen liggen, in de tienduizenden of in de duizenden, veel verschil gaat dat niet maken tenzij je groepen hebt waar maar heel weinig mensen inzitten.GerdaC schreef: Dat had ik inderdaad gedaan, alleen ziet het er nu enigszins vreemd uit omdat een gedeelte getallen heeft in de orde van grote van tonnen/miljoenen en het andere in tientallen. Ik denk dat dit overigens niet eens zo bezwaarlijk aangezien de Chi Square test ook kijkt naar de verhouding dus dat zou vermoed ik geen al te groot probleem moeten opleveren, maar ik twijfel hier wel over...
Ik had al zo'n vermoeden, want uiteindelijk kijkt de Chi Square ook naar de verhoudingen. En een andere methode kon ik niet echt bedenken (eventueel alles omschalen naar 100 of 1000 mensen (dus bijvoorbeeld voor 29% het een weight opgeven van 29), maar dat leek me ook niet ideaal.
Ben er inmiddels ongeveer uit, de resultaten zijn volgens mij wel juist! Dus dat moet wel goedkomen