Er zijn enkele concepten die ik niet goed snap die waarschijnlijk meer duidelijkheid kunnen geven over de oefeningen die ik moet maken. Deze gaan over de verdelingen.
In de ppts gaat het over:
- Standaardnormaal verdeeld
- Normaal verdeeld
- Niet normaal verdeeld
Bepaal de volgende kansen:
P[0<X<0,8]
P[X<1,2]
P[-0,4<X<0]
P[-0,5 <X<0,5]
P[X>1,6]
P[-0,2<X<0,7]
Starten met statistiek
Re: Starten met statistiek
Kort en informeel gezegd:
Een kansdichtheidsfunctie PDF(x) bepaalt de kansverdeling.
Het volledige oppervlak onder elke PDF (maar boven de x-as) is in totaal altijd gelijk aan één,
het oppervlak tot aan de waarde van x geeft de kans op een gebeurtenis kleiner of gelijk aan x.
Voorbeelden:
In Figuur 1a hieronder is in blauw de grafiek van een vlakke blokvormige kansdichtheid gegeven:
\(f(x)=\left\{\begin{matrix}\frac{1}{4} & \text{voor } 1 \le x \le 5\\ 0 & \text{overal elders}\end{matrix}\right.\)
De hoogte van de complete rechthoek onder deze functie is \(\frac{1}{4}\), de breedte \(5-1=4\), dus het oppervlak is \(\frac{1}{4} \times 4 = 1\), hetgeen een PDF vereist.
De kans op een waarde kleiner of gelijk aan 4 is het gele gedeelte van het oppervlak (= links van de lijn x=4):
\(P(X \le 4) = \frac{1}{4} \times (4-1) = \frac{3}{4}\)
Een blokvormige dichtheid kunnen we ook anders beschrijven:
via het gemiddelde \(\mu\) (hier is \(\mu = 3\), want het is een vlakke symmetrische verdeling) en de minimale en maximale waarde van het blok (hier 1 en 5).
Je kan ook zeggen: het is een blokvorm gekenmerkt door \(3 \pm 2\) (met gemiddelde \(\mu = 3\) en spreiding s = 2).
Figuur 1b geeft een normalisatie van deze blokvorm:
schuif het gemiddelde \(\mu\) naar nul, en maak de spreiding s gelijk aan 1.
In dit geval verschuift waarde \(x=4\) naar \(z = (x - \mu)/s = (4-3)/2 = \frac{1}{2}\),
terwijl nog steeds \(P\left(z \le\frac{1}{2}\right) = \frac{3}{4} = P(x \le 4) \)
(merk nog op dat de hoogte van de rechthoek nu \(\frac{1}{2}\) geworden is omdat de breedte nu 2 is)
Figuur 1c geeft de Gaussische curve van de normale kansdichtheid.
Alle grafieken van normaal verdeelde dichtheden voldoen aan dit voorschrift:
\(g(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{1}{2}\left( \frac{x-\mu}{\sigma}\right)^2}\)
voor een gegeven gemiddelde \(\mu\) en standaardafwijking \(\sigma\).
Ook onder deze curve is het totale oppervlak altijd gelijk aan 1.
In ons voorbeeld is \(\mu = 3\) en \(\sigma = 0.7\)
De kans \(P(x \le 4)\) is ook hier gelijk aan het gele oppervlak, alleen is dit nu veel moeilijker
te berekenen dan bij f(x) hierboven. De functie g(x) maakt dit ingewikkeld.
Via een computer of rekenmachine blijkt dat \(P(x \le 4) = 0.92343627...\)
Figuur 1d geeft de standaardnormale kansdichtheid, dit is een normale dichtheid waarbij \(\mu = 0\) en \(\sigma = 1\)
Elke normale dichtheid (met gegeven \(\mu\) en \(\sigma\)) kunnen we omzetten naar een standaardnormale dichtheid door over te gaan naar
\(z=\frac{x-\mu}{\sigma}\)
Net als bij de blokcurve blijven de kansen hierbij onveranderd:
in ons geval is \(z=\frac{4-3}{0.7} = 1.42857...\)
en is \(P(z \le 1.42857...) = 0.92343627... = P(x \le 4)\)
Figuur 1:
De verdelingsfunctie = cumulatieve kansverdelingsfunctie = CDF(x) geeft voor elke x direct de grootte van het (gele) oppervlak onder de PDF, links van x.
Dus CDF(x) = de kans dat een toevalsvariabele X kleiner of gelijk is aan x:
\(CDF(x) = P(X \le x)\)
In Figuur 2 zijn de CDF's van de voorbeelden uit Figuur 1 gegeven.
Figuur 2a:
voor elke x<1 is CDF(x) = 0,
\(CDF(3) = P(X \le 3) = \frac{1}{2}\) (de dichtheid is symmetrisch, dus de helft van het oppervlak ligt links van \(\mu=3\))
\(CDF(4) = P(X \le 4) = \frac{3}{4}\) (dit hadden we hierboven uitgerekend)
voor elke x>5 is CDF(x) = 1
Figuur 2b:
voor elke z<-1 is CDF(z) = 0,
\(CDF(0) = P(Z \le 0) = \frac{1}{2}\) (de dichtheid is symmetrisch, dus de helft van het oppervlak ligt links van \(\mu=0\))
\(CDF\left(\frac{1}{2}\right) = \frac{3}{4}\) (ook dit hadden we hierboven al gezien)
voor elke z>1 is CDF(z) = 1
Figuur 2c:
\(CDF(\mu - \sigma) = CDF(3-0.7) = CDF(2.3) = P(X \le 2.3) = 0.15865525...\) (dit geldt voor elke \(CDF(\mu - \sigma)\) onder de normale verdeling)
\(CDF(\mu)=CDF(3)=\frac{1}{2}\) (de dichtheid is symmetrisch, dus de helft van het oppervlak ligt links van \(\mu=3\))
\(CDF(\mu + \sigma) = CDF(3+0.7) = CDF(3.7) = 0.841344746...\) (dit geldt voor elke \(CDF(\mu + \sigma)\) onder de normale verdeling)
\(CDF(4) = 0.92343627...\) (zie hierboven)
Figuur 2d: De standaardnormale verdeling:
\(CDF(\mu - \sigma) = CDF(0 - 1) = CDF(-1) = 0.15865525...\)
\(CDF(\mu)=CDF(0)=\frac{1}{2}\)
\(CDF(\mu + \sigma) = CDF(0+1) = CDF(1) = 0.841344746...\)
\(CDF(1.42857...) = 0.92343627...\) (zie hierboven)
Figuur 2:
Samenvattend:
- elke verdeling met een dichtheidsfunctie anders dan g(x) hierboven is NIET normaal verdeeld.
- elke verdeling met dichtheidsfunctie g(x) is normaal verdeeld
- de verdeling met dichtheidsfunctie g(x) en bovendien \(\mu=0\) en \(\sigma=1\) is standaardnormaal verdeeld
De CDF van een normale verdeling is moeilijk te berekenen. Tegenwoordig bepaal je deze met een rekenmachine of computer. Voordat deze bestonden zette je je normale verdeling eerst om naar de standaardnormale verdeling, en zocht je de CDF daarvan op in een tabellenboek. Uit de CDF-tabel voor \(\mu=0\) en \(\sigma=1\) kon je zo de CDF-waarden voor elke normale verdeling vinden.
Voor jouw vragen gebruik je de CDF, bijvoorbeeld:
\(P(0<X<0.8 ) = P(X<0.8 ) - P(X<0) = CDF(0.8 ) - CDF(0)\)
Kom je hiermee verder?
Een kansdichtheidsfunctie PDF(x) bepaalt de kansverdeling.
Het volledige oppervlak onder elke PDF (maar boven de x-as) is in totaal altijd gelijk aan één,
het oppervlak tot aan de waarde van x geeft de kans op een gebeurtenis kleiner of gelijk aan x.
Voorbeelden:
In Figuur 1a hieronder is in blauw de grafiek van een vlakke blokvormige kansdichtheid gegeven:
\(f(x)=\left\{\begin{matrix}\frac{1}{4} & \text{voor } 1 \le x \le 5\\ 0 & \text{overal elders}\end{matrix}\right.\)
De hoogte van de complete rechthoek onder deze functie is \(\frac{1}{4}\), de breedte \(5-1=4\), dus het oppervlak is \(\frac{1}{4} \times 4 = 1\), hetgeen een PDF vereist.
De kans op een waarde kleiner of gelijk aan 4 is het gele gedeelte van het oppervlak (= links van de lijn x=4):
\(P(X \le 4) = \frac{1}{4} \times (4-1) = \frac{3}{4}\)
Een blokvormige dichtheid kunnen we ook anders beschrijven:
via het gemiddelde \(\mu\) (hier is \(\mu = 3\), want het is een vlakke symmetrische verdeling) en de minimale en maximale waarde van het blok (hier 1 en 5).
Je kan ook zeggen: het is een blokvorm gekenmerkt door \(3 \pm 2\) (met gemiddelde \(\mu = 3\) en spreiding s = 2).
Figuur 1b geeft een normalisatie van deze blokvorm:
schuif het gemiddelde \(\mu\) naar nul, en maak de spreiding s gelijk aan 1.
In dit geval verschuift waarde \(x=4\) naar \(z = (x - \mu)/s = (4-3)/2 = \frac{1}{2}\),
terwijl nog steeds \(P\left(z \le\frac{1}{2}\right) = \frac{3}{4} = P(x \le 4) \)
(merk nog op dat de hoogte van de rechthoek nu \(\frac{1}{2}\) geworden is omdat de breedte nu 2 is)
Figuur 1c geeft de Gaussische curve van de normale kansdichtheid.
Alle grafieken van normaal verdeelde dichtheden voldoen aan dit voorschrift:
\(g(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{1}{2}\left( \frac{x-\mu}{\sigma}\right)^2}\)
voor een gegeven gemiddelde \(\mu\) en standaardafwijking \(\sigma\).
Ook onder deze curve is het totale oppervlak altijd gelijk aan 1.
In ons voorbeeld is \(\mu = 3\) en \(\sigma = 0.7\)
De kans \(P(x \le 4)\) is ook hier gelijk aan het gele oppervlak, alleen is dit nu veel moeilijker
te berekenen dan bij f(x) hierboven. De functie g(x) maakt dit ingewikkeld.
Via een computer of rekenmachine blijkt dat \(P(x \le 4) = 0.92343627...\)
Figuur 1d geeft de standaardnormale kansdichtheid, dit is een normale dichtheid waarbij \(\mu = 0\) en \(\sigma = 1\)
Elke normale dichtheid (met gegeven \(\mu\) en \(\sigma\)) kunnen we omzetten naar een standaardnormale dichtheid door over te gaan naar
\(z=\frac{x-\mu}{\sigma}\)
Net als bij de blokcurve blijven de kansen hierbij onveranderd:
in ons geval is \(z=\frac{4-3}{0.7} = 1.42857...\)
en is \(P(z \le 1.42857...) = 0.92343627... = P(x \le 4)\)
Figuur 1:
De verdelingsfunctie = cumulatieve kansverdelingsfunctie = CDF(x) geeft voor elke x direct de grootte van het (gele) oppervlak onder de PDF, links van x.
Dus CDF(x) = de kans dat een toevalsvariabele X kleiner of gelijk is aan x:
\(CDF(x) = P(X \le x)\)
In Figuur 2 zijn de CDF's van de voorbeelden uit Figuur 1 gegeven.
Figuur 2a:
voor elke x<1 is CDF(x) = 0,
\(CDF(3) = P(X \le 3) = \frac{1}{2}\) (de dichtheid is symmetrisch, dus de helft van het oppervlak ligt links van \(\mu=3\))
\(CDF(4) = P(X \le 4) = \frac{3}{4}\) (dit hadden we hierboven uitgerekend)
voor elke x>5 is CDF(x) = 1
Figuur 2b:
voor elke z<-1 is CDF(z) = 0,
\(CDF(0) = P(Z \le 0) = \frac{1}{2}\) (de dichtheid is symmetrisch, dus de helft van het oppervlak ligt links van \(\mu=0\))
\(CDF\left(\frac{1}{2}\right) = \frac{3}{4}\) (ook dit hadden we hierboven al gezien)
voor elke z>1 is CDF(z) = 1
Figuur 2c:
\(CDF(\mu - \sigma) = CDF(3-0.7) = CDF(2.3) = P(X \le 2.3) = 0.15865525...\) (dit geldt voor elke \(CDF(\mu - \sigma)\) onder de normale verdeling)
\(CDF(\mu)=CDF(3)=\frac{1}{2}\) (de dichtheid is symmetrisch, dus de helft van het oppervlak ligt links van \(\mu=3\))
\(CDF(\mu + \sigma) = CDF(3+0.7) = CDF(3.7) = 0.841344746...\) (dit geldt voor elke \(CDF(\mu + \sigma)\) onder de normale verdeling)
\(CDF(4) = 0.92343627...\) (zie hierboven)
Figuur 2d: De standaardnormale verdeling:
\(CDF(\mu - \sigma) = CDF(0 - 1) = CDF(-1) = 0.15865525...\)
\(CDF(\mu)=CDF(0)=\frac{1}{2}\)
\(CDF(\mu + \sigma) = CDF(0+1) = CDF(1) = 0.841344746...\)
\(CDF(1.42857...) = 0.92343627...\) (zie hierboven)
Figuur 2:
Samenvattend:
- elke verdeling met een dichtheidsfunctie anders dan g(x) hierboven is NIET normaal verdeeld.
- elke verdeling met dichtheidsfunctie g(x) is normaal verdeeld
- de verdeling met dichtheidsfunctie g(x) en bovendien \(\mu=0\) en \(\sigma=1\) is standaardnormaal verdeeld
De CDF van een normale verdeling is moeilijk te berekenen. Tegenwoordig bepaal je deze met een rekenmachine of computer. Voordat deze bestonden zette je je normale verdeling eerst om naar de standaardnormale verdeling, en zocht je de CDF daarvan op in een tabellenboek. Uit de CDF-tabel voor \(\mu=0\) en \(\sigma=1\) kon je zo de CDF-waarden voor elke normale verdeling vinden.
Voor jouw vragen gebruik je de CDF, bijvoorbeeld:
\(P(0<X<0.8 ) = P(X<0.8 ) - P(X<0) = CDF(0.8 ) - CDF(0)\)
Kom je hiermee verder?