3. Valószínűségszámítás
3.1. Bevezetés
A valószínűségszámítás a matematikának egy önállóan fejlődő ága és erre a fogalomrendszerre épül a matematikai statisztika (biometria) is. A modern valószínűségszámítás kidolgozása Kolmogorov orosz matematikus nevéhez fűződik, aki ebben 1930-ban fektette le a valószínűségszámítás alapjait.
A valószínűségszámítás csak egy eszköz a döntéseinkhez. Egy olyan eszköz, mely számszerűsíti egy esemény bekövetkezésének az esélyét, és ezen érték alapján dönteni lehet az eseményre bekövetkezésére vagy be nem következésére vonatkozóan.
A valószínűségszámítás a következő fogalmakra épül.
3.2. Kombinatorika
A kombinatórika (kapcsolástan) az elemek csoportosításával foglalkozik. Elsődleges feladata az elemek csoportjainak előállítása, valamint a csoportok számának meghatározása. Az elemek egy elrendezését komplexiónak nevezzük.
Az elemek elrendezésének három legfontosabb fogalma a permutáció, a variáció és a kombináció témaköréhez tartozik.
3.2.1. Permutációk
Ha az elrendezendő (n db) elemek mind különbözők, akkor ismétlés nélküli, ha az elemek között azonosak is vannak, akkor ismétléses permutációról beszélhetünk. Megegyezés szerint az azonos elemek felcserélését nem tekintjük különböző sorrendnek.
Az ismétlés nélküli permutációk száma:
Pn = 123 ... n =n! vagy röviden Pn = n!
Jelölésben n! (ejtsd: n faktoriális), ami az n elem faktoriális értékét jelöli. Megállapodás szerint 0! = 1.
Ismétléses permutációk száma:
=
ahol k1,k2,k3,...,kn az egymás közt megegyező elemek számát jelöli.
Példák
1. Hány hatjegyű szám állítható elő a 0, 1, 4, 5, 6, 8 számjegyekből?
Megoldás
P6 - P5 = 6! - 5! = 720 - 120= 600
2. Hány hatjegyű számot képezhetünk az 1, 1, 3, 3, 3, 6 számokból?
Megoldás
A számok ismétléses permutáció adja a megoldást
3.2.2. Variációk
Ha n számú különböző elemből kiválasztunk k(k n) számú elemet úgy, hogy figyelembe vesszük ezek sorrendjét is, akkor n elem k–ad osztályú variációjáról beszélünk. Az összes variáció számát a
kifejezés adja.
Ha az n elemből úgy választunk k elemet tartalmazó csoportokat, hogy a csoportban egy elem többször is szerepelhet és az elemek sorrendje is fontos, akkor az n elem k–ad osztályú ismétléses variációját határozzuk meg:
A felső indexben az i betű jelöli az ismétléses variációt.
Példák
1. Négy sebész kettesével, felváltva használja a műtőt úgy, hogy az egyikük a vezető sebész legyen. Adjuk meg a lehetséges beosztást.
Megoldás
Legyen A, B, C, D a négy sebész. A vezető mindig az első helyre kerül, amire 4 lehetőség adódik. A “beosztott” sebészt a maradó 3 fő közül választhatjuk ki. Így a lehetőségek száma
4*3 = 12
A párok tehát:
AB, AC, AD, BA, BC, BD, CA, CB, CD, DA, DB, DC
2. A METRO aluljárójában 4 ablaknál lehet bérletet, jegyet venni. Az egyszerre odaérkező 8 fő, hányféle módon kereshet ablakot magának?
Megoldás
Ugyanannál az ablaknál való elhelyezkedés is megengedett, tehát 4 elemből (ablakból) kell 8-as csoportokat képezni a sorrend beszámításával. A csoportok számát az ismétléses variáció adja:
3.2.3. Kombinációk
Ha az n számú különböző elemből úgy választunk ki k (kn) számút minden lehetséges módon, hogy a kiválasztás során a csoportokon belül az elemek sorrendje nem fontos, akkor n elem k–ad osztályú kombinációjáról beszélünk. Az összes lehetséges kiválasztás száma:
Az jelölést úgy olvassuk, hogy “n alatt a k”.
Ha a k elem között egy elem többször is előfordulhat, akkor n elem k–ad osztályú ismétléses kombinációjáról beszélünk. Az összes kiválasztási lehetőségek száma:
Példák
1. Az egyetemi menza két ételkiadó ablakához 6 hallgató érkezik. Hányféle módon választhatják ki maguk közül az első két hallgatót?
Megoldás
A kiválasztásnál a sorrend nem fontos. A csoportok számát a 6 fő 2-od osztályú kombinációja adja
2. Egy öttagú családnál a telefon 4-szer szólalt meg TV nézés közben. Egy személy 3-szor is odamehetett a készülékhez. A sorrendet nem figyelve, hányféle módon vehették fel a kagylót?
Megoldás
A csoportok száma 5 elem (fő) 3-ad osztályú ismétléses kombinációja
3.3. Binomiális együtthatók tulajdonságai
Az olyan kifejezéseket amelyek két tagból állnak binomiális kifejezéseknek nevezzük, pl. (a+b) vagy (a–b). Vegyük az (a + b) binom hatványait sorba egészen a 3. hatványig (n = 0,1,2,3):
(a + b)0 = 1
(a + b)1 = a + b
(a + b)2 = a2 + 2ab + b2
(a + b)3 = a3 + 3a2b + 3ab2 + b3
Ha az egyes tagok együtthatóit egymás alá írjuk, akkor az ún. Pascal háromszöget kapjuk, ahol a külső szárak mentén csak 1–es áll. A háromszög belsejében álló bármely szám a közvetlen felette lévő és attól balra álló két szám összege:
Vezessük be az jelöléseket és írjuk fel a Newton–féle binomiális tételt:
ahol az együtthatókat binomiális együtthatóknak nevezzük.
A tételt a kifejtett binomiális együtthatókkal is felírhatjuk:
A tételnek egy következménye az alábbi kifejezés:
(1+x)n 1+nx (nx közel van a 0–hoz)
3.4. Kísérlet és esemény
Kísérletnek lehet tekinteni egyrészt minden olyan tevékenységet, amit valamilyen cél érdekében hajtunk végre.
A kísérlet egyes lehetséges kimeneteleit elemi eseményeknek nevezzük. Az eseményeket az ABC nyomtatott nagybetűivel jelöljük. Két eseményt azonosnak tekintünk, ha egy kísérlet minden lehetséges kimenetelét figyelembe véve vagy mindkettő bekövetkezik, vagy egyik sem. Ha két esemény A és B olyan kapcsolatban van egymással, hogy A csak akkor következhet be, ha B is bekövetkezik, akkor azt mondjuk, az A esemény maga után vonja a B eseményt. Az ilyen eseményeket a következő módon jelöljük:
A B
Egy kísérlet összes elemi eseményeinek a halmaza az eseménytér ().
Az elemi eseményekkel kapcsolatos három további fogalom:
a) lehetetlen esemény (): sohasem következhet be a kísérlet folyamán,
b) biztos esemény (): mindig bekövetkezik,
c) ellentett (komplementer) esemény () csak akkor következhet be, ha az A esemény nem következik be.
3.4.1. Eseményalgebra
3.4.1.1. Összeadás
Az A és B események összege az a C esemény, amely akkor következik be, ha az A és B események közül legalább az egyik bekövetkezik:
A + B = C
3.4.1.2. Kivonás
Az A és B események különbsége az a A–B esemény, amely akkor következik be, amikor az A esemény teljesül, de a B esemény nem:
A – B = F = A
3.4.1.3. Szorzás
A G és H események szorzatán azt az eseményt (jelölésben AG) értjük, amely csak akkor következik be, ha a G és H esemény is bekövetkezik:
K = GH
Ha a B és C eseményre igaz, hogy szorzatuk a lehetetlen eseményt adja akkor a két esemény kizárja egymást:
BC =
Egy A eseményre vonatkozóan az alábbi műveletek végezhetők el:
Összeadás
|
Szorzás
|
Komplementer művelet
|
A + A = A
|
A =
|
Ic =
|
A + Ac = I
|
A + I = I
|
A A = A
|
c = I
|
A Ac =
|
A + = A
|
A I = A
|
(Ac)c = A
|
|
Az eseményekkel végezhető műveleteket összefoglalóan Boole–algebrának hívják. A gyakorlatban főleg a logikai áramkörökben fontosak az ún. de Morgan–azonosságok ( az események fölött a vonás a komplementer jele):
és
Ezek a kifejezések több tagra is érvényesek és kiterjeszthetők.
3.4.1.4. Összetett esemény
Egy A esemény összetett vagy felbontható esemény, ha legalább két, tőle különböző esemény összegeként egyértelműen előállítható.
K = G + H K G és K H
Egy elemi esemény nem állítható elő ilyen alakban.
3.4.1.5. Teljes eseményrendszer
Az A1, A2, A3, ..., An események teljes eseményrendszert képeznek ha igazak rájuk az alábbi feltételek:
a) A1 + A2 + A3 + ... + An = I
b) AiAj = O ha ij (i = 1, 2, 3, ..., n és j = 1, 2, 3, ..., n)
3.5. A valószínűség fogalma
A mindennapi életben igen gyakran használjuk ezt a fogalmat, amikor egy esemény bekövetkezési esélyét próbáljuk számszerűen meghatározni. A lehetetlen esemény valószínűsége 0, a biztos esemény valószínűsége 1, és a két szélső érték között a valószínűségi skála egyéb értékei szerepelnek. Minél nagyobb egy esemény bekövetkezésének az esélye, valószínűsége annál inkább közelíti az 1 értéket. A valószínűségi értékeket p–vel jelöljük.
A valószínűség másik ismert megadási módja a százalékos forma, amikor pl. p = 0.5 helyett 50 %–os esélyt mondunk egy esemény bekövetkezésére. Ha magát az A eseményt is jelöljük a valószínűségével együtt, akkor a P(A) jelölést használjuk.
3.5.1. Kolmogorov–axiómák és következményei
Egy esemény valószínűségére az alábbiak érvényesek:
1) 0 P(A) 1
Egy esemény valószínűsége csak 0 és 1 közötti szám lehet.
2.) P(0) = 0
A lehetetlen esemény valószínűsége 0.
2.) P(I) = 1
A biztos esemény valószínűsége 1.
3) Ha az A és B egymást kizáró események (vagyis AB = 0) akkor az A és B eseményekre igaz:
P(A+B) = P(A) + P(B)
Az axiómák következményei:
a.) Ha az A esemény maga után vonja a B eseményt, akkor a valószínűségeikre teljesül, hogy:
P(A) P(B)
b) Az A eseményre és ellentétjére az –ra igaz, hogy:
P(A)+ = 1
c) Két esemény független egymástól, ha szorzatukra igaz, hogy
P(AB) = P(A)P(B)
d) Ha az A1,A2,A3,...,An események páronként kizárják egymást, akkor igaz az alábbi felbontás:
P(A1 + A2 + A3 + ... + An) = P(A1)+ P(A2)+ P(A3)+...+P(An)
Ennek az additivitásnak egy fontos esete az, ha a A1 + A2 + A3 + ... + An események teljes eseményrendszert alkotnak, akkor:
P(A1)+ P(A2)+ P(A3)+...+P(An) = 1
3.5.2. Klasszikus valószínűségi modell
A valószínűséget az egyes események relatív gyakorisága alapján határoztuk meg, amit úgy számítunk, hogy:
vagy
P(A) =
Példa
1. Egy dobozban 5 piros, 3 fehér, 2 kék tabletta van.
Mi a valószínűsége a kék tabletta húzásának?
Megoldás
Az összes lehetőségek száma n = 10. A kedvező lehetőségek száma k = 2
P(A) =
3.5.3. Feltételes valószínűség
Legyen A és B két esemény és P(B) 0. Az A eseménynek a B esemény melletti feltételes valószínűsége az A esemény bekövetkezésének a valószínűségét jelenti, ha a B esemény mint feltétele az A eseménynek bekövetkezett:
P(A B) =
Következmény:
P(AB) = P(A B) P(B)
Ezt az egyenlőséget felhasználva, az A1,A2,A3,...,An események szorzatára kapjuk, hogy:
P(A1 A2 A3 ... An) = P(An A1A2A3...An–1) P(An–1 A1A2A3...An–2) ... P(A2 A1) P(A1)
Példa
Mennyi annak a valószínűsége, hogy egy kétgyermekes családban mindkét gyermek fiú, ha
a) az idősebb gyermek fiú
b) legalább az egyikük fiú
(A fiú és leány születésének valószínűsége azonos.)
Megoldás
Legyen A az az esemény, hogy az idősebb gyermek fiú, B a fiatalabb gyermek fiú. Ekkor a keresett feltételes valószínűségek
a) P(AB|A) =
b) P(AB|A+B)=
3.5.4. Nagyszámok gyenge törvénye
A kísérlet során az A esemény bekövetkezési valószínűsége legyen
P(A) = p
és az ellentett esemény () valószínűsége:
P()= 1–p= q
Legyen >0 tetszőleges valós szám, ekkor a nagy számok gyenge törvénye szerint:
A törvényt Bernoulli–féle törvénynek is nevezik. A törvény azt fejezi ki, hogy a kísérletszám (N) növelésével egyre kisebb lesz annak valószínűsége, hogy valamely esemény relatív gyakorisága és valószínűsége között nagy a különbség.
3.5.5. Függetlenség
P(AB)=P(A)P(B)
3.5.6. Teljes valószínűség tétele
Ha a B1, B2, B3, ..., Bn események teljes eseményrendszert alkotnak és igaz továbbá, hogy P(Bi) 0 ,akkor tetszőleges A esemény valószínűségére igaz az alábbi kifejezés:
P(A) =
vagyis az A esemény valószínűsége a Bi események feltétele mellett meghatározható.
Példa
Az anatómia vizsgán az A csoport hallgatóinak 60% -a, a B csoport hallgatóinak 80%-a sikerrel szerepel. Az A csoport az évfolyam 15%-át teszi ki. Mi a valószínűsége annak, hogy egy véletlenül kiválasztott hallgató sikeresen vizsgázik?
Megoldás
Események:
a) Legyen A a vizsgált esemény.
b) Legyen C1 az az esemény, hogy a kiválasztott egyén A csoport beli. Ennek kiválasztására az esély
P(C1) =
c) Legyen C2 az az esemény, hogy a B csoportból választottunk. Erre az esély
P(C2) =
A sikeres vizsgázás valószínűsége csoportonként
A csoport:
P(A|C1) = %
B csoport:
P(A|C2) = %
A teljes valószínűség tétele szerint
P(A) = P(A|C1)P(C1) + P(A|C2)P(C2) =
= 0.6*0.15 + 0.8*0.85 = 0.77
3.5.7. Bayes–tétel
Ha a B1, B2, B3, ..., Bn események teljes eseményrendszert alkotnak és igaz továbbá, hogy P(Bi) 0 és egy tetszőleges A eseményre P(A) 0,akkor a Bi eseményekre igaz az alábbi kifejezés:
Tehát a Bi események valószínűsége az A esemény bekövetkezése esetén mint feltétel mellett a formula segítségével meghatározható. A kifejezésben a P(Bi) valószínűséget priori valószínűségeknek nevezzük. A Bayes–tétel fontos alkalmazási területe a szakértői rendszerek világa. Pl. egy diagnosztikus folyamat leírása ezen az úton valósulhat meg.
Példa
Atomrobbanás környezetében háromzónát különböztetnek meg. Ezekben a túlélő lakosságnak 15, 40, 45 százaléka lakik. Az első zónában minden túlélő sugársérülést szenved, a második illetve a harmadik zónában 60 illetve 25 százalék ez az arány.
Mi a valószínűsége annak, hogy véletlenszerűen kiválasztva egy sugársérülést szenvedett egyént, az az első zónából való?
Megoldás
Események
A1: első zónából való
A2: második zónából való
A3: harmadik zónából való
B : az illető sugársérült
Bayes tétele szerint
P(A1|B) = = 0.299 0.3
3.6. Valószínűségi változók jellemzése
A biometriai vizsgálatok során megfigyelt vagy mért értékek véletlentől függő mennyiségek, amelyekhez számértékeket rendelünk. Ezeket a véletlen által befolyásolt értékeket közös néven valószínűségi változóknak (random variable) nevezzük. A változó név onnan származik, hogy az értéke megfigyelési egyedenként más és más értéket vehet fel, vagyis az érték egyedenként változik. Ezeket az értékeket bizonyos valószínűségek mellett veszik fel a változók, ezért használhatjuk a valószínűségi változó elnevezést.
A valószínűségi változóknak két formáját ismerjük: diszkrét és folytonos valószínűségi változókat.
3.6.1. Diszkrét valószínűségi változók
Ha a valószínűségi változó értékkészlete véges vagy megszámlálhatóan végtelen xk számsorozat, akkor magát a –t diszkrét valószínűségi változónak nevezzük. Ha az Ak olyan részhalmaz, amelynek elemi eseményeihez a hozzárendeli az xk számsorozat értékeit, akkor az egyes események valószínűségeit (pk) a:
pk = P(Ak) = P( = xk)
formulával lehet megadni. Az így meghatározott valószínűségeket a változó eloszlásának nevezzük. A képlet azt fejezi ki, hogy a valószínűségi változó az egyes xk értékeket milyen valószínűséggel veszi fel.
Egy valószínűségi változó eloszlásfüggvényét (distribution function) F(x) jelöljük és annak valószínűségét adja meg, hogy a milyen valószínűséggel vesz fel egy tetszőleges x értéknél kisebb értéket. Jelölésben:
F(x) = P( < x)
Megjegyzendő, hogy a diszkrét valószínűségi változó F(x) eloszlásfüggvénye lépcsős alakú függvény.
Az F(x) eloszlásfüggvény tulajdonságai az ábráról is leolvashatók:
balról folytonos,
monoton növekedő,
értéke 0 és l közötti.
3.6.2. Folytonos valószínűségi változók
A valószínűségi változók azon csoportját, amelyek értékkészlete véges vagy nem megszámlálhatóan végtelen, folytonos valószínűségi változóknak nevezzük.
Az ilyen típusú változó eloszlásfüggvényének meghatározása éppen a végtelen értékkészlete miatt nehezebb mint diszkrét változó esetében. Az egyes tartományok (szakaszok) valószínűségének megadása ugyanis közvetlenül nem lehetséges. Ezért került bevezetésre a sűrűségfüggvény (f(x)) használata, amelynek révén minden szakasz valószínűsége megadható a szakaszhoz tartozó függvénygörbe alatti terület (integráljának) nagyságával.
Az is mondható, hogy az eloszlásfüggvény (F(x)) a sűrűségfüggvény f(x) integrálja. Folytonos valószínűségi változók esetében mindig létezik a valószínűségi változónak sűrűségfüggvénye. A sűrűségfüggvény tulajdonsága, hogy
értéke 0 (hiszen a valószínűség nem lehet negatív értékű),
a függvény görbe alatti területe = l (a valószínűség max. értéke csak 1 lehet).
Némely esetben a sűrűségfüggvény meghatározása nem egyszerű, mert ha ismerjük is, nem könnyű elvégezni a függvény integrálását. Ezért a biometriában leggyakrabban használt folytonos függvényekre mint pl.2 eloszlás, normális eloszlás, F eloszlás, t eloszlás, stb. eloszlástáblázatokat készítettek éppen a gyakorlati munka megkönnyítése miatt. Ezekből a táblázatokból a kívánt valószínűségeket egyszerű módon ki lehet olvasni.
3.6.3. Valószínűségi változók várható értéke
Ha egy kísérletet sokszor megismétlünk és mindegyik kísérletet egymástól függetlenül hajtjuk végre, akkor a valószínűségi változónak az egyes kísérletek során felvett értékei egy jól meghatározott érték körül ingadoznak. Ezt az értéket várható értéknek nevezzük. Diszkrét valószínűségi változó esetén a várható érték véges k esetén:
Folytonos eloszlású valószínűségi változó esetén az f(x) függvény ––től +–ig integrálja adja a várható értéket. Ennek meghatározása az esetek többségében nem könnyű feladat.
3.6.4. Valószínűségi változók szórása
Egy valószínűségi változó értékeinek a várható értéke körüli elhelyezkedését, szóródását nevezzük a változó szórásának. Jelölve D(). Ennek négyzete a variancia ami a változó és várható értéke különbségének a négyzete, illetve ennek várható értéke:
Var() = D2() = M(–M())2 = M()–M()2
A szórás nyilván csak akkor van értelmezve, ha a várható érték is létezik.
Diszkrét valószínűségi változó esetén a szórásnégyzet (variancia):
Var() = D2() =
Folytonos valószínűségi változó esetén a Var() kétszeri integrálással határozható meg.
3.6.5. Nevezetes diszkrét eloszlások
3.6.5.1. Binomiális eloszlás
Végezzünk el egy kísérletet n–szer egymástól függetlenül. A kísérlet során egy A esemény bekövetkezésének valószínűsége legye P(A) = p és az ellentett esemény valószínűsége pedig = q = 1–p. A p–ről feltesszük, hogy konstans a kísérlet folyamán. A valószínűségi változó az A esemény bekövetkezéseinek a számát jelenti. Ekkor annak valószínűsége, hogy a kísérlet során az A esemény k–szor következik be a következő alakban adható meg:
pk = P( = k) = (k = 0, 1, 2, ..., n)
A valószínűségi változó eloszlását binomiális eloszlásnak nevezzük, amelynek várható értéke:
M() = np
és szórása:
D() =
formában határozható meg.
Példa
1. Egy bizonyos betegség a hagyományos terápiával az esetek egynegyed részében gyógyítható. Új kezelést akarnak bevezetni, melyet előzőleg 10 betegen kipróbálnak. Ha legalább heten meggyógyulnak, akkor az új kezelést bevezetik. Ha legfeljebb hárman gyógyulnak meg, akkor az új eljárást elvetik. Ha 4, 5, vagy 6 beteg gyógyul meg, akkor az eljárást tovább vizsgálják.
A kezelés hatása a régi terápiás eljárással azonos. Határozzuk meg a három esethez tartozó valószínűségeket.
Megoldás
Jelöljük a vizsgált eseményeket A, B, C betűkkel. Az események binomiális eloszlást követnek, így
P(A)=
P(B)=
P(C)=1-(P(A)+P(B)=1-(0.0035 + 0.7759) = 0.2206
3.6.5.2. Poisson–eloszlás
A
pk = P( = k) = (k = 0, 1, 2, ...)
eloszlást a valószínűségi változó Poisson–eloszlásának nevezzük, ahol >0 egy tetszőleges valós szám.
Poisson eloszlást követnek pl. a kalácsban egy adott területre eső mazsolák száma, a lehulló hópelyhek száma egy adott tartományon, baktériumok, sejtek száma.egy adott téfogatban, balesetek száma egy időintervallumban, stb.
A Poisson–eloszlás és a binomiális eloszlás között szoros a kapcsolat. Ha a binomiális eloszlásban n nagy és a vizsgált esemény valószínűsége a p értéke 0–hoz közeli érték (az np szorzat értéke < 5), ilyenkor a = np választással a binomiális eloszlás jól közelíthető a Poisson–eloszlással:
A Poisson–eloszlás várható értéke:
M() =
szórása:
D() =
Példa
Egy vizsgálat kimutatta, hogy egy adott tóban a baktériumok 2 baktérium/cm3 sűrűséggel fordulnak elő, és Poisson-típusú eloszlást követnek. Mi a valószínűsége, hogy egy 2 cm3 nagyságú minta
a) baktériummentes
b) legalább két baktériumot tartalmaz?
Megoldás
A mintában 4 baktérium van, így =4 paraméterű Poisson-eloszlással van dolgunk.
a) P(k=0)=e-4=0.0183
b) 1-(P(k=0)+P(k=1))=1-5e-4=0.9080
3.7. Nevezetes folytonos eloszlások
3.7.1. Egyenletes eloszlás
Az egyenletes eloszlás sűrűségfüggvénye és grafikonja:
f(x) =
Eloszlásfüggvénye:
F(x) = P(
A várható érték és szórás:
M() = és D() =
3.7.2. Exponenciális eloszlás
Az exponenciális eloszlás sűrűségfüggvénye:
f(x) =
ahol x>0 tetszőleges pozitív szám.
Az exponenciális eloszlásfüggvény alakja
F(x) = P(
A várható érték és szórás:
M() = és D() =
Exponenciális eloszlást követnek pl. a radioaktív bomlási folyamatok, az alkatrészek élettartamai stb.
Az exponenciális eloszlás általánosított alakja a Weibull–eloszlás, amelynek sűrűségfüggvénye (c > 0 és > 0 állandók):
f(x) =
Eloszlásfüggvénye:
F(x) =
A Weibull–eloszlás egyik sajátságos felhasználási területe a gyógyszerkinetikai vizsgálatok.
3.7.3. Normális eloszlás
A statisztikai vizsgálatok szempontjából az egyik legfontosabb eloszlás a normális eloszlás. Központi helyet foglal el a vizsgálatok között mivel számos statisztikai eljárás ezen az eloszlástípuson alapszik. Maga az elnevezés is arra utal, hogy a mért adatainktól az várjuk, hogy ilyen módon viselkedjenek, mert az a természetes, a normális viselkedése az adatoknak. Az eloszlás többféle elnevezéssel is használatos: Gauss–eloszlás, harang–görbe elnevezések szinonimái a normális jelzőnek.
Egy tetszőleges valószínűségi változó normális eloszlású, ha sűrűségfüggvényére igaz az alábbi kifejezés:
f(x) =
A kifejezésben a és az eloszlás két paramétere, ahol tetszőleges valós szám, a tetszőleges pozitív szám. Ez a két paraméter határozza meg, hogy a végtelen sok eloszlást tartalmazó ún. normális eloszláscsaládnak éppen melyik tagját vizsgáljuk.
Az ilyen típusú eloszlások szimmetrikus, egycsúcsú eloszlások, amelynek szárai a – és + –hez tartoznak. A függvények az X–tengelyt csak aszimptótikusan közelítik, de azt soha nem érintik. A görbe maximum helye az X–tengelyen a értéknél van. A paraméter a görbe szélességét, vagyis az adatok elhelyezkedését határozza meg.
Az eloszlás várható értéke és szórása:
M() = és D() =
A harang–görbe csúcsa az eloszlás várható értékénél a értéknél található.
Bármely normális eloszlásra igaz, hogy az adatok 68 %–a a várható értéktől a – és + távolságon belül helyezkednek el, vagyis az adatok a várható érték körül tömörülnek. További jellegzetessége az eloszlásnak, hogy az adatok 95 %–a a –2 és +2 értékek közt van és az adatok 5 %–a helyezkedik el ezen távolságokon kívül. Ez a rész az ún. farok rész (tail) a szignifikancia vizsgálatokban kap igen fontos szerepet. Ebbe a részbe csak kis valószínűséggel esnek adatok, s ezt a tulajdonságot használjuk fel döntéseinkhez.
Mivel a normális eloszlások átszámolhatók az egyikből a másikba, minden eloszlás azonos alakra hozható az ún. standardizálási eljárással. Az így kapott normális eloszlást standard normális eloszlásnak nevezzük, és igaz rá, hogy az eloszlás várható értéke a = 0, szórása = 1. A standardizálási formula, amellyel bármelyik normális eloszlású változót egy új z változóba standardizálhatjuk:
zi =
A kifejezés azt jelenti, hogy minden mért xi értékből levonjuk az eredeti normális eloszlás várható értékét és a különbséget osztjuk a szórással. Az így kapott zi értékek eloszlása standard normális eloszlású lesz. Az eljárás eredményeképpen az eloszlás szimmetria–tengelye az Y–tengely lesz és a szórások egységnyi távolságban helyezkednek el az origó körül. A standard normális eloszlás sűrűségfüggvénye:
(x) =
A standard normális eloszlás sűrűségfüggvényére a (x), az eloszlás függvényére a (x) jelöléseket használjuk.
A függvény tulajdonságai az alábbiak szerint foglalható össze:
a) szimmetrikus függvény az y–tengelyre (az y tengely a szimmetria tengelye)
(x) = (–x) és (–x) = 1–(x)
b) a függvény legmagasabb pontjának koordinátái:
(0, ) értékek
c) a függvény görbe alatti területe = 1, ami azt jelenti, hogy egy standard normál eloszlású valószínűségi változó értékei 1 valószínűséggel a (–, +) tartományból származnak
f) az a) és e) pontok értelmében az y tengelytől jobbra és balra első területek nagysága:
g) egy tetszőleges (,) paraméterű normális eloszlású valószínűségi változó sűrűség és eloszlásfüggvénye kifejezhető a standard normális eloszlás hasonló függvényeivel:
sűrűségfüggvény: f(x) =
eloszlásfüggvény: F(x) =
h) a binomiális eloszlás tagjait jó megközelítéssel meghatározhatjuk a standard normális eloszlás segítségével, ha az n nagy és a p, q értékek nincsenek szorosan a 0 közelében, akkor:
a közelítés akkor jó, ha az np>5 és nq>5 egyenlőtlenség teljesül.
Hasonló kapcsolat van a Poisson–eloszlás és standard normális eloszlás között is, ha a elég nagy, akkor a Poisson–eloszlás jól közelíthető a standard normális eloszlással:
Példa. Tegyük fel, hogy a sorozáson megjelenő férfiak körében a systoles vérnyomásérték várható értéke 130 Hgmm és a szórása 12 Hgmm. Várhatóan a férfiaknak hány %–a esik a 140–150 Hgmm tartományba, ha a vérnyomás értékek eloszlása normális eloszlást követ?
Megoldás. A feladat értelmében a = 130 és a = 12. Transzformáljuk át az értékeket z eloszlásba, hogy a standard normális eloszlás táblázatát tudjuk használni.
z1 =
z2 =
A keresett arányt a z1 és z2 értékek közötti terület nagysága adja meg:
A terület megállapításához használjuk az I. táblázatot:
T = z1.67 – z0.83 = 0.4554 – 0.2881 = 0.1673
vagyis
P(140 x 150) = 0.1673
Tehát várhatóan a férfiaknak 16.7 %–a esik az enyhe hipertóniás kategóriába.
3.8. Centrális határeloszlás tétele
A statisztikában oly fontos normális eloszlást a valószínűség számítás egyik alapvető tétele a központi (centrális) határeloszlás tétele biztosítja. A tétel szerint – szabad megfogalmazásban – egymástól független sok apró hatás együttes eredményeként keletkezett értékek eloszlása normális eloszlást követ függetlenül az összetevők eloszlásától.
Különösen fontos a tétel alkalmazhatósága az élettani folyamatok esetén, hiszen itt egy–egy jelenség számos független hatás eredőjeként alakul ki.
3.9. Szabadságfok fogalma
A szabadságfok fogalmát Sir R.A. Fisher vezette be. Egy statisztika szabadságfokát – amelyet df–el (degrees of freedom) jelölünk a továbbiakban –, úgy definiáljuk, hogy az N mintaszámból levonjuk az adott statisztika kiszámításhoz szükséges, az adatokból már meghatározott paraméterek k számát.
df = N – k
A példa kedvéért az alább bemutatott statisztikák a későbbi fejezetekben részletesen tárgyalásra kerülnek.
Példa. Az n számú minta adatból számított számtani átlag szabadságfoka n, mivel az átlag kiszámításához csak a minta adatokat használjuk fel, a képletben nincs olyan paraméter, amit az adatokból számolnánk ki:
A számlálóban csak a minta adatai, a nevezőben a minta száma szerepel.
|