A statisztikai hipotézis fogalma
A sokaságra (tételre) vonatkozó feltevést statisztikai hipotézisnek nevezzük. A hipotézis vonatkozhat az eloszlásra vagy annak valamely paraméterére is. A hipotézis helyességének ellenőrzéséthipotézisvizsgálatnak nevezzük, amit mintán végzünk el. A hipotézisvizsgálat eszközei a különféle próbák.
A hipotézisvizsgálat első lépése a nullhipotézis felállítása. Ennek egy konkrét állításnak kell lennie, pl. egy alkatrész hosszának várható értéke 156 mm, ezt a következőképpen jelöljük:
H0: μ = 156 mm (ahol μ a várható érték jele)
A nullhipotézissel szemben egy ellenhipotézist is felállításunk, ami lehet egyoldalú (pl. He: μ < 156 mm vagy He: μ > 156 mm) és lehet kétoldalú (pl. He: μ ≠ 156 mm).
Hipotézisvizsgálat során meg kell határoznunk az α valószínűséget, más néven kockázati szintet (szignifikanciaszint). A kockázati szint azt jelenti, hogy egy döntést akkor is elfogadunk, ha az a helyes nullhipotézist elutasítja. A helyes hipotézis elfogadását konfidenciaszintnek (megbízhatósági szintnek) nevezzük, ε = 1 - α. A nagy α érték esetén nagyobb a valószínűsége annak, hogy elvetjük a helyes nullhipotézist, kicsi α érték esetén pedig előfordulhat a helytelen nullhipotézis elfogadása.
Valamilyen próbát végzünk ahhoz, hogy megállapítsuk, helyes-e a nullhipotézis. A próbához mintát kell vennünk, a minta nagyságát előre meg kell határoznunk. Túl nagy minta vétele nagyon drága, túl kicsi minta vétele viszont nem feltétlenül elegendő a megbízható eredményhez.
A helytelen nullhipotézis elfogadásánakvalószínűsége β. Az α és a β között fordított arányosság áll fenn, ahhoz, hogy mindkettő csökkenjen, megfelelő mintanagyságra van szükség.
Az egymintás u-próba
Az egymintás u-próbát akkor alkalmazzuk, amikor a hipotézis tárgya valamilyen normáleloszlású sokaság várható értéke.
Egy példán keresztül nézzük meg, hogyan működik az egymintás u-próba.
Egy gép által töltött termék névleges tömege 501 gramm (c = 501, ez a nullhipotézis). A minta alapján a tapasztalati szórás s = 3 gramm. A szignifikanciaszint α = 10%. A próba kétoldalú, tehát kisebb és nagyobb is lehet a tényleges tömeg a névlegesnél. A minta 20 elemű, átlaga 500,82 gramm.
u = (500,82 – 501)/3*4,4721 = -0,2683
kétoldalú próbáról van szó, ami azt jelenti, hogy mindkét oldalon 5%-os szignifikanciaszinttel kell számolnunk, azaz a táblázatban az 1 – 0,05 = 0,95-höz tartozó u értékeket kell néznünk.
u Φ(u) 1,63 0,9484 1,64 0,9495 1,65 0,9505 1,66 0,9515 1,67 0,9529 1,68 0,9535
Az u értéke –1,64 és 1,64, mivel a kiszámolt u = -0,2683 a két érték között van, ezért azt mondhatjuk, hogy az átlag 90%-os valószínűséggel a névleges érték körüli szűk intervallumba esik (azaz 498 és 504 gramm közé).
Az F-próba
Az F-próba alkalmazási területe szintén normál eloszlású, de itt a szórást vizsgáljuk.
Példa: egy sokaságból két mintát vettünk, a beállítás előtti minta elemszáma 51, a beállítás utáni minta elemszáma 61. Az első mintaszórása 0,67, a másodiké 0,49. Az egyoldalú szignifikanciaszint α = 2,5%. Hipotézisünk: H0: se = su. F-próbánál mindig a számláló a nagyobb szám, tehát mindig egyoldalú próbát végzünk, azaz az ellenhipotézisünk: He: se > su.
Kiszámítjuk a varianciákat (szórásnégyzeteket): se2 = 0,4489 és su2 = 0,492 = 0,2401. F értékét úgy kapjuk meg, hogy a varianciák közül a nagyobbikat elosztjuk a kisebbikkel, tehát F = 0,4489 / 0,2401 = 1,8696. Ezt az értéket fogjuk összehasonlítani a táblázatban található F értékkel, melyet a megfelelő szignifikanciszintnél és szabadságfokoknál kell megkeresni. A szabadságfok a minta elemszámánál annyival kisebb, ahány lineáris összefüggés van a két változó között. Itt egy összefüggés van, tehát a két szabadságfok: 51 – 1 = 50 és 61 – 1 = 60.
fn fsz 40 50 60 20 2,46 2,35 2,29 30 2,20 2,07 2,01 40 2,07 1,94 1,88 60 1,94 1,82 1,74 120 1,82 1,69 1,61
Fα = 1,82, mivel F > Fα , ezért a nullhipotézist elvetjük, az ellenhipotézist fogadjuk el, azaz azt mondhatjuk, hogy a gép beállítása a szórást 2,5%-os szignifikanciaszinten csökkentette (azaz 97,5%-os valószínűséggel csökkentette).