Népesség és minta
A népesség és a minta fogalmai nem fedik egymást. Népesség lehet nem csupán egy adott népcsoport vagy lakosság, hanem olyan elvont dolgok is, mint az utolsó két évtized átlaghőmérséklete, a magyar nyelv összes szava, de akármilyen más adatforrás is. A statisztikai felmérések során igen gyakori probléma, hogy nincs hozzáférésünk a népesség minden egyes tagjához, így kutatásainkat kénytelen vagyunk egy véletlenszerűen kiválasztott mintán elvégezni. A véletlenszerűség garantálja az elfogulatlanságot és a torzítatlanságot. Ezt az esetlegesen kiválasztott népesség-töredéket nevezzük mintának. Így járnak el pl. azok a közvélemény-kutatók, akik értelemszerűen nem tudják az egész felnőtt lakosság véleményét megkérdezni egy adott kérdésről, így a népességet leszűkítik egy tetszőleges számú egyedből álló mintára. Minél többször ismétlik meg a kutatást, annál stabilabb lesz az eredménye, de éppen a teljesség hiánya miatt mintavételi hibákkal kell számolnunk. E ponton alkalmazzuk a statisztikai következtetést. Azért veszünk mintát egy népességből, mert maga a népesség egésze érdekel bennünket, és a mintáról tudunk az egészre következtetni. A statisztikai következtetés tehát azzal foglalkozik, hogy hogyan tudunk következtetéseket levonni az egész népességre vonatkozóan a népességnek csupán egy, mintaként véletlenszerűen kiválasztott töredékéből. Ily módon tanulmányozzák például az alkoholfogyasztási, a gyereknevelési, szokásokat, a televízió-nézéssel vagy éppen olvasással eltöltött időt. A mintából származó adatok közti kapcsolatot azonban értékelnünk kell a helyes következtetés érdekében, ezekben azonban mindig is marad egy bizonyos bizonytalanság, ami a mintavételi hibából adódik. Ha a statisztikai próbák arra utalnak, hogy a hatás mértéke a mintában elég nagy a mintavételi hiba várható nagyságához képest, akkor biztosak lehetünk abban, hogy a mintában megfigyelt hatás a népesség egészére nézve érvényes.
Normális eloszlás
Ha nagyszámú adatot gyűjtünk össze, és táblázatokba rendezzük őket, majd gyakorisági eloszlásokat rajzolunk belőlük, akkor végeredményként gyakran harang alakú, szimmetrikus eloszlási görbéhez kapunk, amit normális eloszlásnak nevezünk. A legtöbb elem az átlag körül csoportosul (ez a harang csúcsa), s a harang szára gyorsan esik nagyon magas és nagyon alacsony értékeknél. Ez a görbe különlegesen érdekes, mivel ezt kapjuk akkor is, ha az adatsor egymástól független, véletlenszerű események következtében áll elő. Véletlenszerű tényező például az, hogy ha egy golyót sokszor egymás után ledobunk, akkor jobbra vagy balra esik-e le egyes elágazásoknál. Ekkor szimmetrikus eloszlás jön létre: a legtöbb golyó pont középre esik, de vannak, amelyek a középtől messzebbre hullanak. Jól szemlélteti ez, hogy a véletlenszerű eloszlást milyen jól közelíti meg a normális eloszlás. A normális eloszlás tehát azt a valószínűséget jelöli ki, hogy mekkora eséllyel fognak bármilyen meghatározott mértékben eltérni az átlagtól egy normális eloszlást mutató népességben az adatok. Ha arra az adatra van szükségünk, hogy mi az optimum egy adott mintában, akkor a nyert adatokat skálába rendezzük, melyen az egyes pontértékek összehasonlíthatók lesznek.
Reprezentativitás
Ha választ akarunk kapni arra a kérdésre, hogy mennyire hasznos a minta a népesség vonatkozásában, akkor arra vagyunk kíváncsiak, hogy mennyire reprezentatív az adott minta. Ha például egy ezer emberből álló mintát megkérdezünk, melyik rádióadót hallgatja legszívesebben, akkor az az átlag érdekel minket, amit a népesség összességére vetítünk ki. Az tehát a kérdés, hogy hogyan tudunk következtetni a mintából az egész népességre: mennyire reprezentatív a kutatási eredmény. Ha például csak a fővárosi rádióhallgatókat kérdezzük meg, akkor csökken a minta reprezentatív értéke az egész lakosság vonatkozásában. A következtetések pontossága a mintavételi hiba függvénye. Egyazon népességből egymást követően vett véletlenszerű minták eltérő átlagot adnak, amelyek a népesség igazi átlaga körül a mintaátlagok eloszlását mutatják. Ezek a mintaátlagok maguk is számok, melyeknek kiszámítható a szórásuk. Ezt a szórást az átlag hibájának vagy FM-nek nevezzük. Minél nagyobb a minta nagysága, értelemszerűen annál inkább megbízható lesz a mérés eredménye is, valamint akkor is, ha többször megismétlik az adott vizsgálatot.
Kapcsolódó animációk: