A WAV formátum születése
A WAV formátumot a Microsoft fejlesztette ki, a formátumát is ő határozta meg, kifejezetten a Windows multimédiás képességeihez igazodva.
A WAV-file-ok a multimédiában a digitalizált hangok szabványos formátumának tekinthetők. (A Microsoft a ’90-es évek elején dolgozta ki a multimédiára vonatkozó RIFF-állományok háziszabványát; ennek az alkalmazása a hangra a WAV-formátum, a hangos mozóképre pedig az AVI-formátum.)
Fájlformátum alatt a fájl tulajdonságait tartalmazó szabványokat vagy szokványokat (egy-egy nagy gyártó „háziszabványait”) értjük, de a kiterjesztésre is szokták használni ezt a kifejezést.
A WAV formátum jellemzése
A WAV fájl digitális hanghullámokat tartalmaz, melyek különböző mintavételi fokozatúak lehetnek (11,025 kHz, 22,05 kHz, 44,1 kHz 48 kHz; mono vagy sztereo). A szabványos mintavételi arányok mellett a WAV-file-ok más mintavételi arányokat is tartalmazhatnak – ilyenkor azonban olyan lejátszó programra, valamint hangkártyára van szükség, amely ezeket az arányokat támogatja, és képes helyesen lejátszani.
A WAV formátum felépítése
Egy Wav állományban három adatblokk van, a következő adatokkal:
Az első a RIFF-rész (ezt a Microsoft definiálta "Resource Interchange Format" néven) amely az állományt azonosítja, mint WAV állományt.
A második a formátum-rész: néhány jellemzőt tárol, mint a gyűjtési gyakoriságot.
A harmadik, data-részben a tényleges (hang)adatok vannak.
RIFF
A hanghullámoknak érdemes áttekintenünk néhány fizikai jellemzőjét. A hangot hullámjelenségként értelmezhetjük, így egy szinuszgörbével jellemezhetjük. Fontos paraméter a frekvencia, amely a periódusok ismétlődési sűrűségét jelenti. Minél gyakoribb az ismétlődés sűrűsége, annál nagyobb a frekvencia és annál magasabb a hang. A hanghullámok a hangforrás közelében sokkal hangosabbak, mint távolabb, mivel a hangot a levegő molekulái lefékezik. Ez grafikusan úgy jelenik meg, hogy hangforrás közelében magasabbak a hullámok, mint attól távolodva. Ezt nevezzük csillapodó rezgőmozgásnak. Az intenzívebb, vagy hangosabb hangoknak nagyobb az amplitúdójuk.
A WAV minőségi jellemzői
A hang digitalizálása során nem a teljes hangot, hanem annak csak meghatározott számú mintáját rögzítjük. Ez azért is furcsa, mert a digitális hangot például CD-ről sokkal tisztábbnak és jobb minőségűnek érezzük, mint például egy „bakelit”-lemezjátszóról hallgatva. A WAV fájlok készítésénél leggyakrabban a 44,1 KHz-es mintavételi frekvenciát használják, ami azt jelenti, hogy 44100-szor vesz mintát a program másodpercenként az eredeti hangból. A másik fontos paraméter a minta nagysága (vagy másképp: kvantálás), ami HiFi/CD minőségben, egy minta esetén, 16 bitet jelent.
A 8 vagy 16 bites kvantálásnak abban van szerepe, hogy 1 vagy 2 bájton mennyi különböző értéket tudunk tárolni. 1 bájton (8 biten 28=) 256; 2 bájton (16 biten 216=) 65536 egymástól különböző érték tárolható. Nyilvánvaló, hogy – ha a rögzítendő/tárolandó jellemző pl. a hangosság (dinamika) – egészen más finomsággal szólalhat meg egy szimfonikus nagyzenekar 16 biten, mint 8 biten.
A minta mérete
A hangminta méretét, ha HiFi/CD minőségű, a következőképpen számolhatjuk ki. A minták számát (44100) megszorozzuk a minta méretével (16 bit). Ha sztereo a felvétel, akkor két csatornával számolunk, így a kapott eredményt még kettővel kell megszorozni, hogy megkapjuk a minta méretét bitekben. Ha a megfelelő osztásokat elvégezzük kb. 172 Kb/sec adatátviteli sebességet kapunk. Ha ezt WAV-formátumban tárolnánk a gépen: 1 perces hang ~ 10 MiB helyet igényel az előző jellemzőkkel.
A hangminta minősége
A hangminta minőségét a mintavételi frekvencia és a minta mérete határozza meg.
A digitális hang nem tartalmazza a teljes lejátszott eredeti (analóg) hangot. A digitalizálás során meghatározott méretű mintákat veszünk az eredetiből, amelyeket hangdigitalizálás esetében hangmintának nevezünk.
Frekvencia (rezgésszám) alatt az időegység (1 másodperc) alatt bekövetkezett rezgések számát értjük. Minél több rezgés következik be, annál nagyobb a frekvencia.
A periódus egy analóg jel azon legkisebb szakasza, mely állandóan, periodikusan ismétlődik. Pl. szinuszhullám esetén az x tengelytől induló pozitív félperiódustól az x tengelybe záródó negatív félperiódus végéig tart a teljes periódus.
Egy hullám amplitúdóján a hullám 0 ponttól történő legnagyobb kitérését értjük. Ez történhet pozitív és negatív irányban egyaránt.
Kapcsolódó hangfelvételek