Miten miksataan - Digitaalinen audio

Digitaalinen audio

Kun ääni muunnetaan digitaaliseen muotoon, kaikki se soittajan tai laulajan luovuus muutetaan binääriseksi koodiksi, ykkösiksi ja nolliksi. Tämä tapahtuu kahden päävaiheen, näytteenoton ja kvantisoinnin kautta.

Molemmat asiat tulevat vastaan dawissa uuden projektin luonnissa ja viedessä projekti äänitiedostoksi. Jos et ole varma, mikä "sample rate" ja "bit debth" sinun tulee valita, pian tiedät millä perusteella valita.

Näytteenotto (Sampling)
Äänisignaalia mitataan tietyin aikavälein. Digitaalisessa äänenkäsittelyssä minimi- ja oletusnäytteenottotaajuus (sample rate) on 44.1 kHz. Silloin äänisignaalista otetaan siis 44 100 näytettä sekunnissa ja näiden näytteiden perusteella ääni voidaan muuttaa takaisin soivaan muotoon.

Ihmisen kuuloalueen maksimi 20 kHz ja se on siten myös korkein taajuus joka on tarvetta tallettaa. Jotta tallentaminen ja toistaminen olisi tarkkaa, näytteenottotaajuuden on oltava vähintään tuplasti korkeampi kuin korkeimman tallennettavan taajuuden. Tätä korkeammat taajuudet suodatetaan pois, mutta analogiset suodattimet eivät ole täysin jyrkkiä, joten näytteenottotaajuuden on oltava yli 40 kHz, jotta saadaan jätettyä ns. turvamarginaalia.

Jos digitaalinen näytteenotto ei ole tarpeeksi korkea tallentamaan korkeaa taajuutta, se saattaa muuntua alkuperäiseen ääneen kuulumattomaksi matalammaksi taajuudeksi ja häiritä ääntä. Tästä ilmiöstä käytetään nimitystä aliasing, joka voidaan suomentaa "taajuuspeilautuminen".

44.1 kHz on CD:n ja useimpien suoratoistopalveluiden standardi ja riittää kattamaan koko ihmisen kuuleman äänispektrin. On mahdollista käyttää myös korkeampia näytteenottotaajuuksia, 48 kHz, 88.2 kHz, 96 kHz, 192 kHz... Ääntä prosessoidessa voi myös syntyä aliasing-efektiä ja korkeampi näytteenottotaajuus parantaa äänen tarkkuutta ja vähentää tätä riskiä. Korkeampi näytteenottotaajuus vie enemmän tehoja käsitellessä ja enemmän levytilaa tallennettuna eikä välttämättä tarjoa niin suurta etua, että sen vuoksi kannattaisi uhrata koneen tehoja, jos ne meinaavat loppua äänen tarkkuudesta johtuen. 44.1 tai 48 kHz käytännössä riittää äänenkäsittelyyn ja ääni käännetään yleensä joka tapauksessa lopuksi 44.1 kHz-muotoon paitsi jos ääntä käytetään videossa, sillä videoäänen standardi on 48 kHz.

CD-laadussa ja siitä kymmenkertaisessa näytteenottotaajuudessa on teoreettinen ero äänen tarkkuudessa, mutta ero ei ole samalla tavalla havaittava, kuin vaikkapa verrattaessa wav-tiedostoa huonolaatuiseen mp3-tiedostoon, jolloin äänien ero on todella huomattavissa.

Oversampling
Joidenkin pluginien tarjoama ominaisuus oversampling, ylisamplaus, tarkoittaa äänen näytteenottotaajuuden nostamista prosessoinnin ajaksi. Tämä mahdollistaa hetkellisen prosessoinnin tarkemmalla näytteenottotaajuudella ilman, että taajuutta tarvitsisi nostaa koko projektissa.

Äänen tallennuksen yhteydessä käytettävää sampling-termiä ei tule sekoittaa äänen tuottamisen yhteydessä käytettävään samaan termiin jolla tarkoitetaan jonkin äänen pätkäisemistä lyhyisiin pätkiin ja näiden pätkien käyttämistä musiikin tekemiseen. Tuottamis-tarkoituksessa samplet ovat ihmisen havantorajojen mitoissa, kun taas digitaalisesta tallenteesta puhuttaessa samplet (näytteet) ovat sekunnin kymmenestuhannesosia.

Kvantisointi

Kun ääni muunnetaan digitaaliseksi ja siitä otetaan tuhansia näytteitä sekunnissa, jokainen näyte kvantisoidaan eli pyöristetään tiettyyn lukuarvoon. Bit debth eli bittisyvyys sanelee mahdollisten eri pyöristettävien arvojen määrän. CD-standardin bittisyvyys on 16 bittiä ja tähän ääni yleensä lopulta käännetään, vaikka äänitettäessä ja prosessoidessa käytettäisiin korkeampaa bittisyvyyttä. 16-bittisessä järjestelmässä on 2¹⁶ eli 65 536 mahdollista arvoa per näyte ja se kattaa n. 96 desibelin dynaamisen alueen.

Paremman äänitysdynamiikan ja tarkemman prosessoinnin takia äänittäessä ja miksatessa käytetään kuitenkin yleensä korkeampaa bittisyvyyttä. 24-bittinen audio sisältää jo 16 777 216 mahdollista arvoa per näyte ja kattaa n. 144 dB dynaamisen alueen. Aina kun amplitudi, eli signaalin hetkellinen voimakkuus pyöristetään (kvantisoidaan) lähimpään mahdolliseen bittiarvoon, alkuperäinen signaali vääristyy hieman ja tästä syntyy pientä kohinaa, joka voi erottua kaikkein hiljaisimmissa kohdissa. 24-bittinen audio on jo niin tarkka, ettei teoreettista kohinaa voida havaita edes hiljaisissa kohdissa. Mitä useamman digitaalisen prosessoinnin läpi ääni laitetaan, sitä suuremmalla mahdollisuudella ääneen tulee pieniä vääristymiä joita korkeampi bittitarkkuus minimoi. Suositeltavaa on siis käyttää prosessoidessa 24-bittistä järjestelmää 16-bittisen sijaan. Ellei sitten haluta nousta siitäkin korkeammalle...

32

24-bittisestä seuraava käytetty taso on 32 bittiä, ja sitä voidaan käyttää kokonaislukuna tai liukulukuna. 32 bittiä kokonaislukuna (32-bit integer) tarjoaa jo huiman 192 dB dynaamisen alueen. 32-bittinen kokonaisluku ei ole yleisesti käytössä audiotöyssä, sitä vastoin 32-bittiä liukulukuna (32-bit float) on prosessointitehojen kasvun myötä yhä enemmän käytetty formaatti.

32-bittinen liulukuku koostuu kolmesta osasta:

-1 bitti merkkibittiä (positiivinen tai negatiivinen luku)

-8 bittiä eksponenttia (säätelee suuruusluokan)

-23 bittiä mantissaa (tarkka arvo)

Käytännössä tämä tarkoittaa sitä, että meillä on käytettävissä tähtitieteellinen dynaaminen alue (n. 1500dB) ja 32- bit float mahdollistaa äänen yliohjauksen sietokyvyn, eli äänen äänen ei tarvitse pelätä klippaavan äänitettäessä tällä resoluutiolla, sillä se voidaan palatuttaa täysin vahingoittumattomana vaikka se menisi yli 0dBFS rajan (Koskee kuitenkin äänittäessä vasta digitaalista klippaamista, eikä mahdollista mikrofonin tai muun analogitien klippaamista).

Vaikka dawin projektin ja audion bittitarkkuus (bittisyvyys) olisi 24, prosessointi saattaa silti tapahtua 32-bit float-muodossa (vrt. oversampling) tai jopa 64-bittisessä muodossa.

Dithering
Kun suuremmilla tehoilla prosessoitu ääni lopulta muutetaan kuunneltavaan muotoon, yleensä 16-bittiseksi audioksi, voi syntyä ns. kvantisointivirheitä, jotka voivat ilmetä särähtävänä särönä tai kohinana hiljaisissa kohdissa. Kuulostaa ehkä epäloogistelta, mutta tämän kohinan välttämiseksi ääneen lisätään ennen kääntämisvaihetta hieman kohinaa. Tätä kutsutaan nimellä dithering.

Matala satunnaiskohina taustalla on niin hiljainen, ettei korva kiinnitä siihen huomiota, mutta se pienentää kappaleen dynaamista aluetta (hiljaisimpien ja kovimpien äänien väliä) ja tämä auttaa häiritseviä, kuultavia kvantisointivirheitä tapahtumasta. Kaikissa daweissa on oma dithering-plugin tai sisäänrakennettu dithering audiotiedostoksi viennin yheydessä, paitsi joissain riisutuimmissa versioissa.

Dither lisätään ääneen vain kerran, pluginin muodossa viimeisessä vaiheessa ennen exporttaamista, tai sitten vientiasetusten yhteydessä.

Yhteenveto
Suositellut minimiasestukset (ja yleensä dawien oletukset) ovat äänittäessä ja prosessoidessa 44.1 kHz näytteenottotaajuus ja 24-bittisyvyys. Voit kuitenkin tehojen salliessa käyttää tästä korkeampia arvoja ja pluginien sisäistä ylisämpläystä (oversampling).

Jos käännät audion 16-bittiseen muotoon viedessäsi projektisi ääniraidaksi, muista käyttää dithering-pluginia tai valita dawin sisäinen dithering vientiasetusten yhteydessä.

Jos miksattu biisi on tarkoitus lähettää vielä erikseen masteroitavaksi, vietävän ääniraidan näytteenottotaajuus ja bittisyvyys kannattaa pitää samana kuin miksausprojektissa, koska ääntä tullaan vielä prosessoimaan. Audiomuodon supistaminen ja dither-kohinan lisääminen tehdään vasta ennen kääntämistä lopulliseen, julkaistavaan muotoon.

Voit siirtyä Sanakertaukseen tai jatkaa suoraan seuraavaan osioon

Page updated

Google Sites

Report abuse