Dynaaminen alue: pakattu tai vakio. Käänteinen masterointi: Onko mahdollista lisätä pakattujen tallenteiden dynaamista aluetta? Puristus alas ja ylöspäin

Ajatellaanpa kysymystä – miksi meidän pitää nostaa äänenvoimakkuutta? Jotta kuulet hiljaisia ​​ääniä, jotka eivät kuulu olosuhteissamme (esimerkiksi jos et voi kuunnella kovaa, jos huoneessa on ylimääräistä melua jne.). Onko mahdollista vahvistaa hiljaisia ​​ääniä jättäen samalla kovat äänet yksin? Osoittautuu, että se on mahdollista. Tätä tekniikkaa kutsutaan dynaamisen alueen pakkaamiseksi (DRC). Tätä varten sinun on vaihdettava nykyistä äänenvoimakkuutta jatkuvasti - vahvistettava hiljaisia ​​ääniä, kovia - ei. Yksinkertaisin tilavuuden muutoksen laki on lineaarinen, ts. Äänenvoimakkuus muuttuu lain mukaan output_loudness = k * input_loudness, missä k on dynaamisen alueen pakkaussuhde:

Kuva 18. Dynaamisen alueen pakkaus.

Kun k = 1, muutoksia ei tehdä (lähtövoimakkuus on yhtä suuri kuin tuloäänenvoimakkuus). Klossa k< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - äänenvoimakkuus pienenee ja dynaaminen alue kasvaa.

Katsotaanpa tilavuuskaavioita (k = 1/2: DD-pakkaus kaksinkertaistuu):

Kuva 19. Äänenvoimakkuuskäyrät.

Kuten voit nähdä alkuperäisessä, siellä oli sekä erittäin hiljaisia ​​ääniä, 30 dB dialogin tason alapuolella, että erittäin kovia - 30 dB dialogin tason yläpuolella. Että. dynaaminen alue oli 60dB. Pakkauksen jälkeen kovat äänet ovat vain 15 dB korkeampia ja hiljaiset 15 dB alhaisemmat kuin dialogi (dynaaminen alue on nyt 30 dB). Siten voimakkaat äänet muuttuivat huomattavasti hiljaisemmiksi ja hiljaiset äänet huomattavasti voimakkaammiksi. Tässä tapauksessa ei ole ylivuotoa!

Katsotaanpa nyt histogrammeja:

Kuva 20. Esimerkki puristamisesta.

Kuten näet selvästi, vahvistimella +30 dB asti histogrammin muoto säilyy hyvin, mikä tarkoittaa, että kovat äänet pysyvät hyvin ilmaistuina (ne eivät mene maksimiin eivätkä katkea, kuten tapahtuu yksinkertaisessa vahvistuksessa) . Tämä tuottaa hiljaisia ​​ääniä. Histogrammi näyttää tämän huonosti, mutta ero on hyvin havaittavissa korvalla. Tämän menetelmän haittana ovat samat äänenvoimakkuuden hyppyt. Niiden esiintymismekanismi eroaa kuitenkin leikkauksen aikana tapahtuvista äänenvoimakkuuden hyppyistä, ja niiden luonne on erilainen - ne esiintyvät pääasiassa, kun hiljaisia ​​ääniä vahvistetaan erittäin voimakkaasti (eikä silloin, kun kovaäänisiä leikataan, kuten normaalissa vahvistuksessa). Liiallinen pakkaustaso johtaa äänikuvan tasoittumiseen - kaikki äänet ovat yleensä samaa voimakkuutta ja ilmaisukyvyttömyyttä.

Hiljaisten äänten liiallinen vahvistus voi aiheuttaa äänityskohinan kuulumista. Siksi suodatin käyttää hieman muokattua algoritmia, jotta melutaso nousee vähemmän:

Kuva 21. Äänenvoimakkuuden lisääminen lisäämättä melua.

Nuo. äänenvoimakkuustasolla -50 dB siirtofunktio taittuu ja kohina vahvistuu vähemmän (keltainen viiva). Jos tällaista käännettä ei ole, melu on paljon kovempaa (harmaa viiva). Tämä yksinkertainen muutos vähentää merkittävästi kohinan määrää jopa erittäin korkeilla pakkaustasoilla (kuvassa pakkaus 1:5). Suodattimen "DRC"-taso asettaa hiljaisten äänien vahvistustason (-50 dB), ts. Kuvassa näkyvä 1/5 pakkaustaso vastaa +40dB tasoa suodatinasetuksissa.

Aikana, jolloin tutkijat vasta alkoivat ratkaista puherajapinnan luomisen ongelmaa tietokoneille, he joutuivat usein valmistamaan omia laitteita, jotka mahdollistaisivat ääniinformaation syöttämisen tietokoneeseen ja myös tulostamisen tietokoneelta. Nykyään tällaisilla laitteilla voi olla vain historiallista mielenkiintoa, koska nykyaikaiset tietokoneet voidaan helposti varustaa äänen syöttö- ja ulostulolaitteilla, kuten äänisovittimilla, mikrofoneilla, kuulokkeilla ja kaiuttimilla.

Emme syvenny näiden laitteiden sisäisen rakenteen yksityiskohtiin, mutta puhumme niiden toiminnasta ja annamme joitain suosituksia äänitietokonelaitteiden valinnasta puheentunnistus- ja synteesijärjestelmien kanssa työskentelemiseen.

Kuten edellisessä luvussa jo totesimme, ääni ei ole muuta kuin ilman värähtelyä, jonka taajuus on ihmisen havaitsemien taajuuksien alueella. Kuuluvan taajuusalueen tarkat rajat voivat vaihdella henkilöittäin, mutta äänen värähtelyjen uskotaan olevan 16-20 000 Hz.

Mikrofonin tarkoitus on muuntaa äänivärähtelyt sähkövärähtelyiksi, joita voidaan sitten vahvistaa, suodattaa häiriöiden poistamiseksi ja digitoida äänitietojen syöttämiseksi tietokoneeseen.

Yleisimmät mikrofonit jaetaan toimintaperiaatteensa perusteella hiilimikrofoneihin, sähködynaamisiin, kondensaattori- ja elektreettimikrofoneihin. Jotkut näistä mikrofoneista vaativat toimintaansa ulkoisen virtalähteen (esimerkiksi hiili ja lauhdutin), toiset pystyvät äänivärähtelyn vaikutuksesta itsenäisesti tuottamaan vaihtojännitettä (nämä ovat sähködynaamisia ja elektreettimikrofoneja).

Voit myös erottaa mikrofonit käyttötarkoituksen mukaan. On studiomikrofoneja, joita voidaan pitää kädessä tai kiinnittää telineeseen, on radiomikrofoneja, jotka voidaan kiinnittää vaatteisiin ja niin edelleen.

Mukana on myös erityisesti tietokoneita varten suunniteltuja mikrofoneja. Tällaiset mikrofonit asennetaan yleensä telineeseen, joka on sijoitettu pöydän pinnalle. Tietokonemikrofonit voidaan yhdistää kuulokkeisiin, kuten kuvassa. 2-1.

Riisi. 2-1. Kuulokkeet mikrofonilla

Kuinka voit valita useista mikrofoneista, jotka sopivat parhaiten puheentunnistusjärjestelmiin?

Periaatteessa voit kokeilla millä tahansa mikrofonillasi, kunhan se voidaan liittää tietokoneesi äänisovittimeen. Puheentunnistusjärjestelmien kehittäjät suosittelevat kuitenkin mikrofonin ostamista, joka on käytön aikana jatkuvalla etäisyydellä puhujan suusta.

Jos mikrofonin ja suun välinen etäisyys ei muutu, ei myöskään mikrofonista tulevan sähköisen signaalin keskimääräinen taso muutu liikaa. Tällä on myönteinen vaikutus nykyaikaisten puheentunnistusjärjestelmien suorituskykyyn.

Mikä tässä on ongelmana?

Ihminen tunnistaa onnistuneesti puheen, jonka äänenvoimakkuus vaihtelee hyvin laajalla alueella. Ihmisen aivot pystyvät suodattamaan hiljaisen puheen häiriöistä, kuten kadulla kulkevien autojen melusta, ulkopuolisista keskusteluista ja musiikista.

Mitä tulee nykyaikaisiin puheentunnistusjärjestelmiin, niiden kyvyt tällä alueella jättävät paljon toivomisen varaa. Jos mikrofoni on pöydällä, suun ja mikrofonin välinen etäisyys muuttuu, kun käännät päätäsi tai muutat kehon asentoa. Tämä muuttaa mikrofonin lähtötasoa, mikä puolestaan ​​heikentää puheentunnistuksen luotettavuutta.

Siksi puheentunnistusjärjestelmien kanssa työskennellessäsi saavutetaan parhaat tulokset, jos käytät kuulokkeisiin kiinnitettyä mikrofonia, kuten kuvassa 10 näkyy. 2-1. Käytettäessä tällaista mikrofonia suun ja mikrofonin välinen etäisyys on vakio.

Kiinnitämme huomiosi myös siihen, että kaikki puheentunnistusjärjestelmien kokeet on parasta tehdä yksityisesti hiljaisessa huoneessa. Tässä tapauksessa häiriön vaikutus on minimaalinen. Tietenkin, jos sinun on valittava puheentunnistusjärjestelmä, joka voi toimia voimakkaiden häiriöiden olosuhteissa, testit on suoritettava eri tavalla. Kuitenkin kirjan tekijöiden tiedossa puheentunnistusjärjestelmien kohinansieto on edelleen hyvin, hyvin alhainen.

Mikrofoni muuttaa äänivärähtelyt sähkövirran värähtelyiksi meille. Nämä vaihtelut näkyvät oskilloskoopin näytöllä, mutta älä kiirehdi kauppaan ostamaan tätä kallisarvoista laitetta. Voimme suorittaa kaikki oskillografiset tutkimukset tavallisella tietokoneella, joka on varustettu äänisovittimella, esimerkiksi Sound Blaster -sovittimella. Kerromme myöhemmin, kuinka tämä tehdään.

Kuvassa 2-2 näytimme oskilogrammin äänisignaalista, joka saatiin lausuttaessa pitkää ääntä a. Tämä aaltomuoto saatiin käyttämällä GoldWave-ohjelmaa, josta puhumme myöhemmin tässä kirjan luvussa, sekä käyttämällä Sound Blaster -äänisovitinta ja mikrofonia, joka on samanlainen kuin kuvassa 1. 2-1.

Riisi. 2-2. Äänisignaalin oskilogrammi

GoldWave-ohjelman avulla voit venyttää oskilogrammia aika-akselia pitkin, jolloin näet pienimmätkin yksityiskohdat. Kuvassa 2-3 näytimme venytettyä fragmenttia yllä mainitusta äänen oskillogrammista a.

Riisi. 2-3. Fragmentti äänisignaalin oskillogrammista

Huomaa, että mikrofonista tulevan tulosignaalin voimakkuus vaihtelee ajoittain ja saa sekä positiivisia että negatiivisia arvoja.

Jos tulosignaalissa olisi vain yksi taajuus (eli jos ääni oli "puhdas"), mikrofonista vastaanotettu aaltomuoto olisi siniaalto. Kuten olemme jo todenneet, ihmisen puheäänien spektri koostuu joukosta taajuuksia, minkä seurauksena puhesignaalin oskilogrammin muoto on kaukana sinimuotoisesta.

Kutsumme signaalia, jonka suuruus muuttuu jatkuvasti ajan myötä analoginen signaali. Tämä on juuri se signaali, joka tulee mikrofonista. Toisin kuin analoginen signaali, digitaalinen signaali on joukko numeerisia arvoja, jotka muuttuvat diskreetti ajan myötä.

Jotta tietokone voisi käsitellä äänisignaalia, se on muutettava analogisesta digitaaliseen muotoon, eli se on esitettävä numeroarvojen joukkona. Tätä prosessia kutsutaan analogisen signaalin digitalisoimiseksi.

Äänisignaalin (ja minkä tahansa analogisen) digitointi suoritetaan erityisellä laitteella nimeltä analogia-digitaali muunnin ADC (Analog to Digital Converter, ADC). Tämä laite sijaitsee äänisovitinkortilla ja on tavallisen näköinen mikropiiri.

Kuinka analogia-digitaali-muunnin toimii?

Se mittaa ajoittain tulosignaalin tason ja tulostaa mittaustuloksen numeerisen arvon. Tämä prosessi on kuvattu kuvassa. 2-4. Tässä harmaat suorakulmiot osoittavat tulosignaalin arvoja, jotka on mitattu jollain vakioaikavälillä. Joukko tällaisia ​​arvoja on digitoitu esitys analogisesta tulosignaalista.

Riisi. 2-4. Signaalin amplitudin mittaukset ajan funktiona

Kuvassa 2-5 näytimme analogia-digitaalimuuntimen kytkemisen mikrofoniin. Tässä tapauksessa analoginen signaali syötetään tuloon x 1 ja digitaalinen signaali poistetaan lähdöistä u 1 -u n.

Riisi. 2-5. Analogi-digitaali muunnin

Analogi-digitaalimuuntimille on tunnusomaista kaksi tärkeää parametria - muunnostaajuus ja tulosignaalin kvantisointitasojen lukumäärä. Näiden parametrien oikea valinta on ratkaisevan tärkeää analogisen signaalin riittävän digitaalisen esityksen saavuttamiseksi.

Kuinka usein analogisen tulosignaalin amplitudia pitää mitata, jotta tieto analogisen tulosignaalin muutoksista ei katoa digitoinnin seurauksena?

Vaikuttaa siltä, ​​​​että vastaus on yksinkertainen - tulosignaali on mitattava mahdollisimman usein. Todellakin, mitä useammin analogia-digitaalimuunnin tekee tällaisia ​​mittauksia, sitä paremmin se pystyy seuraamaan pienimpiäkin muutoksia analogisen tulosignaalin amplitudissa.

Liian tiheät mittaukset voivat kuitenkin johtaa digitaalisen tiedon virran perusteelliseen lisääntymiseen ja tietokoneresurssien tuhlaukseen signaalin käsittelyssä.

Onneksi oikean muunnostaajuuden (näytteenottotaajuuden) valitseminen on melko yksinkertaista. Tätä varten riittää kääntyä Kotelnikovin lauseeseen, jonka digitaalisen signaalinkäsittelyn asiantuntijat tuntevat. Lauseen mukaan muunnostaajuuden on oltava kaksi kertaa muunnetun signaalin spektrin maksimitaajuus. Siksi, jotta voit digitoida menettämättä audiosignaalin laatua, jonka taajuus on alueella 16-20 000 Hz, sinun on valittava muunnostaajuus, joka on vähintään 40 000 Hz.

Huomaa kuitenkin, että ammattiäänilaitteissa muunnostaajuus valitaan useita kertoja korkeammaksi kuin määritetty arvo. Tämä tehdään erittäin korkealaatuisen digitoidun äänen saavuttamiseksi. Tällä laadulla ei ole merkitystä puheentunnistusjärjestelmissä, joten emme keskitä huomiotasi tähän valintaan.

Mikä muunnostaajuus tarvitaan ihmisen puheen äänen digitalisoimiseen?

Koska ihmispuheen äänet ovat taajuusalueella 300-4000 Hz, pienin vaadittu muunnostaajuus on 8000 Hz. Monet tietokoneen puheentunnistusohjelmat käyttävät kuitenkin 44 000 Hz:n vakiomuunnostaajuutta perinteisille äänisovittimille. Toisaalta tällainen muunnostaajuus ei johda liialliseen digitaalisen datavirran kasvuun ja toisaalta varmistaa puheen riittävän laadukkaan digitalisoinnin.

Kouluaikoina meille opetettiin, että kaikissa mittauksissa syntyy virheitä, joita ei voida täysin poistaa. Tällaiset virheet johtuvat mittauslaitteiden rajallisesta resoluutiosta sekä siitä, että itse mittausprosessi voi tuoda joitain muutoksia mitattuun arvoon.

Analogi-digitaali-muunnin edustaa analogista tulosignaalia rajoitetun kapasiteetin lukujen virtana. Perinteiset audiosovittimet sisältävät 16-bittisiä ADC-lohkoja, jotka pystyvät esittämään tulosignaalin amplitudin 216 = 65536 eri arvona. Huippuluokan äänilaitteiden ADC-laitteet voivat olla 20-bittisiä, mikä tarjoaa paremman tarkkuuden audiosignaalin amplitudin esittämisessä.

Nykyaikaiset puheentunnistusjärjestelmät ja -ohjelmat luotiin tavallisilla äänisovittimilla varustettuihin tavallisiin tietokoneisiin. Siksi puheentunnistuksen kokeilujen suorittamiseksi sinun ei tarvitse ostaa ammattimaista äänisovitinta. Sovitin, kuten Sound Blaster, soveltuu varsin hyvin puheen digitointiin sen tunnistamista varten.

Hyödyllisen signaalin ohella mikrofoniin tulee yleensä erilaisia ​​ääniä - kadulta tuleva melu, tuulen melu, vieraat keskustelut jne. Kohina vaikuttaa kielteisesti puheentunnistusjärjestelmien suorituskykyyn, joten sitä on käsiteltävä. Olemme jo maininneet yhden tavoista - nykypäivän puheentunnistusjärjestelmiä käytetään parhaiten hiljaisessa huoneessa, yksin tietokoneen kanssa.

Aina ei kuitenkaan ole mahdollista luoda ihanteellisia olosuhteita, joten on tarpeen käyttää erityisiä menetelmiä häiriöistä eroon pääsemiseksi. Melutason vähentämiseksi käytetään erityisiä temppuja suunniteltaessa mikrofoneja ja erityisiä suodattimia, jotka poistavat analogisen signaalin spektristä taajuudet, jotka eivät kuljeta hyödyllistä tietoa. Lisäksi käytetään tekniikkaa, kuten tulosignaalitasojen dynaamisen alueen kompressointia.

Puhutaan tästä kaikesta järjestyksessä.

Taajuussuodatin on laite, joka muuntaa analogisen signaalin taajuusspektrin. Tässä tapauksessa muunnosprosessin aikana vapautuu (tai absorboituu) tiettyjen taajuuksien värähtelyjä.

Voit kuvitella tämän laitteen eräänlaisena mustana laatikkona, jossa on yksi tulo ja yksi lähtö. Tilanteeseemme nähden taajuussuodattimen tuloon kytketään mikrofoni ja lähtöön analogia-digitaali-muunnin.

Taajuussuodattimia on erilaisia:

· alipäästösuodattimet;

ylipäästösuodattimet;

· lähettävät kaistanpäästösuodattimet;

· kaistanpysäytyssuodattimet.

Alipäästösuodattimet(alipäästösuodatin) poistaa tulosignaalin spektristä kaikki taajuudet, joiden arvot ovat tietyn kynnystaajuuden alapuolella suodattimen asetuksesta riippuen.

Koska äänisignaalit ovat alueella 16-20 000 Hz, kaikki alle 16 Hz:n taajuudet voidaan katkaista äänenlaatua heikentämättä. Puheentunnistuksessa 300-4000 Hz:n taajuusalue on tärkeä, joten alle 300 Hz:n taajuudet voidaan leikata pois. Tässä tapauksessa kaikki häiriöt, joiden taajuusspektri on alle 300 Hz, leikataan pois tulosignaalista, eivätkä ne häiritse puheentunnistusprosessia.

Samoin ylipäästösuodattimet(ylipäästösuodatin) leikkaa sisääntulosignaalin spektristä kaikki tietyn kynnystaajuuden ylittävät taajuudet.

Ihminen ei kuule ääniä, joiden taajuus on vähintään 20 000 Hz, joten ne voidaan leikata pois spektristä ilman, että äänenlaatu heikkenee merkittävästi. Mitä tulee puheentunnistukseen, täällä voit leikata kaikki yli 4000 Hz:n taajuudet, mikä vähentää merkittävästi korkeataajuisten häiriöiden tasoa.

Kaistanpäästösuodatin(kaistanpäästösuodatin) voidaan ajatella ali- ja ylipäästösuodattimen yhdistelmänä. Tällainen suodatin viivästyttää kaikkia taajuuksia ns alempi päästötaajuus, ja myös edellä yläpäästötaajuus.

Siten päästökaistasuodatin on kätevä puheentunnistusjärjestelmään, joka viivästyttää kaikkia taajuuksia paitsi taajuuksia alueella 300-4000 Hz.

Mitä tulee kaistanpysäytyssuodattimiin, niiden avulla voit leikata kaikki tietyllä alueella olevat taajuudet tulosignaalin spektristä. Tällainen suodatin on kätevä esimerkiksi vaimentamaan häiriöitä, jotka vievät tietyn jatkuvan osan signaalispektristä.

Kuvassa 2-6 näytimme päästökaistanpäästösuodattimen kytkennän.

Riisi. 2-6. Äänisignaalin suodatus ennen digitointia

On sanottava, että tietokoneeseen asennetuissa perinteisissä äänisovittimissa on kaistanpäästösuodatin, jonka läpi analoginen signaali kulkee ennen digitointia. Tällaisen suodattimen päästökaista vastaa yleensä äänisignaalien aluetta, nimittäin 16-20 000 Hz (eri audiosovittimissa ylempien ja alempien taajuuksien arvot voivat vaihdella pienissä rajoissa).

Kuinka saavuttaa kapeampi kaistanleveys 300-4000 Hz, joka vastaa ihmisen puheen spektrin informatiivisinta osaa?

Tietysti, jos sinulla on intohimo elektronisten laitteiden suunnitteluun, voit tehdä oman suodattimen operaatiovahvistimen sirusta, vastuksista ja kondensaattoreista. Suunnilleen näin tekivät puheentunnistusjärjestelmien ensimmäiset luojat.

Teollisten puheentunnistusjärjestelmien on kuitenkin toimittava tavallisilla tietokonelaitteistoilla, joten erityisen kaistanpäästösuodattimen valmistusreitti ei sovellu tähän.

Sen sijaan nykyaikaiset puheenkäsittelyjärjestelmät käyttävät ns digitaaliset taajuussuodattimet, toteutettu ohjelmistolla. Tämä tuli mahdolliseksi, kun tietokoneen keskusprosessorista tuli tarpeeksi tehokas.

Ohjelmistossa toteutettu digitaalinen taajuussuodatin muuntaa digitaalisen tulosignaalin digitaaliseksi lähtösignaaliksi. Muunnosprosessin aikana ohjelma käsittelee erityisellä tavalla analogia-digitaalimuuntimesta tulevan signaalin amplitudin numeroarvojen virran. Muunnoksen tulos on myös numerovirta, mutta tämä virta vastaa jo suodatettua signaalia.

Kun puhuimme analogia-digitaalimuuntimesta, huomasimme sellaisen tärkeän ominaisuuden kuin kvantisointitasojen lukumäärän. Jos äänisovittimeen on asennettu 16-bittinen analogia-digitaali-muunnin, niin digitoinnin jälkeen äänisignaalitasot voidaan esittää 216 = 65536 eri arvoina.

Jos kvantisointitasoja on vähän, niin ns kvantisointikohina. Tämän kohinan vähentämiseksi korkealaatuisten audiodigitointijärjestelmien tulisi käyttää analogia-digitaalimuuntimia, joissa on suurin mahdollinen määrä kvantisointitasoja.

On kuitenkin olemassa toinen tekniikka kvantisointikohinan vaikutuksen vähentämiseksi audiosignaalin laatuun, jota käytetään digitaalisissa äänentallennusjärjestelmissä. Tätä tekniikkaa käytettäessä signaali johdetaan epälineaarisen vahvistimen läpi ennen digitointia korostaen signaaleja, joiden signaaliamplitudi on pieni. Tämä laite vahvistaa heikkoja signaaleja enemmän kuin voimakkaita.

Tätä havainnollistaa kaavio, joka esittää lähtösignaalin amplitudia suhteessa tulosignaalin amplitudiin, joka on esitetty kuvassa 1. 2-7.

Riisi. 2-7. Epälineaarinen vahvistus ennen digitointia

Vaiheessa, jossa digitoitu ääni muunnetaan takaisin analogiseksi (tarkastelemme tätä vaihetta myöhemmin tässä luvussa), analoginen signaali johdetaan jälleen epälineaarisen vahvistimen läpi ennen kuin se lähetetään kaiuttimiin. Tällä kertaa käytetään eri vahvistinta, joka korostaa suuriamplitudisia signaaleja ja jonka siirtoominaisuus (lähtösignaalin amplitudin riippuvuus tulosignaalin amplitudista) on käänteinen digitalisoinnin aikana käytetylle.

Miten tämä kaikki voi auttaa puheentunnistusjärjestelmien luojia?

Ihminen, kuten tiedetään, tunnistaa hiljaisella kuiskauksella tai melko kovalla äänellä puhutun puheen melko hyvin. Voidaan sanoa, että onnistuneesti tunnistetun puheen äänenvoimakkuustasojen dynaaminen alue on melko laaja.

Nykypäivän tietokoneen puheentunnistusjärjestelmät eivät valitettavasti voi vielä ylpeillä tästä. Kuitenkin, jotta voit hieman laajentaa määritettyä dynaamista aluetta, voit ennen digitalisointia siirtää signaalin mikrofonista epälineaarisen vahvistimen läpi, jonka siirto-ominaisuus on esitetty kuvassa. 2-7. Tämä vähentää kvantisointikohinatasoa digitoitaessa heikkoja signaaleja.

Puheentunnistusjärjestelmien kehittäjät joutuvat jälleen keskittymään ensisijaisesti kaupallisesti valmistettuihin äänisovittimiin. Ne eivät tarjoa yllä kuvattua epälineaarista signaalin muuntamista.

On kuitenkin mahdollista luoda ohjelmistovastine epälineaariselle vahvistimelle, joka muuntaa digitoidun signaalin ennen sen välittämistä puheentunnistusmoduuliin. Vaikka tällainen ohjelmistovahvistin ei pysty vähentämään kvantisointikohinaa, sitä voidaan käyttää korostamaan niitä signaalitasoja, jotka kuljettavat eniten puheinformaatiota. Voit esimerkiksi vähentää heikkojen signaalien amplitudia ja poistaa siten signaalin kohinasta.

Koodaustekniikka, jota käytetään DVD-soittimissa omalla

äänen dekooderit ja vastaanottimet. Dynaamisen alueen pakkausta (tai pienentämistä) käytetään rajoittamaan äänen huippuja elokuvia katseltaessa. Jos katsoja haluaa katsoa elokuvan, jossa äkilliset äänenvoimakkuuden muutokset ovat mahdollisia (elokuva sodasta,

esimerkiksi), mutta ei halua häiritä perheenjäseniään, niin DRC-tila tulee ottaa käyttöön. Subjektiivisesti kuullen DRC:n päälle kytkemisen jälkeen matalien taajuuksien osuus äänestä vähenee ja korkeat äänet menettävät läpinäkyvyyttä, joten sinun ei pitäisi ottaa DRC-tilaa käyttöön, ellei se ole välttämätöntä.

DreamWeaver (katso - Etusivu)

Ohjelmistoyhtiö Macromedia Inc:n kehittämä visuaalinen editori hypertekstidokumenteille. Tehokas, ammattimainen DreamWeaver-ohjelma sisältää mahdollisuuden luoda minkä tahansa monimutkaisen ja mittakaavan HTML-sivuja, ja siinä on myös sisäänrakennettu tuki suurille verkkoprojekteille. Se on visuaalisen suunnittelun työkalu, joka tukee edistyneitä WYSIWYG-konsepteja.

Kuljettaja (katso Kuljettaja)

Ohjelmistokomponentti, jonka avulla voit olla vuorovaikutuksessa laitteiden kanssa

tietokone, kuten verkkokortti (NIC), näppäimistö, tulostin tai näyttö. Tietokoneeseen liitetty verkkolaite (kuten keskitin) vaatii ohjaimia, jotta tietokone voi kommunikoida laitteen kanssa.

DRM (digitaalinen oikeuksien hallinta – tekijänoikeudella suojattujen tietojen käytön ja kopioimisen hallinta, digitaalisten oikeuksien hallinta)

u Konsepti, joka sisältää erityisten tekniikoiden ja menetelmien käytön digitaalisen materiaalin suojaamiseksi sen varmistamiseksi, että niitä tarjotaan vain valtuutetuille käyttäjille.

v Asiakasohjelma vuorovaikutukseen Digital Rights Management Services -palvelun kanssa, joka on suunniteltu hallitsemaan tekijänoikeuksilla suojattujen tietojen käyttöä ja kopioimista. DRM-palvelut toimii Windows Server 2003:ssa. Asiakasohjelmisto toimii Windows 98-, Me-, 2000- ja XP-käyttöjärjestelmissä, mikä mahdollistaa sovellusten, kuten Office 2003:n, pääsyn niihin liittyviin palveluihin. Microsoft julkaisee tulevaisuudessa digitaalisen oikeuksien hallintamoduulin Internet Explorer -selaimelle. Jatkossa on suunniteltu, että tällainen ohjelma vaaditaan tietokoneella toimimaan minkä tahansa sisällön kanssa, joka käyttää DRM-tekniikoita suojatakseen laitonta kopiointia.

Droidi (robotti) (katso. Agentti)

DSA(Digitaalinen allekirjoitusalgoritmi – digitaalisen allekirjoituksen algoritmi)

Julkisen avaimen digitaalinen allekirjoitusalgoritmi. NIST:n (USA) kehittämä vuonna 1991.

DSL (Digital Subscrabe Line)

Kaupunkien puhelinvaihteiden tukema moderni tekniikka signaalien vaihtamiseksi korkeammilla taajuuksilla kuin perinteiset analogiset modeemit. DSL-modeemi voi toimia samanaikaisesti sekä puhelimen (analoginen signaali) että digitaalisen linjan kanssa. Koska puhelimesta tulevan puhesignaalin ja digitaalisen DSL-signaalin spektrit eivät ”leikkaudu”, ts. eivät vaikuta toisiinsa, DSL:n avulla voit surffata Internetissä ja puhua puhelimessa samalla fyysisellä linjalla. Lisäksi DSL-tekniikka käyttää yleensä useita taajuuksia, ja DSL-modeemit molemmilla puolilla linjaa yrittävät löytää parhaat tiedonsiirtoon. DSL-modeemi ei ainoastaan ​​lähetä tietoja, vaan toimii myös reitittimenä. Ethernet-portilla varustettu DSL-modeemi mahdollistaa useiden tietokoneiden kytkemisen siihen.

DSOM(Distributed System Object Model, Distributed SOM – Distributed System Object Model)

IBM-tekniikka asianmukaisella ohjelmistotuella.

DSR? (Datajoukko valmis – Tietojen valmiussignaali, DSR-signaali)

Sarjaliitäntäsignaali, joka osoittaa, että laite (esim.

modeemi) on valmis lähettämään vähän tietoa tietokoneelle.

DSR? (Laitteen tilaraportti – Laitteen tilaraportti)

DSR? (Laitteen tilarekisteri - laitteen tilarekisteri)

DSS? (Päätöksen tukijärjestelmä – Päätöksen tukijärjestelmä) (Katso.

, Mediasoittimet

Levyt, varsinkin vanhemmat, jotka äänitettiin ja tuotettiin ennen vuotta 1982, olivat paljon epätodennäköisempiä miksaamalla äänityksen kovempaa. Ne toistavat luonnollista musiikkia luonnollisella dynaamisella alueella, joka säilyy levyllä ja häviää useimmissa tavallisissa digitaalisissa tai teräväpiirtomuodoissa.

Tietysti tähän on poikkeuksia - kuuntele äskettäin julkaistua Steven Wilsonin albumia MA Recordingsilta tai Reference Recordingsilta, niin kuulet kuinka hyvää digitaalinen ääni voi olla. Mutta tämä on harvinaista, useimmat nykyaikaiset äänitallenteet ovat äänekkäitä ja pakattuja.

Musiikin pakkaaminen on saanut viime aikoina paljon kritiikkiä, mutta olen valmis lyömään vetoa, että melkein kaikki suosikkinauhoitteesi on pakattu. Jotkut niistä ovat vähemmän, jotkut enemmän, mutta silti pakattu. Dynaamisen alueen pakkaus on syntipukki huonolta kuulostavalle musiikille, mutta erittäin pakattu musiikki ei ole mitään uutta: kuuntele Motown-albumeja 60-luvulta. Samaa voidaan sanoa Led Zeppelinin klassikoista tai Wilcon ja Radioheadin nuoremmista albumeista. Dynaamisen alueen pakkaus vähentää luonnollista suhdetta äänityksen kovimpien ja pehmeimpien äänten välillä, joten kuiskaus voi olla yhtä kovaa kuin huuto. On melko vaikeaa löytää popmusiikkia viimeisen 50 vuoden ajalta, jota ei olisi tiivistetty.

Keskustelin äskettäin mukavasti Tape Op -lehden perustajan ja toimittajan Larry Cranen kanssa pakkaamisen hyvistä, huonoista ja rumista puolista. Larry Crane on työskennellyt sellaisten bändien ja artistien kanssa, kuten Stefan Marcus, Cat Power, Sleater-Kinney, Jenny Lewis, M. Ward, The Go-Betweens, Jason Little, Eliot Smith, Quasi ja Richmond Fontaine. Hän johtaa myös äänitysstudiota Jackpot! Portlandissa, Oregonissa, jossa asuivat The Breeders, The Decemberists, Eddie Vedder, Pavement, R.E.M., She & Him ja monet, monet muut.

Esimerkkinä yllättävän luonnottomalta kuulostavista mutta silti mahtavista kappaleista mainitsen Spoonin vuoden 2014 albumin They Want My Soul. Crane nauraa ja sanoo kuuntelevansa sitä autossa, koska se kuulostaa siellä hyvältä. Tämä tuo meidät toiseen vastaukseen kysymykseen miksi musiikkia pakatu: koska pakkaus ja ylimääräinen "selkeys" helpottavat kuulemista meluisissa paikoissa.

Larry Crane töissä. Kuva: Jason Quigley

Kun ihmiset sanovat pitävänsä äänitallenteen äänestä, luulen, että he pitävät musiikista, ikään kuin ääni ja musiikki olisivat erottamattomia termejä. Mutta itselleni erotan nämä käsitteet. Audiofiilin näkökulmasta ääni voi olla karkea ja raaka, mutta sillä ei ole merkitystä useimmille kuuntelijoille.

Monet syyttävät masterointiinsinöörejä liiallisesta pakkauksen käytöstä, mutta pakkausta käytetään suoraan tallennuksen aikana, miksauksen aikana ja vasta sitten masteroinnin aikana. Jos et ole henkilökohtaisesti läsnä jokaisessa näistä vaiheista, et voi sanoa, miltä instrumentit ja lauluosuudet kuulostivat prosessin alussa.

Crane oli aivan hukassa: "Jos muusikko haluaa tarkoituksella kuulostaa hullulta ja vääristyneeltä kuten Guided by Voices -levyt, niin siinä ei ole mitään vikaa – halu on aina äänenlaadun suurempaa." Esiintyjän ääni on lähes aina pakattu, ja sama tapahtuu basson, rumpujen, kitaroiden ja syntetisaattoreiden kanssa. Kompressiolla laulun äänenvoimakkuus pysyy halutulla tasolla koko kappaleen ajan tai nousee hieman muiden äänien taustasta.

Oikein tehty pakkaus voi saada rummut kuulostamaan elävämmältä tai tarkoituksellisesti oudolta. Jotta musiikki kuulostaa hyvältä, sinun on kyettävä käyttämään tarvittavia työkaluja. Tästä syystä kestää vuosia selvittää, kuinka käyttää pakkausta liioittelematta. Jos miksausinsinööri pakkaa kitaraosaa liikaa, masterointiinsinööri ei pysty enää täysin palauttamaan puuttuvia taajuuksia.

Jos muusikot halusivat sinun kuuntelevan musiikkia, joka ei ollut käynyt läpi miksaus- ja masterointivaiheita, he vapauttaisivat sen kauppojen hyllyille suoraan studiolta. Crane sanoo, että ihmiset, jotka luovat, muokkaavat, miksaavat ja masteroivat äänitettyä musiikkia, eivät ole muusikoiden tiellä – he ovat auttaneet artisteja alusta asti, yli sata vuotta.

Nämä ihmiset ovat osa luomisprosessia, jonka tuloksena syntyy upeita taideteoksia. Crane lisää: "Et halua "Dark Side of the Moon" -versiota, jota ei ole miksattu ja masteroitu." Pink Floyd julkaisi kappaleen haluamallaan tavalla.

Kompressio on yksi myytteisimmistä aiheista äänentuotannossa. Sanotaan, että Beethoven jopa pelotti naapurin lapsia:(

Okei, itse asiassa pakkauksen käyttö ei ole vaikeampaa kuin vääristymän käyttäminen, tärkeintä on ymmärtää sen toimintaperiaate ja hallita hyvin. Tätä tulemme nyt näkemään yhdessä.

Mikä on äänen pakkaus

Ensimmäinen asia, joka on ymmärrettävä ennen valmistautumista, on pakkaus. työskentelee dynaamisen äänialueen kanssa. Ja vuorostaan ​​ei ole muuta kuin ero kovimman ja hiljaisimman signaalitason välillä:

Niin, pakkaus on dynaamisen alueen pakkaamista. Joo, Vain dynaamisen alueen pakkaus, tai toisin sanoen alentaa signaalin kovien osien tasoa ja lisätä hiljaisten osien äänenvoimakkuutta. Ei enempää.

Saatat aivan kohtuudella ihmetellä, miksi tällainen hype sitten liittyy? Miksi kaikki puhuvat oikeiden kompressorin asetusten resepteistä, mutta kukaan ei jaa niitä? Miksi valtavasta määrästä hienoja laajennuksia huolimatta monet studiot käyttävät edelleen kalliita, harvinaisia ​​kompressorimalleja? Miksi jotkut valmistajat käyttävät kompressoreja äärimmäisillä asetuksilla, kun taas toiset eivät käytä niitä ollenkaan? Ja kumpi heistä on lopulta oikeassa?

Ongelmat ratkaistaan ​​pakkaamalla

Vastaukset tällaisiin kysymyksiin ovat kompression roolin ymmärtämisen tasolla äänen kanssa työskentelyssä. Ja se mahdollistaa:

  1. Korosta hyökkäystäääni, mikä tekee siitä selvemmän;
  2. Yksittäisten instrumenttien osien "asettaminen" miksaukseen, lisäämällä niihin voimaa ja "painoa";
  3. Tee instrumenttiryhmistä tai kokonaisesta sekoituksesta yhtenäisempää, tällainen yksittäinen monoliitti;
  4. Ratkaise työkalujen väliset ristiriidat käyttämällä sivuketjua;
  5. Korjaa laulajan tai muusikoiden virheet, tasoittaa niiden dynamiikkaa;
  6. Tietyllä asetuksella toimii taiteellisena tehosteena.

Kuten näette, tämä ei ole vähemmän merkittävä luova prosessi kuin vaikkapa melodioiden keksiminen tai mielenkiintoisten sointien luominen. Lisäksi mikä tahansa yllä olevista ongelmista voidaan ratkaista käyttämällä neljää pääparametria.

Kompressorin perusparametrit

Huolimatta valtavasta määrästä kompressorien ohjelmisto- ja laitteistomalleja, kaikki pakkaamisen "taika" tapahtuu, kun pääparametrit on määritetty oikein: kynnys, suhde, hyökkäys ja vapautus. Katsotaanpa niitä tarkemmin:

Kynnys tai vastekynnys, dB

Tämän parametrin avulla voit asettaa arvon, josta alkaen kompressori toimii (eli pakkaa äänisignaalia). Joten jos asetamme kynnysarvoksi -12 dB, kompressori toimii vain niissä dynaamisen alueen osissa, jotka ylittävät tämän arvon. Jos kaikki äänemme on hiljaisempaa kuin -12 db, kompressori yksinkertaisesti siirtää sen itsensä läpi vaikuttamatta siihen millään tavalla.

Suhde tai puristussuhde

Suhdeparametri määrittää, kuinka paljon kynnyksen ylittävä signaali kompressoidaan. Pientä matematiikkaa kuvan täydentämiseksi: oletetaan, että asetimme kompressorin, jonka kynnys on -12dB, suhde 2:1 ja syötimme sille rumpusilmukan, jossa potkurummun äänenvoimakkuus on -4dB. Mikä on kompressorin toiminnan tulos tässä tapauksessa?

Meidän tapauksessamme potkun taso ylittää kynnyksen 8 dB. Tämä suhteen mukainen ero puristetaan arvoon 4 dB (8 dB / 2). Yhdessä signaalin käsittelemättömän osan kanssa tämä johtaa siihen, että kompressorin käsittelyn jälkeen potkurummun äänenvoimakkuus on -8db (kynnys -12dB + kompressoitu signaali 4dB).

Hyökkäys, ms

Tämä on aika, jonka jälkeen kompressori reagoi vastekynnyksen ylittymiseen. Eli jos hyökkäysaika on yli 0ms - kompressori alkaa puristaa kynnyssignaalin ylitys ei heti, vaan tietyn ajan kuluttua.

Vapauta tai palautus, ms

Hyökkäyksen vastakohta - tämän parametrin arvon avulla voit määrittää, kuinka kauan signaalin taso palaa kynnyksen alapuolelle kompressori lopettaa puristamisen.

Ennen kuin siirrymme eteenpäin, suosittelen vahvasti ottamaan tunnetun näytteen, sijoittamaan minkä tahansa kompressorin sen kanavalle ja kokeilemaan yllä olevia parametreja 5-10 minuuttia materiaalin kiinnittämiseksi turvallisesti

Kaikki muut parametrit ovat valinnaisia. Ne voivat vaihdella eri kompressorimallien välillä, minkä vuoksi tuottajat käyttävät osittain erilaisia ​​malleja tiettyihin tarkoituksiin (esimerkiksi yksi kompressori laululle, toinen rumpuryhmälle, kolmas master-kanavalle). En käsittele näitä parametreja yksityiskohtaisesti, vaan annan vain yleistä tietoa ymmärtääkseni, mistä on kyse:

  • Polvi tai mutka (kova/pehmeä polvi). Tämä parametri määrittää, kuinka nopeasti puristussuhdetta (suhdetta) käytetään: kovaa käyrää pitkin vai tasaisesti. Huomaan, että Soft Knee -tilassa kompressori ei toimi lineaarisesti, vaan alkaa tasaisesti (sikäli kuin se on tarkoituksenmukaista, kun puhumme millisekunneista) kompressoida ääntä jo ennen kynnysarvoa. Kanavaryhmien ja kokonaismixin käsittelyyn käytetään usein pehmeää polvea (koska se toimii huomaamatta), ja yksittäisten instrumenttien hyökkäyksen ja muiden ominaisuuksien korostamiseksi käytetään kovaa polvea;
  • Vastaustila: Peak/RMS. Peak-tila on perusteltu, kun sinun on rajoitettava tiukasti amplitudipurskeita, samoin kuin monimutkaisen muodon omaaville signaaleille, joiden dynamiikka ja luettavuus on välitettävä täysin. RMS-tila on erittäin lempeä äänelle, joten voit paksuntaa sitä samalla kun hyökkäys säilyy;
  • Ennakointi (Katso eteenpäin). Tämä on aika, jonka aikana kompressori tietää, mitä sille on tulossa. Eräänlainen saapuvien signaalien alustava analyysi;
  • Meikki tai voitto. Parametri, jonka avulla voit kompensoida pakkaamisesta johtuvaa äänenvoimakkuuden vähenemistä.

Ensin ja tärkein neuvo, joka eliminoi kaikki muut pakkauskysymykset: jos a) ymmärrät pakkauksen periaatteen, b) tiedät varmasti kuinka tämä tai tuo parametri vaikuttaa ääneen ja c) olet onnistunut kokeilemaan useita eri malleja käytännössä - et tarvitse enää neuvoja.

Olen aivan tosissani. Jos luit tämän viestin huolellisesti, kokeilit DAW:si vakiokompressoria ja yhtä tai kahta laajennusta, mutta et silti ymmärtänyt, missä tapauksissa sinun on asetettava suuret hyökkäysarvot, mitä suhdetta käyttää ja missä tilassa käsitellä lähdesignaali - sitten jatkat valmiiden reseptien etsimistä Internetistä ja käytät niitä ajattelemattomasti missä tahansa.

Kompressorin hienosäätöreseptejä Se on vähän kuin reseptejä kaiun tai kuoron hienosäätämiseen - siinä ei ole mitään järkeä, eikä sillä ole mitään tekemistä luovuuden kanssa. Siksi toistan jatkuvasti ainoaa oikeaa reseptiä: varustaudu tällä artikkelilla, hyvillä näyttökuulokkeilla, laajennuksella aaltomuodon visuaaliseen hallintaan ja vietä ilta parin kompressorin seurassa.

Toimia!