Ascii täydellinen merkkitaulukko. Tekstitietojen koodaus

Jokaisella tietokoneella on omat merkit, jotka se toteuttaa. Tämä sarja sisältää 26 isoa ja pientä kirjainta, numeroa ja erikoismerkkejä (piste, välilyönti jne.). Kun symboleja muunnetaan kokonaisluvuiksi, niitä kutsutaan koodeiksi. Standardit kehitettiin niin, että tietokoneilla olisi samat koodisarjat.

ASCII-standardi

ASCII (American Standard Code for Information Interchange) on amerikkalainen standardikoodi tiedonvaihtoon. Jokaisessa ASCII-merkissä on 7 bittiä, joten merkkien enimmäismäärä on 128 (taulukko 1). Koodit 0–1F ovat ohjausmerkkejä, joita ei tulosteta. Tiedon siirtämiseen tarvitaan monia ei-tulostettavia ASCII-merkkejä. Viesti voi koostua esimerkiksi otsikon alkumerkistä SOH, itse otsikosta ja tekstin alun merkistä STX, itse tekstistä ja tekstin lopun merkistä ETX sekä lähetyksen lopusta. hahmo EOT. Tieto verkon yli kuitenkin välitetään paketteina, jotka itse vastaavat lähetyksen alkamisesta ja lopusta. Joten ei-tulostettavia merkkejä ei käytetä melkein koskaan.

Taulukko 1 - ASCII-kooditaulukko

Määrä Tiimi Merkitys Määrä Tiimi Merkitys
0 NUL Nolla-osoitin 10 DLE Poistu siirtojärjestelmästä
1 SOH otsikon alku 11 DC1 Laitehallinta
2 STX Tekstin alku 12 DC2 Laitehallinta
3 ETX Tekstin loppu 13 DC3 Laitehallinta
4 EOT Lähetyksen loppu 14 DC4 Laitehallinta
5 ACK Pyyntö 15 N.A.K. Vastaanoton vahvistamatta jättäminen
6 BEL Hyväksymisen vahvistus 16 SYN Yksinkertainen
7 B.S. Kellon symboli 17 ETB Lähetyslohkon loppu
8 HT Astu taaksepäin 18 VOI Mark
9 LF Vaakataulukko 19 E.M. Median loppu
A VT Rivikäännös 1A SUB Alaindeksi
B FF Pysty välilehti 1B POISTU Poistu
C CR Sivun käännös 1C FS Tiedoston erotin
D NIIN Vaunun palautus 1D G.S. Ryhmäerotin
E SI. Vaihda lisärekisteriin 1E R.S. Tietueen erotin
SI. Vaihda vakiokoteloon 1F MEILLE Moduulien erotin
Määrä Symboli Määrä Symboli Määrä Symboli Määrä Symboli Määrä Symboli Määrä Symboli
20 tilaa 30 0 40 @ 50 P 60 . 70 s
21 ! 31 1 41 A 51 K 61 a 71 q
22 32 2 42 B 52 R 62 b 72 r
23 # 33 3 43 C 53 S 63 c 73 s
24 φ 34 4 44 D 54 T 64 d 74 t
25 % 35 5 45 E 55 JA 65 e 75 Ja
26 & 36 6 46 F 56 V 66 f 76 v
27 37 7 47 G 57 W 67 g 77 w
28 ( 38 8 48 H 58 X 68 h 78 x
29 ) 39 9 49 minä 59 Y 69 i 70 y
2A 3A ; 4A J 5A Z 6A j 7A z
2B + 3B ; 4B K 5B [ 6B k 7B {
2C 3C < 4C L 5C \ 6C l 7C |
2D 3D = 4D M 5D ] 6D m 7D }
2E 3E > 4E N 5E 6E n 7E ~
2F / 3F g 4F O 5F _ 6F o 7F DEL

Unicode standardi

Edellinen koodaus on hyvä englannin kielelle, mutta se ei ole kätevä muille kielille. Esimerkiksi saksassa on umlautit ja ranskassa yläindeksit. Joillakin kielillä on täysin erilaiset aakkoset. Ensimmäinen yritys laajentaa ASCII:ta oli IS646, joka laajensi aiempaa koodausta 128 lisämerkillä. Lisättiin latinalaisia ​​kirjaimia viivoineen ja diakriittisinä ja sai nimen - Latin 1. Seuraava yritys oli IS 8859 - joka sisälsi koodisivun. Myös pidennysyrityksiä yritettiin, mutta tämä ei ollut yleistä. UNICODE-koodaus luotiin (on 10646). Koodauksen ideana on antaa jokaiselle merkille yksi vakio 16-bittinen arvo, jota kutsutaan - koodi osoitin. Kaikkiaan osoittimia on 65536. Tilan säästämiseksi käytimme Latin-1-koodeja 0 -255, jolloin ASII vaihdettiin helposti UNICODE:ksi. Tämä standardi ratkaisi monia ongelmia, mutta ei kaikkia. Uusien sanojen saapumisen vuoksi esimerkiksi japanin kielelle on tarpeen lisätä termien määrää noin 20 tuhannella. Myös pistekirjoitus on tarpeen.

Muistakaamme joitain faktoja, jotka tiedämme:

Symbolijoukkoa, jolla tekstiä kirjoitetaan, kutsutaan aakkosiksi.

Aakkosten merkkien määrä on sen kardinaliteetti.

Kaava tiedon määrän määrittämiseksi: N = 2 b,

missä N on aakkosten teho (merkkien määrä),

b - bittien lukumäärä (symbolin tiedon paino).

Aakkoset, joiden kapasiteetti on 256 merkkiä, voivat sisältää melkein kaikki tarvittavat merkit. Tällaista aakkostoa kutsutaan riittäväksi.

Koska 256 = 28 , silloin 1 merkin paino on 8 bittiä.

Mittayksikölle 8 bittiä annettiin nimi 1 tavu:

1 tavu = 8 bittiä.

Tietokonetekstin jokaisen merkin binäärikoodi vie 1 tavun muistia.

Miten tekstitieto esitetään tietokoneen muistissa?

Koodaus koostuu siitä, että kullekin merkille annetaan yksilöllinen desimaalikoodi 0-255 tai vastaava binäärikoodi 00000000-11111111. Näin ollen henkilö erottaa merkit niiden ääriviivan perusteella ja tietokone koodin perusteella.

Tavu-tavuisen merkkikoodauksen mukavuus on ilmeinen, koska tavu on muistin pienin osoitettavissa oleva osa ja siksi prosessori voi käyttää jokaista merkkiä erikseen käsitellessään tekstiä. Toisaalta 256 merkkiä on varsin riittävä määrä edustamaan monenlaista symbolista tietoa.

Nyt herää kysymys, mikä kahdeksanbittinen binaarikoodi kullekin merkille määritetään.

On selvää, että tämä on ehdollinen asia, voit keksiä monia koodausmenetelmiä.

ASCII-taulukosta on tullut PC-tietokoneiden kansainvälinen standardi (lue aski) (American Standard Code for Information Interchange).

Vain taulukon ensimmäinen puolisko on kansainvälinen standardi, ts. merkkejä numeroilla 0 (00000000) - 127 (01111111).

Sarjanumero

Symboli

00000000 - 00011111


Niiden tehtävänä on ohjata tekstin näyttämistä näytöllä tai tulostamista, äänimerkin antamista, tekstin merkitsemistä jne.

32 - 127

00100000 - 01111111


128 - 255

10000000 - 11111111


ASCII-kooditaulukon toisella puoliskolla, jota kutsutaan koodisivuksi (128 koodia alkaen 10000000 ja päättyen numeroon 11111111), voi olla erilaisia ​​muunnelmia, joista jokaisella on oma numeronsa.


Huomaa, että koodaustaulukossa kirjaimet (isot ja pienet) on järjestetty aakkosjärjestykseen ja numerot nousevaan järjestykseen. Tätä leksikografisen järjestyksen noudattamista symbolien järjestelyssä kutsutaan aakkosten peräkkäisen koodauksen periaatteeksi.


Yleisin tällä hetkellä käytetty koodaus on Microsoft Windows, lyhenne CP1251.

90-luvun lopulta lähtien merkkikoodauksen standardointiongelma on ratkaistu ottamalla käyttöön uusi kansainvälinen standardi nimeltä Unicode. . Tämä on 16-bittinen koodaus, ts. se varaa 2 tavua muistia jokaiselle merkille. Tietenkin tämä lisää varatun muistin määrää 2 kertaa. Mutta tällainen kooditaulukko sallii jopa 65536 merkin sisällyttämisen. Unicode-standardin täydellinen spesifikaatio sisältää kaikki maailman olemassa olevat, sukupuuttoon kuolleet ja keinotekoisesti luodut aakkoset sekä monet matemaattiset, musiikilliset, kemialliset ja muut symbolit.

Yritetään käyttää ASCII-taulukkoa kuvitellaksesi, miltä sanat näyttävät tietokoneen muistissa.

Sanat

Muisti

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Kun tekstitietoa syötetään tietokoneeseen, merkit (kirjaimet, numerot, merkit) koodataan erilaisilla koodijärjestelmillä, jotka koostuvat joukosta kooditaulukoita, jotka sijaitsevat tekstitietojen koodausstandardien vastaavilla sivuilla. Tällaisissa taulukoissa kullekin merkille on määritetty erityinen numeerinen koodi heksadesimaali- tai desimaalilukujärjestelmässä, eli kooditaulukot heijastavat symbolikuvien ja numerokoodien välistä vastaavuutta ja on tarkoitettu tekstiinformaation koodaamiseen ja dekoodaamiseen. Kun tekstiä syötetään tietokoneen näppäimistöllä, jokainen syötetty merkki koodataan, ts. muunnetaan numerokoodiksi, kun tekstitiedot tulostetaan tietokoneen tulostuslaitteeseen (näyttöön, tulostimeen tai plotteriin), sen kuva muodostetaan käyttämällä numerokoodia; hahmo. Tietyn numerokoodin osoittaminen symbolille on tulosta eri maiden asiaankuuluvien organisaatioiden välisestä sopimuksesta. Tällä hetkellä ei ole olemassa yhtä yleistä kooditaulukkoa, joka vastaa eri maiden kansallisten aakkosten kirjaimia.

Nykyaikaiset kooditaulukot sisältävät kansainvälisiä ja kansallisia osia, eli ne sisältävät latinalaisten ja kansallisten aakkosten kirjaimia, numeroita, aritmeettisia operaatioita ja välimerkkejä, matemaattisia ja ohjausmerkkejä sekä pseudografisia symboleja. Kooditaulukon kansainvälinen osa standardin perusteella ASCII (American Standard Code for Information Interchange), koodaa kooditaulukon merkkien ensimmäisen puoliskon numerokoodeilla 0-7 F 16, tai desimaalilukujärjestelmässä 0 - 127. Tässä tapauksessa henkilökohtaisen tietokoneen näppäimistön toimintonäppäimille (F1, F2, F3 jne.) annetaan koodit 0 - 20 16 (0 ? 32 10). Kuvassa 3.1 näyttää standardiin perustuvien kooditaulukoiden kansainvälisen osan ASCII Taulukon solut numeroidaan desimaali- ja heksadesimaalilukujärjestelmissä, vastaavasti.

Kuva 3.1. Kooditaulukon kansainvälinen osa (vakio ASCII) solujen numerot esitetään desimaali- (a) ja heksadesimaalilukujärjestelmissä (b).


Kooditaulukoiden kansallinen osa sisältää kansallisten aakkosten koodit, jota kutsutaan myös merkistötaulukoksi (merkkisarja).

Tällä hetkellä venäläisten aakkosten (kyrilliset) kirjainten tukemiseksi on olemassa useita kooditaulukoita (koodauksia), joita useat käyttöjärjestelmät käyttävät, mikä on merkittävä haittapuoli ja johtaa joissakin tapauksissa ongelmiin, jotka liittyvät numeeristen merkkiarvojen dekoodaustoimintoihin. Taulukossa 3.1 näyttää niiden koodisivujen (standardien) nimet, joilla kyrilliset kooditaulukot (koodaukset) sijaitsevat.

Taulukko 3.1

Yksi ensimmäisistä standardeista kyrillisten aakkosten koodaamiseksi tietokoneissa oli KOI8-R-standardi. Tämän standardin kooditaulukon kansallinen osa on esitetty kuvassa. 3.2.

Riisi. 3.2. KOI8-R-standardin kooditaulukon kansallinen osa


Tällä hetkellä käytössä on myös käyttöjärjestelmässä käytettävän tekstitietojen koodausstandardin sivulla CP866 oleva kooditaulukko. MS DOS tai istunto MS DOS kyrillisten aakkosten koodaamiseen (kuva 3.3, A).

Riisi. 3.3. Kooditaulukon kansallinen osa, joka sijaitsee tekstitietojen koodausstandardin sivulla CP866 (a) ja sivulla CP1251 (b)


Tällä hetkellä eniten käytetty kooditaulukko kyrillisten aakkosten koodaamiseen löytyy vastaavan standardin sivulla CP1251, jota käytetään perheen käyttöjärjestelmissä. Windows yritykset Microsoft(Kuva 3.2, b). Kaikissa esitetyissä kooditaulukoissa, paitsi vakiotaulukossa Unicode Yhden merkin koodaamiseksi varataan 8 binaarinumeroa (8 bittiä).

Viime vuosisadan lopulla ilmestyi uusi kansainvälinen standardi Unicode jossa yksi merkki esitetään kaksitavuisena binaarikoodina. Tämän standardin soveltaminen on jatkoa yleismaailmallisen kansainvälisen standardin kehittämiselle kansallisten merkkikoodausten yhteensopivuusongelman ratkaisemiseksi. Tätä standardia käyttämällä 2 16 = 65536 eri merkkiä voidaan koodata. Kuvassa 3.4 näyttää standardin kooditaulukon 0400 (venäläiset aakkoset). Unicode.

Riisi. 3.4. Unicode-kooditaulukko 0400


Selvitetään esimerkin avulla, mitä on sanottu tekstitiedon koodauksesta.

Esimerkki 3.1

Koodaa sana "Computer" desimaali- ja heksadesimaalilukujen sekvenssinä käyttämällä CP1251-koodausta. Mitä merkkejä näytetään CP866- ja KOI8-R-kooditaulukoissa, kun vastaanotettua koodia käytetään.

Sanan “Computer” heksadesimaali- ja binäärikoodin sekvenssit CP1251-koodaustaulukon perusteella (katso kuva 3.3, b) näyttää tältä:

Tämä koodisekvenssi SR866- ja KOI8-R-koodauksissa johtaa seuraavien merkkien näyttöön:

Venäjänkielisten tekstiasiakirjojen muuttamiseksi yhdestä tekstitietojen koodausstandardista toiseen käytetään erityisiä ohjelmia - muuntimia. Muuntimet on yleensä rakennettu muihin ohjelmiin. Esimerkki olisi selainohjelma - Internet Explorer (IE), jossa on sisäänrakennettu muuntaja. Selainohjelma on erityinen ohjelma sisällön katseluun. verkkosivut maailmanlaajuisessa tietokoneverkossa Internetissä. Varmistetaan tällä ohjelmalla esimerkissä 3.1 saatu symbolikartoitustulos. Tätä varten suoritamme seuraavat vaiheet.

1. Käynnistä Notepad-ohjelma (Muistilehtiö). Muistio-ohjelma käyttöjärjestelmässä Windows XP käynnistetään komennolla: [Button alkaa– Ohjelmat – Vakio – Muistio]. Kirjoita avautuvaan Notepad-ohjelman ikkunaan sana "tietokone" käyttämällä hypertekstiasiakirjan merkintäkielen syntaksia - HTML (Hyper Text Markup Language). Tätä kieltä käytetään asiakirjojen luomiseen Internetissä. Tekstin pitäisi näyttää tältä:

Tietokonevesi

, Missä

Ja

kielen tunnisteet (erikoisrakenteet). HTML otsikon merkintää varten. Kuvassa Kuva 3.5 näyttää näiden toimien tulokset.

Riisi. 3.5. Tekstin näyttäminen Muistio-ikkunassa


Tallennetaan tämä teksti suorittamalla komento: [Tiedosto - Tallenna nimellä...] tietokoneen sopivaan kansioon, tekstiä tallennettaessa annamme tiedostolle nimen - Huom, tiedostopäätteellä. html.

2. Käynnistä ohjelma Internet Explorer, suorittamalla komennon: [Button alkaa- Ohjelmat - Internet Explorer]. Kun käynnistät ohjelman, kuvassa oleva ikkuna avautuu. 3.6

Riisi. 3.6. Offline-käyttöikkuna


Valitse ja aktivoi painike Offline-tilassa Tässä tapauksessa tietokone ei muodosta yhteyttä maailmanlaajuiseen Internetiin. Ohjelman pääikkuna tulee näkyviin Microsoft Internet Explorer, esitetty kuvassa. 3.7.

Riisi. 3.7. Microsoft Internet Explorerin pääikkuna


Suoritetaan seuraava komento: [File – Open], näkyviin tulee ikkuna (kuva 3.8), jossa sinun on määritettävä tiedoston nimi ja klikattava painiketta OK tai paina painiketta Arvostelu… ja etsi tiedosto Note.html.

Riisi. 3.8. Avoin ikkuna


Internet Explorer -ohjelman pääikkuna on kuvan 2 mukaisessa muodossa. 3.9. Sana "Tietokone" tulee näkyviin ikkunaan. Seuraavaksi käytä ohjelman ylävalikkoa Internet Explorer, suorita seuraava komento: [View – Encoding – Cyrillic (DOS)]. Kun olet suorittanut tämän komennon ohjelmaikkunassa Internet Explorer Kuvassa näkyvät symbolit tulevat näkyviin. 3.10. Komentoa suoritettaessa: [Näytä – Koodaus – Kyrillinen (KOI8-R) ] ohjelmaikkunassa Internet Explorer Kuvassa näkyvät symbolit tulevat näkyviin. 3.11.

Riisi. 3.9. Merkit näytetään CP1251-koodauksella


Riisi. 3.10. Merkit, jotka näytetään, kun CP866-koodaus on käytössä CP1251-koodauksessa esitetylle koodisekvenssille


Riisi. 3.11. Merkit, jotka näytetään, kun KOI8-R-koodaus on käytössä CP1251-koodauksessa esitetylle koodisekvenssille


Näin saatu ohjelman avulla Internet Explorer merkkisekvenssit ovat yhtenevät esimerkin 3.1 CP866- ja KOI8-R-kooditaulukoilla saatujen merkkijonojen kanssa.

3.2. Graafisten tietojen koodaus

Kuvien, valokuvien, diojen, liikkuvien kuvien (animaatio, video), kaavioiden, piirustusten muodossa esitetty graafinen informaatio voidaan luoda ja muokata tietokoneella ja se on koodattu vastaavasti. Tällä hetkellä graafisen tiedon käsittelemiseen on olemassa melko suuri määrä sovellusohjelmia, mutta ne kaikki toteuttavat kolmen tyyppistä tietokonegrafiikkaa: rasteri-, vektori- ja fraktaaleja.

Jos tarkastelet tarkemmin tietokoneen näytön graafista kuvaa, voit nähdä suuren määrän monivärisiä pisteitä (pikseleitä - englannista. pikseli koulutettu alkaen kuva elementti - kuvan elementti), jotka yhteen koottuna muodostavat tietyn graafisen kuvan. Tästä voimme päätellä: graafinen kuva tietokoneessa on koodattu tietyllä tavalla ja se on esitettävä graafisen tiedoston muodossa. Tiedosto on perusrakenneyksikkö tietojen järjestämisessä ja tallentamisessa tietokoneelle, ja tässä tapauksessa sen tulee sisältää tiedot siitä, kuinka tämä pistejoukko esitetään monitorin näytöllä.

Vektorigrafiikan pohjalta luodut tiedostot sisältävät matemaattisten suhteiden (lineaarisia suhteita kuvaavia matemaattisia funktioita) muodossa olevaa tietoa ja vastaavaa tietoa siitä, kuinka objektista muodostetaan kuva viivasegmenteillä (vektoreilla) tietokoneen näytöllä näytettävänä.

Rasterigrafiikan perusteella luodut tiedostot edellyttävät tietojen tallentamista jokaisesta kuvan yksittäisestä pisteestä. Rasterigrafiikan näyttämiseen ei tarvita monimutkaisia ​​matemaattisia laskelmia, riittää, kun hankit tiedot kuvan jokaisesta pisteestä (sen koordinaatit ja väri) ja näyttävät ne tietokoneen näytön näytöllä.

Koodauksen aikana kuva diskretisoidaan spatiaalisesti, eli kuva jaetaan yksittäisiin pisteisiin ja jokaiselle pisteelle annetaan värikoodi (keltainen, punainen, sininen jne.). Värigraafisen kuvan jokaisen pisteen koodaamiseen käytetään mielivaltaisen värin hajoamisen periaatetta sen pääkomponentteihin, joihin käytetään kolmea pääväriä: punainen (englanninkielinen sana Punainen, merkitty kirjaimella TO), vihreä (Vihreä, merkitty kirjaimella G), sininen (Sininen, merkitty pyökkillä SISÄÄN). Mikä tahansa ihmissilmän havaitsema pisteen väri voidaan saada lisäämällä (suhteellisesti) kolmea pääväriä - punaista, vihreää ja sinistä - (sekoituksella). Tätä koodausjärjestelmää kutsutaan värijärjestelmäksi RGB. Grafiikkatiedostot, jotka käyttävät värijärjestelmää RGB edustaa kuvan jokaista pistettä väritriplettinä - kolme numeerista arvoa R, G Ja SISÄÄN, vastaavat punaisen, vihreän ja sinisen värin intensiteetit. Graafisen kuvan koodausprosessi suoritetaan erilaisilla teknisillä keinoilla (skanneri, digitaalikamera, digitaalinen videokamera jne.); tuloksena on rasterikuva. Toistettaessa värillisiä graafisia kuvia värillisellä tietokoneen näytöllä, tällaisen kuvan kunkin pisteen (pikselin) väri saadaan sekoittamalla kolme pääväriä R,G Ja B.

Rasterikuvan laatu määräytyy kahdella pääparametrilla - resoluutiolla (pikseleiden määrä vaaka- ja pystysuunnassa) ja käytetyllä väripaletilla (määritettyjen värien määrä jokaiselle kuvan pikselille). Tarkkuus määritetään ilmoittamalla pikselien lukumäärä vaaka- ja pystysuunnassa, esimerkiksi 800 x 600 pikseliä.

On olemassa suhde rasterikuvan pisteelle määritettyjen värien lukumäärän ja pisteen värin tallentamiseen allokoitavan tiedon välillä, joka määräytyy suhteen perusteella (R. Hartleyn kaava):

Missä minä– tiedon määrä; N – pisteelle määritettyjen värien määrä.

Pisteen värin tallentamiseen tarvittavaa tiedon määrää kutsutaan myös värisyvyydeksi tai värintoiston laaduksi.

Joten jos kuvapisteelle määritetty värien määrä on N= 256, silloin sen tallentamiseen tarvittavan tiedon määrä (värisyvyys) kaavan (3.1) mukaisesti on yhtä suuri kuin minä= 8 bittiä.

Tietokoneet käyttävät näytön erilaisia ​​graafisia tiloja graafisten tietojen näyttämiseen. Tässä on huomioitava, että näytön graafisen tilan lisäksi on olemassa myös tekstitila, jossa näytön näyttö on perinteisesti jaettu 25 riville, joissa on 80 merkkiä per rivi. Näille grafiikkatiloille on ominaista näytön resoluutio ja värinlaatu (värisyvyys). Näytön näytön graafisen tilan asettaminen käyttöjärjestelmässä MS Windows XP sinun on suoritettava komento: [Button alkaa– Asetukset – Ohjauspaneeli – Näyttö]. Näyttöön tulevasta "Ominaisuudet: Näyttö" -valintaikkunasta (kuva 3.12) on valittava "Parametrit"-välilehti ja "Näytön tarkkuus" -liukusäätimellä valitaan sopiva näytön tarkkuus (800 x 600 pikseliä, 1024 x 768 pikseliä, jne.). Avattavasta "Värilaatu"-luettelosta voit valita värisyvyyden - "Korkein (32 bittiä)", "Keskitaso (16 bittiä)" jne., jolloin kullekin kuvan kohdalle määritettyjen värien määrä olla vastaavasti 2 32 (4294967296), 2 16 (65536) jne.

Riisi. 3.12. Näytön ominaisuudet -valintaikkuna


Jokaisen näytön graafisen tilan toteuttamiseksi tarvitaan tietty määrä tietokoneen videomuistia. Videomuistin vaadittu tietomäärä (V) määräytyy suhteesta

Missä TO - kuvapisteiden määrä näyttöruudulla (K = A · B); A - vaakasuuntaisten pisteiden määrä monitorin näytöllä; SISÄÄN - pystysuorien pisteiden määrä monitorin näytöllä; minä– tiedon määrä (värisyvyys).

Joten jos näytön resoluutio on 1024 x 768 pikseliä ja paletti, joka koostuu 65 536 väristä, kaavan (3.1) mukainen värisyvyys on I = log 2 65 538 = 16 bittiä, kuvan pikselien määrä olla yhtä suuri kuin: K = 1024 x 768 = 786432, ja videomuistin vaadittu tietomäärä kohdan (3.2) mukaisesti on yhtä suuri kuin

V= 786432 · 16 bittiä = 12582912 bittiä = 1572864 tavua = 1536 kt = 1,5 megatavua.

Lopuksi on huomattava, että lueteltujen ominaisuuksien lisäksi monitorin tärkeimmät ominaisuudet ovat sen näytön ja kuvapisteiden geometriset mitat. Näytön geometriset mitat määräytyvät näytön diagonaalin koon mukaan. Näyttöjen diagonaalikoko on määritetty tuumina (1 tuuma = 1" = 25,4 mm) ja se voi saada arvoja, jotka ovat yhtä suuria kuin: 14", 15", 17", 21" jne. Nykyaikaiset näyttöjen tuotantotekniikat voivat tarjota kuvan pisteen koko on 0,22 mm.

Siten jokaiselle näytölle on fyysisesti suurin mahdollinen näytön resoluutio, joka määräytyy sen diagonaalin koon ja kuvapisteen koon mukaan.

Harjoituksia tehdä itse

1. Ohjelman käyttö MS Excel muuntaa ASCII-, SR866-, SR1251-, KOI8-R-kooditaulukot muotoisiksi taulukoiksi: kirjoita taulukoiden ensimmäisen sarakkeen soluihin aakkosjärjestyksessä latinalaisten ja kyrillisten aakkosten isot ja sitten pienet kirjaimet, toinen sarake - desimaalilukujärjestelmän kirjaimia vastaavat koodit, soluissa kolmas sarake on koodit, jotka vastaavat heksadesimaalilukujärjestelmän kirjaimia. Koodiarvot on valittava vastaavista kooditaulukoista.

2. Koodaa ja kirjoita seuraavat sanat numerosarjaksi desimaali- ja heksadesimaalilukujärjestelmissä:

a) Internet Explorer, b) Microsoft Office; V) CorelDRAW.

Koodaus suoritetaan käyttämällä edellisessä harjoituksessa saatua modernisoitua ASCII-koodaustaulukkoa.

3. Käytä modernisoitua KOI8-R-koodaustaulukkoa, pura heksadesimaalilukujärjestelmään kirjoitetut numerosarjat:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Miltä SR1251-koodauksella kirjoitettu sana "Cybernetics" näyttää käytettäessä SR866- ja KOI8-R-koodauksia? Tarkista tulokset ohjelman avulla Internet Explorer.

5. Kuvassa näkyvän kooditaulukon avulla. 3.1 A, purkaa seuraavat binäärilukujärjestelmään kirjoitetut koodisekvenssit:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Määritä sanan ”Economy” tietomäärä, joka on koodattu kooditaulukoilla SR866, SR1251, Unicode ja KOI8-R.

7. Määritä 12x12 cm:n värikuvan skannauksen tuloksena saadun tiedoston tietomäärä. Tämän kuvan skannaamiseen käytetyn skannerin resoluutio on 600 dpi. Skanneri asettaa kuvapisteen värisyvyydeksi 16 bittiä.

Skannerin tarkkuus 600 dpi (piste tuuma - dots per inch) määrittää tällä resoluutiolla toimivan skannerin kyvyn erottaa 600 pistettä 1 tuuman segmentissä.

8. Määritä A4-kokoisen värikuvan skannauksen tuloksena saadun tiedoston tietomäärä. Tämän kuvan skannaamiseen käytetyn skannerin tarkkuus on 1200 dpi. Skanneri asettaa kuvapisteen värisyvyydeksi 24 bittiä.

9. Määritä paletin värien lukumäärä 8, 16, 24 ja 32 bitin värisyvyyksillä.

10. Määritä tarvittava videomuistin määrä näytön 640 x 480, 800 x 600, 1024 x 768 ja 1280 x 1024 pikselin graafisille tiloille kuvan pikselin värisyvyyden ollessa 8, 16, 24 ja 32 bittiä. Tee yhteenveto tuloksista taulukkoon. Kehittyä sisään MS Excel ohjelma laskennan automatisointiin.

11. Määritä värien enimmäismäärä, jolla voidaan tallentaa kuva, jonka koko on 32 x 32 pikseliä, jos tietokoneessa on 2 kt muistia kuvalle.

12. Määritä näytön suurin mahdollinen resoluutio, jonka diagonaalin pituus on 15" ja kuvapisteen koko 0,28 mm.

13. Mitä näytön graafisia tiloja 64 Mt videomuisti voi tarjota?

Sisällys

I. Tietojen koodauksen historia………………………………..3

II. Tietojen koodaus………………………………………………………4

III. Tekstitietojen koodaus………………………………….4

IV. Koodaustaulukoiden tyypit……………………………………………………………6

V. Tekstitiedon määrän laskeminen…………………………14

Viiteluettelo……………………………………..16

minä . Tietojen koodauksen historia

Ihmiskunta on käyttänyt tekstin salausta (koodausta) siitä hetkestä lähtien, kun ensimmäinen salainen tieto ilmestyi. Tässä on useita tekstin koodaustekniikoita, jotka keksittiin ihmisajattelun eri vaiheissa:

Kryptografia on salainen kirjoittaminen, järjestelmä muuttaa kirjoittamista tekstin tekemiseksi käsittämättömäksi tietämättömille;

Morsekoodi tai epätasainen lennätinkoodi, jossa jokaista kirjainta tai merkkiä edustaa oma yhdistelmänsä lyhyistä sähkövirran alkeispurskeista (pisteet) ja kolminkertaisista elementaarisista purskeista (viiva);

viittomakieli on kuulovammaisten käyttämä viittomakieli.

Yksi varhaisimmista tunnetuista salausmenetelmistä on nimetty Rooman keisarin Julius Caesarin (1. vuosisadalla eKr.) mukaan. Tämä menetelmä perustuu siihen, että salatun tekstin jokainen kirjain korvataan toisella, siirtämällä aakkostoa alkuperäisestä kirjaimesta kiinteällä määrällä merkkejä ja aakkoset luetaan ympyrässä, eli i-kirjaimen jälkeen otetaan huomioon a. . Joten sana "tavu", kun sitä siirretään kaksi merkkiä oikealle, koodataan sanaksi "gwlf". Tietyn sanan käänteinen tulkintaprosessi on tarpeen, jotta jokainen salattu kirjain korvataan toisella sen vasemmalla puolella olevalla kirjaimella.

II. Koodaustiedot

Koodi on joukko sopimuksia (tai signaaleja) joidenkin ennalta määritettyjen käsitteiden tallentamiseksi (tai viestimiseksi).

Tiedon koodaus on prosessi, jossa muodostetaan tiedosta erityinen esitys. Suppeammassa merkityksessä termi "koodaus" ymmärretään usein siirtymäksi yhdestä tiedon esitysmuodosta toiseen, joka on kätevämpi tallennuksen, siirron tai käsittelyn kannalta.

Yleensä jokaista kuvaa koodattaessa (jota kutsutaan joskus salaukseksi) edustaa erillinen merkki.

Merkki on osa äärellisestä joukosta elementtejä, jotka eroavat toisistaan.

Suppeammassa merkityksessä termi "koodaus" ymmärretään usein siirtymäksi yhdestä tiedon esitysmuodosta toiseen, joka on helpompi tallentaa, siirtää tai käsitellä.

Voit käsitellä tekstitietoja tietokoneella. Kun se syötetään tietokoneeseen, jokainen kirjain on koodattu tietyllä numerolla, ja kun se tulostetaan ulkoisiin laitteisiin (näyttö tai tuloste), kirjainten kuvat muodostetaan näistä numeroista ihmisen havaitsemista varten. Kirjainten ja numeroiden välistä vastaavuutta kutsutaan merkkikoodaukseksi.

Yleensä kaikki tietokoneen numerot esitetään nollien ja ykkösten avulla (ei kymmentä numeroa, kuten ihmisille tavallista). Toisin sanoen tietokoneet toimivat yleensä binäärilukujärjestelmässä, koska tämä yksinkertaistaa niitä huomattavasti. Numeroiden syöttäminen tietokoneeseen ja tulostaminen ihmisen luettavaksi voidaan tehdä tavanomaisessa desimaalimuodossa ja kaikki tarvittavat muunnokset suoritetaan tietokoneella käynnissä olevilla ohjelmilla.

III. Tekstitietojen koodaus

Samat tiedot voidaan esittää (koodata) useissa eri muodoissa. Tietokoneiden myötä syntyi tarve koodata kaikentyyppistä tietoa, jota sekä yksilö että koko ihmiskunta käsittelevät. Mutta ihmiskunta alkoi ratkaista tiedon koodausongelmaa kauan ennen tietokoneiden tuloa. Ihmiskunnan suuret saavutukset - kirjoittaminen ja aritmetiikka - eivät ole muuta kuin puheen ja numeerisen tiedon koodausjärjestelmä. Tieto ei koskaan esiinny puhtaassa muodossaan, se esitetään aina jotenkin, koodataan jotenkin.

Binäärikoodaus on yksi yleisimmistä tavoista esittää tietoa. Tietokoneissa, roboteissa ja numeerisesti ohjatuissa koneissa pääsääntöisesti kaikki laitteen käsittelemä tieto on koodattu binääriaakkosten sanojen muodossa.

60-luvun lopulta lähtien tietokoneita on käytetty yhä enemmän tekstitietojen käsittelyyn, ja tällä hetkellä suurin osa maailman henkilökohtaisista tietokoneista (ja suurimman osan ajasta) on tekstitiedon käsittelyn varassa. Kaikki tämän tyyppiset tiedot tietokoneessa esitetään binäärikoodina, eli käytetään tehon kaksi aakkosia (vain kaksi merkkiä 0 ja 1). Tämä johtuu siitä, että on kätevää esittää tietoa sähköisten impulssien sarjan muodossa: impulssia ei ole (0), impulssi on (1).

Tällaista koodausta kutsutaan yleensä binääriksi, ja itse nollien ja ykkösten loogisia sekvenssejä kutsutaan konekieleksi.

Tietokoneen näkökulmasta teksti koostuu yksittäisistä merkeistä. Symbolit eivät sisällä vain kirjaimia (isot tai pienet kirjaimet, latina tai venäjä), vaan myös numeroita, välimerkkejä, erikoismerkkejä, kuten "=", "(", "&" jne., ja jopa (kiinnitä erityistä huomiota!) välilyönnit sanojen välillä.

Tekstit syötetään tietokoneen muistiin näppäimistön avulla. Näppäimiin on kirjoitettu meille tutut kirjaimet, numerot, välimerkit ja muut symbolit. He syöttävät RAM-muistin binäärikoodina. Tämä tarkoittaa, että jokainen merkki esitetään 8-bittisellä binäärikoodilla.

Perinteisesti yhden merkin koodaamiseen käytetään 1 tavua vastaavaa informaatiomäärää, eli I = 1 tavu = 8 bittiä. Käyttämällä kaavaa, joka yhdistää mahdollisten tapahtumien määrän K ja tiedon määrän I, voit laskea kuinka monta erilaista symbolia voidaan koodata (olettaen, että symbolit ovat mahdollisia tapahtumia): K = 2 I = 2 8 = 256, eli To:lle edustavat tekstitietoja, voit käyttää aakkosia, joiden kapasiteetti on 256 merkkiä.

Tämä merkkien määrä on aivan riittävä edustamaan tekstitietoja, mukaan lukien venäjän ja latinalaisen aakkosten isot ja pienet kirjaimet, numerot, merkit, graafiset symbolit jne.

Koodaus koostuu siitä, että kullekin merkille annetaan yksilöllinen desimaalikoodi 0-255 tai vastaava binäärikoodi 00000000-11111111. Näin ollen henkilö erottaa merkit niiden ääriviivan perusteella ja tietokone koodin perusteella.

Tavu-tavuisen merkkikoodauksen mukavuus on ilmeinen, koska tavu on muistin pienin osoitettavissa oleva osa ja siksi prosessori voi käyttää jokaista merkkiä erikseen käsitellessään tekstiä. Toisaalta 256 merkkiä on varsin riittävä määrä edustamaan monenlaista symbolista tietoa.

Symbolin näyttämisessä tietokoneen näytöllä suoritetaan käänteinen prosessi - dekoodaus, toisin sanoen symbolikoodin muuntaminen kuvaksi. On tärkeää, että tietyn koodin antaminen symbolille on sopimuskysymys, joka kirjataan kooditaulukkoon.

Nyt herää kysymys, mikä kahdeksanbittinen binaarikoodi kullekin merkille määritetään. On selvää, että tämä on ehdollinen asia, voit keksiä monia koodausmenetelmiä.

Kaikki tietokoneen aakkosten merkit on numeroitu 0 - 255. Jokainen numero vastaa kahdeksan bitin binaarikoodia 00000000 - 11111111. Tämä koodi on yksinkertaisesti merkin sarjanumero binäärinumerojärjestelmässä.

IV . Koodaustaulukoiden tyypit

Taulukkoa, jossa kaikille tietokoneen aakkosten merkeille on määritetty sarjanumerot, kutsutaan koodaustaulukoksi.

Erityyppiset tietokoneet käyttävät erilaisia ​​koodaustaulukoita.

ASCII-kooditaulukko (American Standard Code for Information Interchange) on hyväksytty kansainväliseksi standardiksi, joka koodaa merkkien ensimmäisen puoliskon numerokoodeilla 0 - 127 (koodit 0 - 32 ei ole määritetty merkkeihin, vaan toimintonäppäimiin) .

ASCII-kooditaulukko on jaettu kahteen osaan.

Vain taulukon ensimmäinen puolisko on kansainvälinen standardi, ts. merkkejä numeroilla 0 (00000000) - 127 (01111111).

ASCII-koodaustaulukkorakenne

Sarjanumero Koodi Symboli
0 - 31 00000000 - 00011111

Symboleja, joiden numerot ovat 0-31, kutsutaan yleensä ohjaussymboleiksi.

Niiden tehtävänä on ohjata tekstin näyttämistä näytöllä tai tulostamista, äänimerkin antamista, tekstin merkitsemistä jne.

32 - 127 0100000 - 01111111

Pöydän vakioosa (englanniksi). Tämä sisältää latinalaisten aakkosten pienet ja isot kirjaimet, desimaaliluvut, välimerkit, kaikenlaiset hakasulut, kaupalliset ja muut symbolit.

Merkki 32 on välilyönti, ts. tyhjä paikka tekstissä.

Kaikki muut heijastuvat tietyillä merkeillä.

128 - 255 10000000 - 11111111

Taulukon vaihtoehtoinen osa (venäjä).

ASCII-kooditaulukon toisella puoliskolla, jota kutsutaan koodisivuksi (128 koodia alkaen 10000000 ja päättyen numeroon 11111111), voi olla erilaisia ​​vaihtoehtoja, jokaisella vaihtoehdolla on oma numeronsa.

Koodisivulla käytetään ensisijaisesti muita kansallisia aakkosia kuin latinaa. Venäjän kansallisissa koodauksissa venäläisten aakkosten merkit sijoitetaan tähän taulukon osaan.

ASCII-kooditaulukon ensimmäinen puolisko

Huomaa, että koodaustaulukossa kirjaimet (isot ja pienet) on järjestetty aakkosjärjestykseen ja numerot nousevaan järjestykseen. Tätä leksikografisen järjestyksen noudattamista symbolien järjestelyssä kutsutaan aakkosten peräkkäisen koodauksen periaatteeksi.

Venäjän aakkosten kirjaimissa noudatetaan myös peräkkäisen koodauksen periaatetta.

ASCII-kooditaulukon toinen puolisko

Valitettavasti tällä hetkellä on olemassa viisi erilaista kyrillistä koodausta (KOI8-R, Windows. MS-DOS, Macintosh ja ISO). Tästä johtuen venäläisen tekstin siirtämisessä tietokoneelta toiselle, ohjelmistojärjestelmästä toiseen syntyy usein ongelmia.

Kronologisesti yksi ensimmäisistä standardeista venäläisten kirjainten koodaukseen tietokoneissa oli KOI8 ("Information Exchange Code, 8-bit"). Tätä koodausta käytettiin jo 70-luvulla ES-tietokonesarjan tietokoneissa, ja 80-luvun puolivälistä lähtien sitä alettiin käyttää UNIX-käyttöjärjestelmän ensimmäisissä venäläistetyissä versioissa.

90-luvun alusta, MS DOS -käyttöjärjestelmän dominanssiajasta, CP866-koodaus säilyy ("CP" tarkoittaa "koodisivua", "koodisivua").

Apple-tietokoneet, joissa on Mac OS -käyttöjärjestelmä, käyttävät omaa Mac-koodausta.

Lisäksi International Standards Organization (ISO) on hyväksynyt toisen koodauksen nimeltä ISO 8859-5 venäjän kielen standardiksi.

Yleisin tällä hetkellä käytetty koodaus on Microsoft Windows, lyhenne CP1251. Esitteli Microsoft; Kun otetaan huomioon tämän yrityksen käyttöjärjestelmien (OS) ja muiden ohjelmistotuotteiden laaja jakelu Venäjän federaatiossa, se on löytänyt laajan jakelun.

90-luvun lopulta lähtien merkkikoodauksen standardointiongelma on ratkaistu ottamalla käyttöön uusi kansainvälinen standardi nimeltä Unicode.

Tämä on 16-bittinen koodaus, ts. se varaa 2 tavua muistia jokaiselle merkille. Tietenkin tämä lisää varatun muistin määrää 2 kertaa. Mutta tällainen kooditaulukko sallii jopa 65536 merkin sisällyttämisen. Unicode-standardin täydellinen spesifikaatio sisältää kaikki maailman olemassa olevat, sukupuuttoon kuolleet ja keinotekoisesti luodut aakkoset sekä monet matemaattiset, musiikilliset, kemialliset ja muut symbolit.

Sanojen sisäinen esitys tietokoneen muistissa

käyttämällä ASCII-taulukkoa

Joskus käy niin, että toisesta tietokoneesta saatua venäläisten aakkosten kirjaimista koostuvaa tekstiä ei voida lukea - näytön näytöllä näkyy jonkinlainen "abrakadabra". Tämä johtuu siitä, että tietokoneet käyttävät venäjän kielen eri merkkikoodeja.

Siten jokainen koodaus on määritelty omalla kooditaulukollaan. Kuten taulukosta voidaan nähdä, samalle binäärikoodille on määritetty eri merkkejä eri koodauksissa.

Esimerkiksi numerokoodien 221, 194, 204 sekvenssi CP1251-koodauksessa muodostaa sanan "tietokone", kun taas muissa koodauksissa se on merkityksetön merkkijoukko.

Onneksi käyttäjän ei useimmissa tapauksissa tarvitse huolehtia tekstidokumenttien transkoodaamisesta, koska se tehdään erityisillä sovelluksiin sisäänrakennetuilla muunnosohjelmilla.

V . Tekstitiedon määrän laskeminen

Tehtävä 1: Koodaa sana "Rooma" käyttämällä KOI8-R- ja CP1251-koodaustaulukoita.

Ratkaisu:

Tehtävä 2: Olettaen, että jokainen merkki on koodattu yhteen tavuun, arvioi seuraavan lauseen tietomäärä:

"Setälläni on rehellisimmät säännöt,

Kun sairastuin vakavasti,

Hän pakotti itsensä kunnioittamaan

Ja en voinut ajatella mitään parempaa."

Ratkaisu: Tässä lauseessa on 108 merkkiä, mukaan lukien välimerkit, lainausmerkit ja välilyönnit. Kerromme tämän luvun 8 bitillä. Saamme 108*8=864 bittiä.

Tehtävä 3: Molemmat tekstit sisältävät saman määrän merkkejä. Ensimmäinen teksti on kirjoitettu venäjäksi ja toinen Naguri-heimon kielellä, jonka aakkosissa on 16 merkkiä. Kenen teksti sisältää enemmän tietoa?

Ratkaisu:

1) I = K * a (tekstin tietomäärä on merkkien määrän ja yhden merkin tietopainon tulo).

2) Koska Molemmissa teksteissä on sama määrä merkkejä (K), jolloin ero riippuu aakkosten yhden merkin tietosisällöstä (a).

3) 2 a1 = 32, so. a 1 = 5 bittiä, 2 a2 = 16, so. ja 2 = 4 bittiä.

4) I 1 = K * 5 bittiä, I 2 = K * 4 bittiä.

5) Tämä tarkoittaa, että venäjäksi kirjoitettu teksti sisältää 5/4 kertaa enemmän tietoa.

Tehtävä 4: Viestin koko, joka sisältää 2048 merkkiä, oli 1/512 megatavua. Määritä aakkosten voima.

Ratkaisu:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bittiä - muunsi viestin tietomäärän biteiksi.

2) a = I / K = 16384 / 1024 = 16 bittiä - vastaa yhtä aakkosten merkkiä.

3) 2*16*2048 = 65536 merkkiä – käytetyn aakkoston teho.

Tehtävä 5: Canon LBP -lasertulostin tulostaa keskimäärin 6,3 Kbps:n nopeudella. Kuinka kauan kestää tulostaa 8-sivuinen asiakirja, jos tiedät, että yhdellä sivulla on keskimäärin 45 riviä ja 70 merkkiä rivillä (1 merkki - 1 tavu)?

Ratkaisu:

1) Selvitä 1 sivun sisältämän tiedon määrä: 45 * 70 * 8 bittiä = 25200 bittiä

2) Etsi tiedon määrä 8 sivulta: 25200 * 8 = 201600 bittiä

3) Pelkistetään yhteisiksi mittayksiköiksi. Tätä varten muunnamme Mbit:t biteiksi: 6,3*1024=6451,2 bittiä/sek.

4) Etsi tulostusaika: 201600: 6451,2 =31 sekuntia.

Bibliografia

1. Ageev V.M. Informaatio- ja koodausteoria: mittaustietojen näytteenotto ja koodaus. - M.: MAI, 1977.

2. Kuzmin I.V., Kedrus V.A. Tietoteorian ja koodauksen perusteet. - Kiova, Vishcha-koulu, 1986.

3. Yksinkertaisimmat tekstin salausmenetelmät / D.M. Zlatopolsky. – M.: Chistye Prudy, 2007 – 32 s.

4. Ugrinovich N.D. Tietojenkäsittelytiede ja tietotekniikka. Oppikirja luokille 10-11 / N.D. Ugrinovich. – M.: BINOM. Tiedon laboratorio, 2003. – 512 s.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

Materiaali itseopiskeluun luennon 2 aiheesta

Koodaus ASCII

ASCII-koodaustaulukko (ASCII - American Standard Code for Information Interchange - American Standard Code for Information Interchange).

Yhteensä 256 eri merkkiä voidaan koodata käyttämällä ASCII-koodaustaulukkoa (kuva 1). Tämä taulukko on jaettu kahteen osaan: pääosa (koodeilla OOh - 7Fh) ja lisäosa (80h - FFh, jossa kirjain h osoittaa, että koodi kuuluu heksadesimaalilukujärjestelmään).

Kuva 1

Yhden merkin koodaamiseksi taulukosta varataan 8 bittiä (1 tavu). Tekstitietoja käsiteltäessä yksi tavu voi sisältää tietyn merkin koodin - kirjaimen, numeron, välimerkin, toimintamerkin jne. Jokaisella merkillä on oma koodinsa kokonaisluvun muodossa. Tässä tapauksessa kaikki koodit kerätään erityisiin taulukoihin, joita kutsutaan koodaustaulukoiksi. Niiden avulla symbolikoodi muunnetaan sen näkyväksi esitykseksi monitorin näytöllä. Tämän seurauksena mikä tahansa tietokoneen muistissa oleva teksti esitetään tavujonona merkkikoodeilla.

Esimerkiksi sana hei! koodataan seuraavasti (taulukko 1).

pöytä 1

Binäärikoodi

Koodi desimaali

Kuvassa 1 on esitetty standardin (englanninkielinen) ja laajennetun (venäläisen) ASCII-koodauksen merkit.

ASCII-taulukon ensimmäinen puolisko on standardoitu. Se sisältää ohjauskoodit (00h - 20h ja 77h). Nämä koodit on poistettu taulukosta, koska ne eivät koske tekstielementtejä. Välimerkit ja matemaattiset symbolit sijoitetaan myös tähän: 2lh - !, 26h - &, 28h - (, 2Bh -+,..., suuret ja pienet latinalaiset kirjaimet: 41h - A, 61h - a.

Taulukon toinen puoli sisältää kansallisia kirjasimia, pseudografisia symboleja, joista taulukoita voidaan rakentaa, sekä erityisiä matemaattisia symboleja. Koodaustaulukon alaosa voidaan korvata sopivilla ohjaimilla - ohjausapuohjelmilla. Tämän tekniikan avulla voit käyttää useita fontteja ja niiden kirjasintyyppejä.

Jokaisen symbolikoodin näytön tulee näyttää symbolin kuva - ei vain digitaalinen koodi, vaan vastaava kuva, koska jokaisella symbolilla on oma muotonsa. Jokaisen merkin muodon kuvaus tallennetaan erityiseen näyttömuistiin - merkkigeneraattoriin. Merkin korostaminen esimerkiksi IBM PC -näytön näytöllä tapahtuu pisteillä, jotka muodostavat merkkimatriisin. Jokainen pikseli tällaisessa matriisissa on kuvaelementti ja voi olla kirkas tai tumma. Tumma piste on koodattu 0:lla, vaalea (kirkas) piste 1. Jos edustat merkin matriisikentässä olevat tummat pikselit pisteenä ja vaaleat pisteet tähdellä, voit kuvata symbolin muodon graafisesti.

Eri maiden ihmiset käyttävät symboleja kirjoittaakseen sanoja äidinkielellään. Nykyään useimmat sovellukset, mukaan lukien sähköpostijärjestelmät ja verkkoselaimet, ovat puhtaasti 8-bittisiä, mikä tarkoittaa, että ne voivat näyttää ja hyväksyä vain 8-bittisiä merkkejä ISO-8859-1-standardin mukaisesti.

Maailmassa on yli 256 merkkiä (jos huomioidaan kyrillinen, arabia, kiina, japani, korea ja thai), ja uusia merkkejä ilmaantuu yhä enemmän. Ja tämä luo seuraavat aukot monille käyttäjille:

Samassa asiakirjassa ei ole mahdollista käyttää eri koodaussarjoja olevia merkkejä. Koska jokainen tekstiasiakirja käyttää omaa koodaussarjaansa, automaattinen tekstintunnistus aiheuttaa suuria vaikeuksia.

Uusia symboleita ilmestyy (esim. Euro), minkä seurauksena ISO kehittää uutta standardia, ISO-8859-15, joka on hyvin samanlainen kuin ISO-8859-1 standardi. Erona on, että vanhasta ISO-8859-1-koodaustaulukosta on poistettu symbolit vanhoista valuutoista, jotka eivät ole tällä hetkellä käytössä, jotta uusille symboleille (kuten eurolle) olisi tilaa. Tämän seurauksena käyttäjillä voi olla samat asiakirjat levyillä, mutta eri koodauksissa. Ratkaisu näihin ongelmiin on ottamalla käyttöön yksi kansainvälinen koodaussarja, nimeltään Universal Coding tai Unicode.

Koodaus Unicode

Standardia ehdotti vuonna 1991 voittoa tavoittelematon organisaatio Unicode Consortium (Unicode Inc.). Tämän standardin avulla voit koodata erittäin suuren määrän merkkejä eri skripteistä: Unicode-asiakirjat voivat sisältää kiinalaisia ​​merkkejä, matemaattisia symboleja, kreikkalaisten aakkosten kirjaimia, latinalaisia ​​ja kyrillisiä aakkosia, ja koodisivujen vaihtaminen on tarpeetonta.

Standardi koostuu kahdesta pääosasta: yleisestä merkistöstä (UCS) ja koodausperheestä (UTF, Unicode-muunnosmuoto). Universaali merkistö määrittää yksi-yhteen vastaavuuden merkkien ja koodien välillä - kooditilan elementit, jotka edustavat ei-negatiivisia kokonaislukuja. Koodausperhe määrittelee UCS-koodisarjan koneesityksen.

Unicode-standardi kehitettiin luomaan yksi merkkikoodaus kaikille nykyaikaisille ja monille muinaisille kirjoitetuille kielille. Jokainen tämän standardin merkki on koodattu 16-bittisellä koodauksella, mikä mahdollistaa sen, että se kattaa verrattoman suuremman määrän merkkejä kuin aiemmin hyväksytyt 8-bittiset koodaukset. Toinen tärkeä ero Unicoden ja muiden koodausjärjestelmien välillä on, että se ei ainoastaan ​​anna yksilöllistä koodia jokaiselle merkille, vaan myös määrittää kyseisen merkin erilaisia ​​ominaisuuksia, esimerkiksi:

    merkkityyppi (iso kirjain, pieni kirjain, numero, välimerkki jne.);

    merkkiattribuutit (näyttö vasemmalta oikealle tai oikealta vasemmalle, välilyönti, rivinvaihto jne.);

    vastaava iso tai pieni kirjain (pienille ja isoille kirjaimille);

    vastaava numeerinen arvo (numeerisille merkeille).

Koko koodialue 0:sta FFFF:ään on jaettu useisiin vakioalaryhmiin, joista jokainen vastaa joko kielen aakkosia tai funktioltaan samankaltaisten erikoismerkkien ryhmää. Alla oleva kaavio sisältää yleisen luettelon Unicode 3.0 -alijoukoista (kuva 2).

Kuva 2

Unicode-standardi on perusta tekstin tallentamiselle monissa nykyaikaisissa tietokonejärjestelmissä. Se ei kuitenkaan ole yhteensopiva useimpien Internet-protokollien kanssa, koska sen koodit voivat sisältää mitä tahansa tavuarvoja, ja protokollat ​​käyttävät tyypillisesti tavuja 00 - 1F ja FE - FF palvelutavuina. Yhteensopivuuden saavuttamiseksi on kehitetty useita Unicode-muunnosmuotoja (UTF, Unicode Transformation Formats), joista UTF-8 on nykyään yleisin. Tämä muoto määrittelee seuraavat säännöt kunkin Unicode-koodin muuntamiseksi tavujoukoksi (yhdestä kolmeen), jotka sopivat siirrettäväksi Internet-protokollien avulla.

Tässä x,y,z tarkoittavat lähdekoodin bittejä, jotka tulee purkaa, alkaen vähiten merkitsevästä, ja syöttää tulostavuihin oikealta vasemmalle, kunnes kaikki määritetyt paikat on täytetty.

Unicode-standardin jatkokehitys liittyy uusien kielitasojen lisäämiseen, ts. merkit välillä 10000 - 1FFFF, 20000 - 2FFFF jne., joissa sen oletetaan sisältävän koodauksen kuolleiden kielten skripteille, jotka eivät sisälly yllä olevaan taulukkoon. Uusi muoto, UTF-16, kehitettiin koodaamaan nämä lisämerkit.

Unicode-tavujen koodaamiseen on siis neljä päätapaa:

UTF-8: 128 merkkiä koodattuina yhdelle tavulle (ASCII-muoto), 1920 merkkiä 2 tavulla koodattuina ((rooma, kreikka, kyrillinen, kopti, armenia, heprea, arabia), 63488 merkkiä koodattu 3 tavulla (kiina, japani jne.) .) Loput 2 147 418 112 merkkiä (ei vielä käytetty) voidaan koodata 4, 5 tai 6 tavulla.

UCS-2: Jokaista merkkiä edustaa 2 tavua. Tämä koodaus sisältää vain ensimmäiset 65 535 merkkiä Unicode-muodosta.

UTF-16: UCS-2:n laajennus, se sisältää 1 114 112 Unicode-muotoista merkkiä. Ensimmäiset 65 535 merkkiä edustavat 2 tavua, loput 4 tavua.

USC-4: Jokainen merkki on koodattu 4 tavulla.

Merkkipeitto

BS (askelpalautin) -merkin avulla tulostin voi tulostaa yhden merkin toisen päälle. ASCII mahdollistaa diakriittisten lisäysten kirjaimiin tällä tavalla, esimerkiksi:

  • a BS "→ á
  • a BS ` → à
  • a BS ^ → â
  • o BS / → ø
  • c BS , → ç
  • n BS ~ → с

Huomautus: vanhoissa kirjasimissa heittomerkki " piirrettiin vinosti vasemmalle ja tilde ~ siirrettiin ylöspäin, joten ne sopivat vain akuutin ja päälle aaltoviivan rooliin.

Jos sama merkki on merkin päällä, tuloksena on lihavoitu fonttitehoste, ja jos alleviivaus on merkin päällä, tuloksena on alleviivattu teksti.

  • a BS a → a
  • aBS_→ a

Huomautus: Tätä käytetään esimerkiksi miesapujärjestelmässä.

Kansalliset ASCII-versiot

ISO 646 (ECMA-6) -standardi mahdollistaa kansallisten symbolien sijoittamisen @ [ \ ] ^ ` { | } ~ . Tämän lisäksi paikan päällä # voidaan postittaa £ , ja paikallaan $ - ¤ . Tämä järjestelmä sopii hyvin eurooppalaisille kielille, joissa tarvitaan vain muutama lisämerkki. ASCII-versiota ilman kansallisia merkkejä kutsutaan US-ASCII:ksi tai "kansainväliseksi viiteversioksi".

Myöhemmin osoittautui kätevämmäksi käyttää 8-bittisiä koodauksia (koodisivuja), joissa kooditaulukon alapuoli (0-127) on US-ASCII-merkkien ja ylempi puolisko (128-255) käytössä. lisämerkeillä, mukaan lukien joukko kansallisia merkkejä. Siten ASCII-taulukon yläosaa käytettiin ennen Unicoden laajaa käyttöönottoa aktiivisesti edustamaan paikallisia merkkejä, paikallisen kielen kirjaimia. Yhtenäisen standardin puute kyrillisten merkkien sijoittamiselle ASCII-taulukkoon aiheutti monia ongelmia koodauksissa (KOI-8, Windows-1251 ja muut). Myös muut kielet, joilla on ei-latinalaisia ​​kirjoituksia, kärsivät useista erilaisista koodauksista.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F
0. NUL SOM EOA EOM EQT W.R.U. RU BELL BKSP HT LF VT FF CR NIIN SI.
1. DC 0 DC 1 DC 2 DC 3 DC 4 ERR SYNC L.E.M. S 0 S 1 S 2 S 3 S 4 S 5 S 6 S 7
2.
3.
4. TYHJÄ ! " # $ % & " ( ) * + , - . /
5. 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
6.
7.
8.
9.
A. @ A B C D E F G H minä J K L M N O
B. P K R S T U V W X Y Z [ \ ]
C.
D.
E. a b c d e f g h i j k l m n o
F. s q r s t u v w x y z POISTU DEL

Niissä tietokoneissa, joissa pienin osoitettava muistiyksikkö oli 36-bittinen sana, käytettiin aluksi 6-bittisiä merkkejä (1 sana = 6 merkkiä). ASCII:een siirtymisen jälkeen tällaiset tietokoneet alkoivat sisältää joko 5 seitsemänbittistä merkkiä (1 bitti jäi ylimääräiseksi) tai 4 yhdeksänbittistä merkkiä yhdessä sanassa.

ASCII-koodeja käytetään myös määrittämään, mitä näppäintä painetaan ohjelmoinnin aikana. Tavallisen QWERTY-näppäimistön kooditaulukko näyttää tältä:

Unicode (englanniksi Unicode) on merkkien koodausstandardi. Yksinkertaisesti sanottuna tämä on vastaavuustaulukko tekstin merkkien välillä ( , kirjaimet, välimerkkejä) binäärikoodeja. Tietokone ymmärtää vain nollien ja ykkösten sarjan. Jotta se tietää, mitä sen pitäisi tarkalleen näyttää näytöllä, on tarpeen määrittää jokaiselle symbolille oma yksilöllinen numeronsa. 80-luvulla merkit koodattiin yhteen tavuun eli kahdeksaan bittiin (jokainen bitti on 0 tai 1). Siten kävi ilmi, että yhteen taulukkoon (alias koodaus tai joukko) mahtuu vain 256 merkkiä. Tämä ei välttämättä riitä edes yhdelle kielelle. Siksi ilmestyi monia erilaisia ​​koodauksia, joiden sekaannus johti usein siihen, että ruudulle ilmestyi luettavan tekstin sijasta outoa hölynpölyä. Tarvittiin yksi standardi, josta tuli Unicode. Eniten käytetty koodaus on UTF-8 (Unicode Transformation Format), joka käyttää 1-4 tavua edustamaan merkkiä.

Symbolit

Unicode-taulukoiden merkit on numeroitu heksadesimaaliluvuilla. Esimerkiksi kyrillinen iso kirjain M on merkitty U+041C. Tämä tarkoittaa, että se on rivin 041 ja sarakkeen C leikkauskohdassa. Voit yksinkertaisesti kopioida sen ja liittää sen jonnekin. Jotta et turhaisi usean kilometrin luettelossa, sinun tulee käyttää hakua. Kun siirryt symbolisivulle, näet sen Unicode-numeron ja kuinka se on kirjoitettu eri fonteilla. Voit kirjoittaa itse merkin hakupalkkiin, vaikka sen sijaan piirrettäisiin neliö, ainakin selvittääksesi, mikä se oli. Lisäksi tällä sivustolla on erityisiä (ja satunnaisia) samankaltaisia ​​kuvakkeita, jotka on kerätty eri osioista käytön helpottamiseksi.

Unicode-standardi on kansainvälinen. Se sisältää hahmoja melkein kaikista maailman käsikirjoituksista. Mukaan lukien ne, joita ei enää käytetä. Egyptiläiset hieroglyfit, germaaniset riimut, mayojen kirjoitus, nuolenpääkirja ja muinaisten valtioiden aakkoset. Esitellään myös painojen ja mittojen nimitykset, nuotit ja matemaattiset käsitteet.

Unicode Consortium ei itse keksi uusia merkkejä. Taulukoihin on lisätty ne kuvakkeet, jotka löytävät yhteiskunnassa käyttöä. Esimerkiksi ruplamerkkiä käytettiin aktiivisesti kuusi vuotta ennen kuin se lisättiin Unicodeen. Emoji-piktogrammeja (hymiöitä) käytettiin myös ensimmäisen kerran laajalti Japanissa ennen kuin ne sisällytettiin koodaukseen. Mutta tavaramerkkejä ja yritysten logoja ei periaatteessa lisätä. Jopa sellaiset yleiset kuin Apple-omena tai Windows-lippu. Tähän mennessä versiossa 8.0 on koodattu noin 120 tuhatta merkkiä.

[8-bittiset koodaukset: ASCII, KOI-8R ja CP1251] Ensimmäiset Yhdysvalloissa luodut koodaustaulukot eivät käyttäneet tavun kahdeksatta bittiä. Teksti esitettiin tavujonona, mutta kahdeksatta bittiä ei otettu huomioon (se käytettiin virallisiin tarkoituksiin).

Taulukosta on tullut yleisesti hyväksytty standardi ASCII(American Standard Code for Information Interchange). ASCII-taulukon 32 ensimmäistä merkkiä (00 - 1F) käytettiin ei-tulostuville merkeille. Ne on suunniteltu ohjaamaan tulostuslaitetta jne. Loput - 20 - 7F - ovat tavallisia (tulostettavia) merkkejä.

Taulukko 1 - ASCII-koodaus

joulukuutaHexlokakuuHiiltyäKuvaus
0 0 000 tyhjä
1 1 001 suunnan alku
2 2 002 tekstin alku
3 3 003 tekstin loppu
4 4 004 lähetyksen loppu
5 5 005 tiedustelu
6 6 006 tunnustaa
7 7 007 kello
8 8 010 askelpalautin
9 9 011 vaakasuora välilehti
10 A 012 uusi rivi
11 B 013 pystysuora välilehti
12 C 014 uusi sivu
13 D 015 vaunun paluu
14 E 016 vaihtaa pois
15 F 017 siirtyä sisään
16 10 020 datalinkin pakoon
17 11 021 laitteen ohjaus 1
18 12 022 laitteen ohjaus 2
19 13 023 laitteen ohjaus 3
20 14 024 laitteen ohjaus 4
21 15 025 negatiivinen tunnustus
22 16 026 synkroninen tyhjäkäynti
23 17 027 transin loppu. lohko
24 18 030 peruuttaa
25 19 031 mediumin loppu
26 1A 032 korvike
27 1B 033 paeta
28 1C 034 tiedostojen erotin
29 1D 035 ryhmän erotin
30 1E 036 tietueen erotin
31 1F 037 yksikön erotin
32 20 040 tilaa
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2A 052 *
43 2B 053 +
44 2C 054 ,
45 2D 055 -
46 2E 056 .
47 2F 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3A 072 :
59 3B 073 ;
60 3C 074 <
61 3D 075 =
62 3E 076 >
63 3F 077 ?
joulukuutaHexlokakuuHiiltyä
64 40 100 @
65 41 101 A
66 42 102 B
67 43 103 C
68 44 104 D
69 45 105 E
70 46 106 F
71 47 107 G
72 48 110 H
73 49 111 minä
74 4A 112 J
75 4B 113 K
76 4C 114 L
77 4D 115 M
78 4E 116 N
79 4F 117 O
80 50 120 P
81 51 121 K
82 52 122 R
83 53 123 S
84 54 124 T
85 55 125 U
86 56 126 V
87 57 127 W
88 58 130 X
89 59 131 Y
90 5A 132 Z
91 5B 133 [
92 5C 134 \
93 5D 135 ]
94 5E 136 ^
95 5F 137 _
96 60 140 `
97 61 141 a
98 62 142 b
99 63 143 c
100 64 144 d
101 65 145 e
102 66 146 f
103 67 147 g
104 68 150 h
105 69 151 i
106 6A 152 j
107 6B 153 k
108 6C 154 l
109 6D 155 m
110 6E 156 n
111 6F 157 o
112 70 160 s
113 71 161 q
114 72 162 r
115 73 163 s
116 74 164 t
117 75 165 u
118 76 166 v
119 77 167 w
120 78 170 x
121 79 171 y
122 7A 172 z
123 7B 173 {
124 7C 174 |
125 7D 175 }
126 7E 176 ~
127 7F 177 DEL

Kuten on helppo nähdä, tämä koodaus sisältää vain latinalaisia ​​kirjaimia ja niitä, joita käytetään englannin kielessä. Siellä on myös aritmeettisia ja muita palvelusymboleja. Mutta ei ole venäjän kirjaimia eikä edes erityisiä latinalaisia ​​kirjaimia saksalle tai ranskalle. Tämä on helppo selittää - koodaus on kehitetty nimenomaan amerikkalaiseksi standardiksi. Kun tietokoneita alettiin käyttää kaikkialla maailmassa, muut merkit piti koodata.

Tätä varten päätettiin käyttää kahdeksatta bittiä jokaisessa tavussa. Tämä teki 128 lisäarvoa saataville (80:stä FF:iin), joita voitiin käyttää merkkien koodaamiseen. Ensimmäinen kahdeksanbittisistä taulukoista on "laajennettu ASCII" ( Laajennettu ASCII) - sisälsi useita muunnelmia latinalaisista kirjaimista, joita käytetään joissakin Länsi-Euroopan kielissä. Se sisälsi myös muita lisäsymboleja, mukaan lukien pseudografia.

Pseudografisten merkkien avulla voit luoda jonkin verran grafiikkaa näyttämällä vain tekstimerkkejä näytöllä. Esimerkiksi tiedostonhallintaohjelma FAR Manager toimii pseudografian avulla.

Laajennetussa ASCII-taulukossa ei ollut venäläisiä kirjaimia. Venäjä (entinen Neuvostoliitto) ja muut maat loivat omat koodauksensa, jotka mahdollistivat tiettyjen "kansallisten" merkkien esittämisen 8-bittisissä tekstitiedostoissa - Puolan ja Tšekin kielten latinalaiset kirjaimet, kyrilliset (mukaan lukien venäläiset kirjaimet) ja muut aakkoset.

Kaikissa laajalle levinneissä koodauksissa ensimmäiset 127 merkkiä (eli tavun arvo, jonka kahdeksas bitti on yhtä suuri kuin 0) ovat samat kuin ASCII. Joten ASCII-tiedosto toimii jommassakummassa näistä koodauksista; Englannin kielen kirjaimet esitetään samalla tavalla.

Organisaatio ISO(International Standardization Organisation) hyväksyi ryhmän standardeja ISO 8859. Se määrittelee 8-bittiset koodaukset eri kieliryhmille. Joten ISO 8859-1 on laajennettu ASCII-taulukko Yhdysvaltoihin ja Länsi-Eurooppaan. Ja ISO 8859-5 on taulukko kyrillisille aakkosille (mukaan lukien venäjä).

Historiallisista syistä ISO 8859-5 -koodaus ei kuitenkaan juurtunut. Todellisuudessa venäjän kielelle käytetään seuraavia koodauksia:

Koodisivu 866 ( CP866), eli "DOS", eli "vaihtoehtoinen GOST-koodaus". Käytettiin laajasti 90-luvun puoliväliin asti; nyt käytössä rajoitetusti. Käytännössä ei käytetä tekstien jakamiseen Internetissä.
- KOI-8. Kehitetty 70-80-luvulla. Se on yleisesti hyväksytty standardi sähköpostiviestien lähettämiseen Venäjän Internetissä. Sitä käytetään myös laajasti Unix-perheen käyttöjärjestelmissä, mukaan lukien Linux. Venäjälle suunniteltu KOI-8-versio on ns KOI-8R; Muille kyrillisille kielille on versioita (esimerkiksi KOI8-U on ukrainan kielen versio).
- Koodisivu 1251, CP1251,Windows-1251. Microsoftin kehittämä tukemaan venäjän kieltä Windowsissa.

CP866:n tärkein etu oli pseudografisten merkkien säilyminen samoissa paikoissa kuin Extended ASCII:ssa; siksi ulkomaiset tekstiohjelmat, esimerkiksi kuuluisa Norton Commander, voisivat toimia ilman muutoksia. CP866:ta käytetään nyt Windows-ohjelmissa, jotka toimivat tekstiikkunoissa tai koko näytön tekstitilassa, mukaan lukien FAR Manager.

CP866:n tekstit ovat olleet melko harvinaisia ​​viime vuosina (mutta sitä käytetään koodaamaan venäläisiä tiedostonimiä Windowsissa). Siksi viivyttelemme tarkemmin kahdessa muussa koodauksessa - KOI-8R ja CP1251.



Kuten näette, CP1251-koodaustaulukossa venäläiset kirjaimet on järjestetty aakkosjärjestykseen (poikkeuksena kuitenkin E-kirjain). Tämän järjestelyn ansiosta tietokoneohjelmien on erittäin helppo lajitella aakkosjärjestykseen.

Mutta KOI-8R:ssä venäläisten kirjainten järjestys näyttää sattumanvaraiselta. Mutta itse asiassa se ei ole.

Monissa vanhemmissa ohjelmissa 8. bitti katosi tekstiä käsiteltäessä tai lähetettäessä. (Nyt tällaiset ohjelmat ovat käytännössä "kuonneet sukupuuttoon", mutta 80-luvun lopulla - 90-luvun alussa ne olivat yleisiä). Jos haluat saada 7-bittisen arvon 8-bittisestä arvosta, vähennä vain 8 merkittävimmästä numerosta. esimerkiksi E1:stä tulee 61.

Vertaa nyt KOI-8R:ää ASCII-taulukkoon (taulukko 1). Tulet huomaamaan, että venäläiset kirjaimet on sijoitettu selkeään vastaavuuteen latinalaisten kanssa. Jos kahdeksas bitti katoaa, pienet venäläiset kirjaimet muuttuvat isoiksi latinalaisiksi kirjaimille ja isot venäläiset kirjaimet pieniksi latinalaisiksi. Joten KOI-8:ssa E1 on venäläinen "A", kun taas 61 ASCII:ssa on latinalainen "a".

Joten KOI-8 antaa sinun säilyttää venäläisen tekstin luettavuuden, kun 8. bitti katoaa. "Hei kaikille" muuttuu "pRIWET WSEM".

Viime aikoina sekä koodaustaulukon merkkien aakkosjärjestys että luettavuus 8. bitin häviämisen myötä ovat menettäneet ratkaisevan merkityksensä. Nykyaikaisten tietokoneiden kahdeksas bitti ei häviä lähetyksen tai käsittelyn aikana. Ja aakkosellinen lajittelu tehdään koodaus huomioon ottaen, ei pelkästään koodeja vertaamalla. (Muuten, CP1251-koodit eivät ole täysin aakkosjärjestyksessä - E-kirjain ei ole paikallaan).

Koska on olemassa kaksi yleistä koodausta, Internetin kanssa työskennellessäsi (posti, Web-sivustoja selatessasi) voit joskus nähdä merkityksettömän joukon kirjaimia venäjän tekstin sijaan. Esimerkiksi "MINÄ OLEN SBYUFEMHEL." Nämä ovat vain sanoja "kunnioituksella"; mutta ne koodattiin CP1251-koodauksella, ja tietokone pursi tekstin KOI-8-taulukon avulla. Jos samat sanat päinvastoin koodattaisiin KOI-8:aan ja tietokone dekoodaisi tekstin CP1251-taulukon mukaisesti, tulos olisi "U HCHBTSEOYEN".

Joskus käy niin, että tietokone purkaa venäjänkieliset kirjaimet taulukolla, jota ei ole tarkoitettu venäjän kielelle. Sitten venäläisten kirjainten sijasta ilmestyy merkityksetön symbolijoukko (esimerkiksi Itä-Euroopan kielten latinalaiset kirjaimet); niitä kutsutaan usein "crocozybriksi".

Useimmissa tapauksissa nykyaikaiset ohjelmat selviävät Internet-asiakirjojen (sähköpostien ja Web-sivujen) koodausten määrittämisestä itsenäisesti. Mutta joskus ne "sytytyshäiriö", ja sitten voit nähdä outoja venäläisiä kirjaimia tai "krokozyabry". Yleensä tällaisessa tilanteessa oikean tekstin näyttämiseksi näytöllä riittää, että valitset koodauksen manuaalisesti ohjelmavalikosta.

Tässä artikkelissa käytettiin tietoja sivulta http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Sivustolta otettu materiaali:

Sivustolle lähetetty materiaali saattaa sisältää tietoja yli 18-vuotiaille käyttäjille.
2012-2018