Ascii täydellinen merkkitaulukko. Tekstitietojen koodaus

Jokaisella tietokoneella on omat merkit, jotka se toteuttaa. Tämä sarja sisältää 26 isoa ja pientä kirjainta, numeroa ja erikoismerkkejä (piste, välilyönti jne.). Kun symboleja muunnetaan kokonaisluvuiksi, niitä kutsutaan koodeiksi. Standardit kehitettiin niin, että tietokoneilla olisi samat koodisarjat.

ASCII-standardi

ASCII (American Standard Code for Information Interchange) on amerikkalainen standardikoodi tiedonvaihtoon. Jokaisessa ASCII-merkissä on 7 bittiä, joten merkkien enimmäismäärä on 128 (taulukko 1). Koodit 0–1F ovat ohjausmerkkejä, joita ei tulosteta. Tiedon siirtämiseen tarvitaan monia ei-tulostettavia ASCII-merkkejä. Viesti voi koostua esimerkiksi otsikon alkumerkistä SOH, itse otsikosta ja tekstin alun merkistä STX, itse tekstistä ja tekstin lopun merkistä ETX sekä lähetyksen lopusta. hahmo EOT. Tieto verkon yli kuitenkin välitetään paketteina, jotka itse vastaavat lähetyksen alkamisesta ja lopusta. Joten ei-tulostettavia merkkejä ei käytetä melkein koskaan.

Taulukko 1 - ASCII-kooditaulukko

Määrä	Tiimi	Merkitys	Määrä	Tiimi	Merkitys
0	NUL	Nolla-osoitin	10	DLE	Poistu siirtojärjestelmästä
1	SOH	otsikon alku	11	DC1	Laitehallinta
2	STX	Tekstin alku	12	DC2	Laitehallinta
3	ETX	Tekstin loppu	13	DC3	Laitehallinta
4	EOT	Lähetyksen loppu	14	DC4	Laitehallinta
5	ACK	Pyyntö	15	N.A.K.	Vastaanoton vahvistamatta jättäminen
6	BEL	Hyväksymisen vahvistus	16	SYN	Yksinkertainen
7	B.S.	Kellon symboli	17	ETB	Lähetyslohkon loppu
8	HT	Astu taaksepäin	18	VOI	Mark
9	LF	Vaakataulukko	19	E.M.	Median loppu
A	VT	Rivikäännös	1A	SUB	Alaindeksi
B	FF	Pysty välilehti	1B	POISTU	Poistu
C	CR	Sivun käännös	1C	FS	Tiedoston erotin
D	NIIN	Vaunun palautus	1D	G.S.	Ryhmäerotin
E	SI.	Vaihda lisärekisteriin	1E	R.S.	Tietueen erotin
	SI.	Vaihda vakiokoteloon	1F	MEILLE	Moduulien erotin

Määrä	Symboli	Määrä	Symboli	Määrä	Symboli	Määrä	Symboli	Määrä	Symboli	Määrä	Symboli
20	tilaa	30	0	40	@	50	P	60	.	70	s
21	!	31	1	41	A	51	K	61	a	71	q
22	‘	32	2	42	B	52	R	62	b	72	r
23	#	33	3	43	C	53	S	63	c	73	s
24	φ	34	4	44	D	54	T	64	d	74	t
25	%	35	5	45	E	55	JA	65	e	75	Ja
26	&	36	6	46	F	56	V	66	f	76	v
27	‘	37	7	47	G	57	W	67	g	77	w
28	(	38	8	48	H	58	X	68	h	78	x
29	)	39	9	49	minä	59	Y	69	i	70	y
2A	‘	3A	;	4A	J	5A	Z	6A	j	7A	z
2B	+	3B	;	4B	K	5B	[	6B	k	7B	{
2C	‘	3C	<	4C	L	5C	\	6C	l	7C	\|
2D	—	3D	=	4D	M	5D	]	6D	m	7D	}
2E		3E	>	4E	N	5E	—	6E	n	7E	~
2F	/	3F	g	4F	O	5F	_	6F	o	7F	DEL

Unicode standardi

Edellinen koodaus on hyvä englannin kielelle, mutta se ei ole kätevä muille kielille. Esimerkiksi saksassa on umlautit ja ranskassa yläindeksit. Joillakin kielillä on täysin erilaiset aakkoset. Ensimmäinen yritys laajentaa ASCII:ta oli IS646, joka laajensi aiempaa koodausta 128 lisämerkillä. Lisättiin latinalaisia kirjaimia viivoineen ja diakriittisinä ja sai nimen - Latin 1. Seuraava yritys oli IS 8859 - joka sisälsi koodisivun. Myös pidennysyrityksiä yritettiin, mutta tämä ei ollut yleistä. UNICODE-koodaus luotiin (on 10646). Koodauksen ideana on antaa jokaiselle merkille yksi vakio 16-bittinen arvo, jota kutsutaan - koodi osoitin. Kaikkiaan osoittimia on 65536. Tilan säästämiseksi käytimme Latin-1-koodeja 0 -255, jolloin ASII vaihdettiin helposti UNICODE:ksi. Tämä standardi ratkaisi monia ongelmia, mutta ei kaikkia. Uusien sanojen saapumisen vuoksi esimerkiksi japanin kielelle on tarpeen lisätä termien määrää noin 20 tuhannella. Myös pistekirjoitus on tarpeen.

Muistakaamme joitain faktoja, jotka tiedämme:

Symbolijoukkoa, jolla tekstiä kirjoitetaan, kutsutaan aakkosiksi.

Aakkosten merkkien määrä on sen kardinaliteetti.

Kaava tiedon määrän määrittämiseksi: N = 2 b,

missä N on aakkosten teho (merkkien määrä),

b - bittien lukumäärä (symbolin tiedon paino).

Aakkoset, joiden kapasiteetti on 256 merkkiä, voivat sisältää melkein kaikki tarvittavat merkit. Tällaista aakkostoa kutsutaan riittäväksi.

Koska 256 = 28 , silloin 1 merkin paino on 8 bittiä.

Mittayksikölle 8 bittiä annettiin nimi 1 tavu:

1 tavu = 8 bittiä.

Tietokonetekstin jokaisen merkin binäärikoodi vie 1 tavun muistia.

Miten tekstitieto esitetään tietokoneen muistissa?

Koodaus koostuu siitä, että kullekin merkille annetaan yksilöllinen desimaalikoodi 0-255 tai vastaava binäärikoodi 00000000-11111111. Näin ollen henkilö erottaa merkit niiden ääriviivan perusteella ja tietokone koodin perusteella.

Tavu-tavuisen merkkikoodauksen mukavuus on ilmeinen, koska tavu on muistin pienin osoitettavissa oleva osa ja siksi prosessori voi käyttää jokaista merkkiä erikseen käsitellessään tekstiä. Toisaalta 256 merkkiä on varsin riittävä määrä edustamaan monenlaista symbolista tietoa.

Nyt herää kysymys, mikä kahdeksanbittinen binaarikoodi kullekin merkille määritetään.

On selvää, että tämä on ehdollinen asia, voit keksiä monia koodausmenetelmiä.

ASCII-taulukosta on tullut PC-tietokoneiden kansainvälinen standardi (lue aski) (American Standard Code for Information Interchange).

Vain taulukon ensimmäinen puolisko on kansainvälinen standardi, ts. merkkejä numeroilla 0 (00000000) - 127 (01111111).

Sarjanumero		Symboli
	00000000 - 00011111	Niiden tehtävänä on ohjata tekstin näyttämistä näytöllä tai tulostamista, äänimerkin antamista, tekstin merkitsemistä jne.
32 - 127	00100000 - 01111111
128 - 255	10000000 - 11111111	ASCII-kooditaulukon toisella puoliskolla, jota kutsutaan koodisivuksi (128 koodia alkaen 10000000 ja päättyen numeroon 11111111), voi olla erilaisia muunnelmia, joista jokaisella on oma numeronsa.

Huomaa, että koodaustaulukossa kirjaimet (isot ja pienet) on järjestetty aakkosjärjestykseen ja numerot nousevaan järjestykseen. Tätä leksikografisen järjestyksen noudattamista symbolien järjestelyssä kutsutaan aakkosten peräkkäisen koodauksen periaatteeksi.

Yleisin tällä hetkellä käytetty koodaus on Microsoft Windows, lyhenne CP1251.

90-luvun lopulta lähtien merkkikoodauksen standardointiongelma on ratkaistu ottamalla käyttöön uusi kansainvälinen standardi nimeltä Unicode. . Tämä on 16-bittinen koodaus, ts. se varaa 2 tavua muistia jokaiselle merkille. Tietenkin tämä lisää varatun muistin määrää 2 kertaa. Mutta tällainen kooditaulukko sallii jopa 65536 merkin sisällyttämisen. Unicode-standardin täydellinen spesifikaatio sisältää kaikki maailman olemassa olevat, sukupuuttoon kuolleet ja keinotekoisesti luodut aakkoset sekä monet matemaattiset, musiikilliset, kemialliset ja muut symbolit.

Yritetään käyttää ASCII-taulukkoa kuvitellaksesi, miltä sanat näyttävät tietokoneen muistissa.

Sanat

Muisti

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Kun tekstitietoa syötetään tietokoneeseen, merkit (kirjaimet, numerot, merkit) koodataan erilaisilla koodijärjestelmillä, jotka koostuvat joukosta kooditaulukoita, jotka sijaitsevat tekstitietojen koodausstandardien vastaavilla sivuilla. Tällaisissa taulukoissa kullekin merkille on määritetty erityinen numeerinen koodi heksadesimaali- tai desimaalilukujärjestelmässä, eli kooditaulukot heijastavat symbolikuvien ja numerokoodien välistä vastaavuutta ja on tarkoitettu tekstiinformaation koodaamiseen ja dekoodaamiseen. Kun tekstiä syötetään tietokoneen näppäimistöllä, jokainen syötetty merkki koodataan, ts. muunnetaan numerokoodiksi, kun tekstitiedot tulostetaan tietokoneen tulostuslaitteeseen (näyttöön, tulostimeen tai plotteriin), sen kuva muodostetaan käyttämällä numerokoodia; hahmo. Tietyn numerokoodin osoittaminen symbolille on tulosta eri maiden asiaankuuluvien organisaatioiden välisestä sopimuksesta. Tällä hetkellä ei ole olemassa yhtä yleistä kooditaulukkoa, joka vastaa eri maiden kansallisten aakkosten kirjaimia.

Nykyaikaiset kooditaulukot sisältävät kansainvälisiä ja kansallisia osia, eli ne sisältävät latinalaisten ja kansallisten aakkosten kirjaimia, numeroita, aritmeettisia operaatioita ja välimerkkejä, matemaattisia ja ohjausmerkkejä sekä pseudografisia symboleja. Kooditaulukon kansainvälinen osa standardin perusteella ASCII (American Standard Code for Information Interchange), koodaa kooditaulukon merkkien ensimmäisen puoliskon numerokoodeilla 0-7 F 16, tai desimaalilukujärjestelmässä 0 - 127. Tässä tapauksessa henkilökohtaisen tietokoneen näppäimistön toimintonäppäimille (F1, F2, F3 jne.) annetaan koodit 0 - 20 16 (0 ? 32 10). Kuvassa 3.1 näyttää standardiin perustuvien kooditaulukoiden kansainvälisen osan ASCII Taulukon solut numeroidaan desimaali- ja heksadesimaalilukujärjestelmissä, vastaavasti.

Kuva 3.1. Kooditaulukon kansainvälinen osa (vakio ASCII) solujen numerot esitetään desimaali- (a) ja heksadesimaalilukujärjestelmissä (b).

Kooditaulukoiden kansallinen osa sisältää kansallisten aakkosten koodit, jota kutsutaan myös merkistötaulukoksi (merkkisarja).

Tällä hetkellä venäläisten aakkosten (kyrilliset) kirjainten tukemiseksi on olemassa useita kooditaulukoita (koodauksia), joita useat käyttöjärjestelmät käyttävät, mikä on merkittävä haittapuoli ja johtaa joissakin tapauksissa ongelmiin, jotka liittyvät numeeristen merkkiarvojen dekoodaustoimintoihin. Taulukossa 3.1 näyttää niiden koodisivujen (standardien) nimet, joilla kyrilliset kooditaulukot (koodaukset) sijaitsevat.

Taulukko 3.1

Yksi ensimmäisistä standardeista kyrillisten aakkosten koodaamiseksi tietokoneissa oli KOI8-R-standardi. Tämän standardin kooditaulukon kansallinen osa on esitetty kuvassa. 3.2.

Riisi. 3.2. KOI8-R-standardin kooditaulukon kansallinen osa

Tällä hetkellä käytössä on myös käyttöjärjestelmässä käytettävän tekstitietojen koodausstandardin sivulla CP866 oleva kooditaulukko. MS DOS tai istunto MS DOS kyrillisten aakkosten koodaamiseen (kuva 3.3, A).

Riisi. 3.3. Kooditaulukon kansallinen osa, joka sijaitsee tekstitietojen koodausstandardin sivulla CP866 (a) ja sivulla CP1251 (b)

Tällä hetkellä eniten käytetty kooditaulukko kyrillisten aakkosten koodaamiseen löytyy vastaavan standardin sivulla CP1251, jota käytetään perheen käyttöjärjestelmissä. Windows yritykset Microsoft(Kuva 3.2, b). Kaikissa esitetyissä kooditaulukoissa, paitsi vakiotaulukossa Unicode Yhden merkin koodaamiseksi varataan 8 binaarinumeroa (8 bittiä).

Viime vuosisadan lopulla ilmestyi uusi kansainvälinen standardi Unicode jossa yksi merkki esitetään kaksitavuisena binaarikoodina. Tämän standardin soveltaminen on jatkoa yleismaailmallisen kansainvälisen standardin kehittämiselle kansallisten merkkikoodausten yhteensopivuusongelman ratkaisemiseksi. Tätä standardia käyttämällä 2 16 = 65536 eri merkkiä voidaan koodata. Kuvassa 3.4 näyttää standardin kooditaulukon 0400 (venäläiset aakkoset). Unicode.

Riisi. 3.4. Unicode-kooditaulukko 0400

Selvitetään esimerkin avulla, mitä on sanottu tekstitiedon koodauksesta.

Esimerkki 3.1

Koodaa sana "Computer" desimaali- ja heksadesimaalilukujen sekvenssinä käyttämällä CP1251-koodausta. Mitä merkkejä näytetään CP866- ja KOI8-R-kooditaulukoissa, kun vastaanotettua koodia käytetään.

Sanan “Computer” heksadesimaali- ja binäärikoodin sekvenssit CP1251-koodaustaulukon perusteella (katso kuva 3.3, b) näyttää tältä:

Tämä koodisekvenssi SR866- ja KOI8-R-koodauksissa johtaa seuraavien merkkien näyttöön:

Venäjänkielisten tekstiasiakirjojen muuttamiseksi yhdestä tekstitietojen koodausstandardista toiseen käytetään erityisiä ohjelmia - muuntimia. Muuntimet on yleensä rakennettu muihin ohjelmiin. Esimerkki olisi selainohjelma - Internet Explorer (IE), jossa on sisäänrakennettu muuntaja. Selainohjelma on erityinen ohjelma sisällön katseluun. verkkosivut maailmanlaajuisessa tietokoneverkossa Internetissä. Varmistetaan tällä ohjelmalla esimerkissä 3.1 saatu symbolikartoitustulos. Tätä varten suoritamme seuraavat vaiheet.

1. Käynnistä Notepad-ohjelma (Muistilehtiö). Muistio-ohjelma käyttöjärjestelmässä Windows XP käynnistetään komennolla: [Button alkaa– Ohjelmat – Vakio – Muistio]. Kirjoita avautuvaan Notepad-ohjelman ikkunaan sana "tietokone" käyttämällä hypertekstiasiakirjan merkintäkielen syntaksia - HTML (Hyper Text Markup Language). Tätä kieltä käytetään asiakirjojen luomiseen Internetissä. Tekstin pitäisi näyttää tältä:

Tietokonevesi

, Missä

Ja

kielen tunnisteet (erikoisrakenteet). HTML otsikon merkintää varten. Kuvassa Kuva 3.5 näyttää näiden toimien tulokset.

Riisi. 3.5. Tekstin näyttäminen Muistio-ikkunassa

Tallennetaan tämä teksti suorittamalla komento: [Tiedosto - Tallenna nimellä...] tietokoneen sopivaan kansioon, tekstiä tallennettaessa annamme tiedostolle nimen - Huom, tiedostopäätteellä. html.

2. Käynnistä ohjelma Internet Explorer, suorittamalla komennon: [Button alkaa- Ohjelmat - Internet Explorer]. Kun käynnistät ohjelman, kuvassa oleva ikkuna avautuu. 3.6

Riisi. 3.6. Offline-käyttöikkuna

Valitse ja aktivoi painike Offline-tilassa Tässä tapauksessa tietokone ei muodosta yhteyttä maailmanlaajuiseen Internetiin. Ohjelman pääikkuna tulee näkyviin Microsoft Internet Explorer, esitetty kuvassa. 3.7.

Riisi. 3.7. Microsoft Internet Explorerin pääikkuna

Suoritetaan seuraava komento: [File – Open], näkyviin tulee ikkuna (kuva 3.8), jossa sinun on määritettävä tiedoston nimi ja klikattava painiketta OK tai paina painiketta Arvostelu… ja etsi tiedosto Note.html.

Riisi. 3.8. Avoin ikkuna

Internet Explorer -ohjelman pääikkuna on kuvan 2 mukaisessa muodossa. 3.9. Sana "Tietokone" tulee näkyviin ikkunaan. Seuraavaksi käytä ohjelman ylävalikkoa Internet Explorer, suorita seuraava komento: [View – Encoding – Cyrillic (DOS)]. Kun olet suorittanut tämän komennon ohjelmaikkunassa Internet Explorer Kuvassa näkyvät symbolit tulevat näkyviin. 3.10. Komentoa suoritettaessa: [Näytä – Koodaus – Kyrillinen (KOI8-R) ] ohjelmaikkunassa Internet Explorer Kuvassa näkyvät symbolit tulevat näkyviin. 3.11.

Riisi. 3.9. Merkit näytetään CP1251-koodauksella

Riisi. 3.10. Merkit, jotka näytetään, kun CP866-koodaus on käytössä CP1251-koodauksessa esitetylle koodisekvenssille

Riisi. 3.11. Merkit, jotka näytetään, kun KOI8-R-koodaus on käytössä CP1251-koodauksessa esitetylle koodisekvenssille

Näin saatu ohjelman avulla Internet Explorer merkkisekvenssit ovat yhtenevät esimerkin 3.1 CP866- ja KOI8-R-kooditaulukoilla saatujen merkkijonojen kanssa.

3.2. Graafisten tietojen koodaus

Kuvien, valokuvien, diojen, liikkuvien kuvien (animaatio, video), kaavioiden, piirustusten muodossa esitetty graafinen informaatio voidaan luoda ja muokata tietokoneella ja se on koodattu vastaavasti. Tällä hetkellä graafisen tiedon käsittelemiseen on olemassa melko suuri määrä sovellusohjelmia, mutta ne kaikki toteuttavat kolmen tyyppistä tietokonegrafiikkaa: rasteri-, vektori- ja fraktaaleja.

Jos tarkastelet tarkemmin tietokoneen näytön graafista kuvaa, voit nähdä suuren määrän monivärisiä pisteitä (pikseleitä - englannista. pikseli koulutettu alkaen kuva elementti - kuvan elementti), jotka yhteen koottuna muodostavat tietyn graafisen kuvan. Tästä voimme päätellä: graafinen kuva tietokoneessa on koodattu tietyllä tavalla ja se on esitettävä graafisen tiedoston muodossa. Tiedosto on perusrakenneyksikkö tietojen järjestämisessä ja tallentamisessa tietokoneelle, ja tässä tapauksessa sen tulee sisältää tiedot siitä, kuinka tämä pistejoukko esitetään monitorin näytöllä.

Vektorigrafiikan pohjalta luodut tiedostot sisältävät matemaattisten suhteiden (lineaarisia suhteita kuvaavia matemaattisia funktioita) muodossa olevaa tietoa ja vastaavaa tietoa siitä, kuinka objektista muodostetaan kuva viivasegmenteillä (vektoreilla) tietokoneen näytöllä näytettävänä.

Rasterigrafiikan perusteella luodut tiedostot edellyttävät tietojen tallentamista jokaisesta kuvan yksittäisestä pisteestä. Rasterigrafiikan näyttämiseen ei tarvita monimutkaisia matemaattisia laskelmia, riittää, kun hankit tiedot kuvan jokaisesta pisteestä (sen koordinaatit ja väri) ja näyttävät ne tietokoneen näytön näytöllä.

Koodauksen aikana kuva diskretisoidaan spatiaalisesti, eli kuva jaetaan yksittäisiin pisteisiin ja jokaiselle pisteelle annetaan värikoodi (keltainen, punainen, sininen jne.). Värigraafisen kuvan jokaisen pisteen koodaamiseen käytetään mielivaltaisen värin hajoamisen periaatetta sen pääkomponentteihin, joihin käytetään kolmea pääväriä: punainen (englanninkielinen sana Punainen, merkitty kirjaimella TO), vihreä (Vihreä, merkitty kirjaimella G), sininen (Sininen, merkitty pyökkillä SISÄÄN). Mikä tahansa ihmissilmän havaitsema pisteen väri voidaan saada lisäämällä (suhteellisesti) kolmea pääväriä - punaista, vihreää ja sinistä - (sekoituksella). Tätä koodausjärjestelmää kutsutaan värijärjestelmäksi RGB. Grafiikkatiedostot, jotka käyttävät värijärjestelmää RGB edustaa kuvan jokaista pistettä väritriplettinä - kolme numeerista arvoa R, G Ja SISÄÄN, vastaavat punaisen, vihreän ja sinisen värin intensiteetit. Graafisen kuvan koodausprosessi suoritetaan erilaisilla teknisillä keinoilla (skanneri, digitaalikamera, digitaalinen videokamera jne.); tuloksena on rasterikuva. Toistettaessa värillisiä graafisia kuvia värillisellä tietokoneen näytöllä, tällaisen kuvan kunkin pisteen (pikselin) väri saadaan sekoittamalla kolme pääväriä R,G Ja B.

Rasterikuvan laatu määräytyy kahdella pääparametrilla - resoluutiolla (pikseleiden määrä vaaka- ja pystysuunnassa) ja käytetyllä väripaletilla (määritettyjen värien määrä jokaiselle kuvan pikselille). Tarkkuus määritetään ilmoittamalla pikselien lukumäärä vaaka- ja pystysuunnassa, esimerkiksi 800 x 600 pikseliä.

On olemassa suhde rasterikuvan pisteelle määritettyjen värien lukumäärän ja pisteen värin tallentamiseen allokoitavan tiedon välillä, joka määräytyy suhteen perusteella (R. Hartleyn kaava):

Missä minä– tiedon määrä; N – pisteelle määritettyjen värien määrä.

Pisteen värin tallentamiseen tarvittavaa tiedon määrää kutsutaan myös värisyvyydeksi tai värintoiston laaduksi.

Joten jos kuvapisteelle määritetty värien määrä on N= 256, silloin sen tallentamiseen tarvittavan tiedon määrä (värisyvyys) kaavan (3.1) mukaisesti on yhtä suuri kuin minä= 8 bittiä.

Tietokoneet käyttävät näytön erilaisia graafisia tiloja graafisten tietojen näyttämiseen. Tässä on huomioitava, että näytön graafisen tilan lisäksi on olemassa myös tekstitila, jossa näytön näyttö on perinteisesti jaettu 25 riville, joissa on 80 merkkiä per rivi. Näille grafiikkatiloille on ominaista näytön resoluutio ja värinlaatu (värisyvyys). Näytön näytön graafisen tilan asettaminen käyttöjärjestelmässä MS Windows XP sinun on suoritettava komento: [Button alkaa– Asetukset – Ohjauspaneeli – Näyttö]. Näyttöön tulevasta "Ominaisuudet: Näyttö" -valintaikkunasta (kuva 3.12) on valittava "Parametrit"-välilehti ja "Näytön tarkkuus" -liukusäätimellä valitaan sopiva näytön tarkkuus (800 x 600 pikseliä, 1024 x 768 pikseliä, jne.). Avattavasta "Värilaatu"-luettelosta voit valita värisyvyyden - "Korkein (32 bittiä)", "Keskitaso (16 bittiä)" jne., jolloin kullekin kuvan kohdalle määritettyjen värien määrä olla vastaavasti 2 32 (4294967296), 2 16 (65536) jne.

Riisi. 3.12. Näytön ominaisuudet -valintaikkuna

Jokaisen näytön graafisen tilan toteuttamiseksi tarvitaan tietty määrä tietokoneen videomuistia. Videomuistin vaadittu tietomäärä (V) määräytyy suhteesta

Missä TO - kuvapisteiden määrä näyttöruudulla (K = A · B); A - vaakasuuntaisten pisteiden määrä monitorin näytöllä; SISÄÄN - pystysuorien pisteiden määrä monitorin näytöllä; minä– tiedon määrä (värisyvyys).

Joten jos näytön resoluutio on 1024 x 768 pikseliä ja paletti, joka koostuu 65 536 väristä, kaavan (3.1) mukainen värisyvyys on I = log 2 65 538 = 16 bittiä, kuvan pikselien määrä olla yhtä suuri kuin: K = 1024 x 768 = 786432, ja videomuistin vaadittu tietomäärä kohdan (3.2) mukaisesti on yhtä suuri kuin

V= 786432 · 16 bittiä = 12582912 bittiä = 1572864 tavua = 1536 kt = 1,5 megatavua.

Lopuksi on huomattava, että lueteltujen ominaisuuksien lisäksi monitorin tärkeimmät ominaisuudet ovat sen näytön ja kuvapisteiden geometriset mitat. Näytön geometriset mitat määräytyvät näytön diagonaalin koon mukaan. Näyttöjen diagonaalikoko on määritetty tuumina (1 tuuma = 1" = 25,4 mm) ja se voi saada arvoja, jotka ovat yhtä suuria kuin: 14", 15", 17", 21" jne. Nykyaikaiset näyttöjen tuotantotekniikat voivat tarjota kuvan pisteen koko on 0,22 mm.

Siten jokaiselle näytölle on fyysisesti suurin mahdollinen näytön resoluutio, joka määräytyy sen diagonaalin koon ja kuvapisteen koon mukaan.

Harjoituksia tehdä itse

1. Ohjelman käyttö MS Excel muuntaa ASCII-, SR866-, SR1251-, KOI8-R-kooditaulukot muotoisiksi taulukoiksi: kirjoita taulukoiden ensimmäisen sarakkeen soluihin aakkosjärjestyksessä latinalaisten ja kyrillisten aakkosten isot ja sitten pienet kirjaimet, toinen sarake - desimaalilukujärjestelmän kirjaimia vastaavat koodit, soluissa kolmas sarake on koodit, jotka vastaavat heksadesimaalilukujärjestelmän kirjaimia. Koodiarvot on valittava vastaavista kooditaulukoista.

2. Koodaa ja kirjoita seuraavat sanat numerosarjaksi desimaali- ja heksadesimaalilukujärjestelmissä:

a) Internet Explorer, b) Microsoft Office; V) CorelDRAW.

Koodaus suoritetaan käyttämällä edellisessä harjoituksessa saatua modernisoitua ASCII-koodaustaulukkoa.

3. Käytä modernisoitua KOI8-R-koodaustaulukkoa, pura heksadesimaalilukujärjestelmään kirjoitetut numerosarjat:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Miltä SR1251-koodauksella kirjoitettu sana "Cybernetics" näyttää käytettäessä SR866- ja KOI8-R-koodauksia? Tarkista tulokset ohjelman avulla Internet Explorer.

5. Kuvassa näkyvän kooditaulukon avulla. 3.1 A, purkaa seuraavat binäärilukujärjestelmään kirjoitetut koodisekvenssit:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Määritä sanan ”Economy” tietomäärä, joka on koodattu kooditaulukoilla SR866, SR1251, Unicode ja KOI8-R.

7. Määritä 12x12 cm:n värikuvan skannauksen tuloksena saadun tiedoston tietomäärä. Tämän kuvan skannaamiseen käytetyn skannerin resoluutio on 600 dpi. Skanneri asettaa kuvapisteen värisyvyydeksi 16 bittiä.

Skannerin tarkkuus 600 dpi (piste tuuma - dots per inch) määrittää tällä resoluutiolla toimivan skannerin kyvyn erottaa 600 pistettä 1 tuuman segmentissä.

8. Määritä A4-kokoisen värikuvan skannauksen tuloksena saadun tiedoston tietomäärä. Tämän kuvan skannaamiseen käytetyn skannerin tarkkuus on 1200 dpi. Skanneri asettaa kuvapisteen värisyvyydeksi 24 bittiä.

9. Määritä paletin värien lukumäärä 8, 16, 24 ja 32 bitin värisyvyyksillä.

10. Määritä tarvittava videomuistin määrä näytön 640 x 480, 800 x 600, 1024 x 768 ja 1280 x 1024 pikselin graafisille tiloille kuvan pikselin värisyvyyden ollessa 8, 16, 24 ja 32 bittiä. Tee yhteenveto tuloksista taulukkoon. Kehittyä sisään MS Excel ohjelma laskennan automatisointiin.

11. Määritä värien enimmäismäärä, jolla voidaan tallentaa kuva, jonka koko on 32 x 32 pikseliä, jos tietokoneessa on 2 kt muistia kuvalle.

12. Määritä näytön suurin mahdollinen resoluutio, jonka diagonaalin pituus on 15" ja kuvapisteen koko 0,28 mm.

13. Mitä näytön graafisia tiloja 64 Mt videomuisti voi tarjota?

Sisällys

I. Tietojen koodauksen historia………………………………..3

II. Tietojen koodaus………………………………………………………4

III. Tekstitietojen koodaus………………………………….4

IV. Koodaustaulukoiden tyypit……………………………………………………………6

V. Tekstitiedon määrän laskeminen…………………………14

Viiteluettelo……………………………………..16

minä . Tietojen koodauksen historia

Ihmiskunta on käyttänyt tekstin salausta (koodausta) siitä hetkestä lähtien, kun ensimmäinen salainen tieto ilmestyi. Tässä on useita tekstin koodaustekniikoita, jotka keksittiin ihmisajattelun eri vaiheissa:

Kryptografia on salainen kirjoittaminen, järjestelmä muuttaa kirjoittamista tekstin tekemiseksi käsittämättömäksi tietämättömille;

Morsekoodi tai epätasainen lennätinkoodi, jossa jokaista kirjainta tai merkkiä edustaa oma yhdistelmänsä lyhyistä sähkövirran alkeispurskeista (pisteet) ja kolminkertaisista elementaarisista purskeista (viiva);

viittomakieli on kuulovammaisten käyttämä viittomakieli.

Yksi varhaisimmista tunnetuista salausmenetelmistä on nimetty Rooman keisarin Julius Caesarin (1. vuosisadalla eKr.) mukaan. Tämä menetelmä perustuu siihen, että salatun tekstin jokainen kirjain korvataan toisella, siirtämällä aakkostoa alkuperäisestä kirjaimesta kiinteällä määrällä merkkejä ja aakkoset luetaan ympyrässä, eli i-kirjaimen jälkeen otetaan huomioon a. . Joten sana "tavu", kun sitä siirretään kaksi merkkiä oikealle, koodataan sanaksi "gwlf". Tietyn sanan käänteinen tulkintaprosessi on tarpeen, jotta jokainen salattu kirjain korvataan toisella sen vasemmalla puolella olevalla kirjaimella.

II. Koodaustiedot

Koodi on joukko sopimuksia (tai signaaleja) joidenkin ennalta määritettyjen käsitteiden tallentamiseksi (tai viestimiseksi).

Tiedon koodaus on prosessi, jossa muodostetaan tiedosta erityinen esitys. Suppeammassa merkityksessä termi "koodaus" ymmärretään usein siirtymäksi yhdestä tiedon esitysmuodosta toiseen, joka on kätevämpi tallennuksen, siirron tai käsittelyn kannalta.

Yleensä jokaista kuvaa koodattaessa (jota kutsutaan joskus salaukseksi) edustaa erillinen merkki.

Merkki on osa äärellisestä joukosta elementtejä, jotka eroavat toisistaan.

Suppeammassa merkityksessä termi "koodaus" ymmärretään usein siirtymäksi yhdestä tiedon esitysmuodosta toiseen, joka on helpompi tallentaa, siirtää tai käsitellä.

Voit käsitellä tekstitietoja tietokoneella. Kun se syötetään tietokoneeseen, jokainen kirjain on koodattu tietyllä numerolla, ja kun se tulostetaan ulkoisiin laitteisiin (näyttö tai tuloste), kirjainten kuvat muodostetaan näistä numeroista ihmisen havaitsemista varten. Kirjainten ja numeroiden välistä vastaavuutta kutsutaan merkkikoodaukseksi.

Yleensä kaikki tietokoneen numerot esitetään nollien ja ykkösten avulla (ei kymmentä numeroa, kuten ihmisille tavallista). Toisin sanoen tietokoneet toimivat yleensä binäärilukujärjestelmässä, koska tämä yksinkertaistaa niitä huomattavasti. Numeroiden syöttäminen tietokoneeseen ja tulostaminen ihmisen luettavaksi voidaan tehdä tavanomaisessa desimaalimuodossa ja kaikki tarvittavat muunnokset suoritetaan tietokoneella käynnissä olevilla ohjelmilla.

III. Tekstitietojen koodaus

Samat tiedot voidaan esittää (koodata) useissa eri muodoissa. Tietokoneiden myötä syntyi tarve koodata kaikentyyppistä tietoa, jota sekä yksilö että koko ihmiskunta käsittelevät. Mutta ihmiskunta alkoi ratkaista tiedon koodausongelmaa kauan ennen tietokoneiden tuloa. Ihmiskunnan suuret saavutukset - kirjoittaminen ja aritmetiikka - eivät ole muuta kuin puheen ja numeerisen tiedon koodausjärjestelmä. Tieto ei koskaan esiinny puhtaassa muodossaan, se esitetään aina jotenkin, koodataan jotenkin.

Binäärikoodaus on yksi yleisimmistä tavoista esittää tietoa. Tietokoneissa, roboteissa ja numeerisesti ohjatuissa koneissa pääsääntöisesti kaikki laitteen käsittelemä tieto on koodattu binääriaakkosten sanojen muodossa.

60-luvun lopulta lähtien tietokoneita on käytetty yhä enemmän tekstitietojen käsittelyyn, ja tällä hetkellä suurin osa maailman henkilökohtaisista tietokoneista (ja suurimman osan ajasta) on tekstitiedon käsittelyn varassa. Kaikki tämän tyyppiset tiedot tietokoneessa esitetään binäärikoodina, eli käytetään tehon kaksi aakkosia (vain kaksi merkkiä 0 ja 1). Tämä johtuu siitä, että on kätevää esittää tietoa sähköisten impulssien sarjan muodossa: impulssia ei ole (0), impulssi on (1).

Tällaista koodausta kutsutaan yleensä binääriksi, ja itse nollien ja ykkösten loogisia sekvenssejä kutsutaan konekieleksi.

Tietokoneen näkökulmasta teksti koostuu yksittäisistä merkeistä. Symbolit eivät sisällä vain kirjaimia (isot tai pienet kirjaimet, latina tai venäjä), vaan myös numeroita, välimerkkejä, erikoismerkkejä, kuten "=", "(", "&" jne., ja jopa (kiinnitä erityistä huomiota!) välilyönnit sanojen välillä.

Tekstit syötetään tietokoneen muistiin näppäimistön avulla. Näppäimiin on kirjoitettu meille tutut kirjaimet, numerot, välimerkit ja muut symbolit. He syöttävät RAM-muistin binäärikoodina. Tämä tarkoittaa, että jokainen merkki esitetään 8-bittisellä binäärikoodilla.

Perinteisesti yhden merkin koodaamiseen käytetään 1 tavua vastaavaa informaatiomäärää, eli I = 1 tavu = 8 bittiä. Käyttämällä kaavaa, joka yhdistää mahdollisten tapahtumien määrän K ja tiedon määrän I, voit laskea kuinka monta erilaista symbolia voidaan koodata (olettaen, että symbolit ovat mahdollisia tapahtumia): K = 2 I = 2 8 = 256, eli To:lle edustavat tekstitietoja, voit käyttää aakkosia, joiden kapasiteetti on 256 merkkiä.

Tämä merkkien määrä on aivan riittävä edustamaan tekstitietoja, mukaan lukien venäjän ja latinalaisen aakkosten isot ja pienet kirjaimet, numerot, merkit, graafiset symbolit jne.

Symbolin näyttämisessä tietokoneen näytöllä suoritetaan käänteinen prosessi - dekoodaus, toisin sanoen symbolikoodin muuntaminen kuvaksi. On tärkeää, että tietyn koodin antaminen symbolille on sopimuskysymys, joka kirjataan kooditaulukkoon.

Nyt herää kysymys, mikä kahdeksanbittinen binaarikoodi kullekin merkille määritetään. On selvää, että tämä on ehdollinen asia, voit keksiä monia koodausmenetelmiä.

Kaikki tietokoneen aakkosten merkit on numeroitu 0 - 255. Jokainen numero vastaa kahdeksan bitin binaarikoodia 00000000 - 11111111. Tämä koodi on yksinkertaisesti merkin sarjanumero binäärinumerojärjestelmässä.

IV . Koodaustaulukoiden tyypit

Taulukkoa, jossa kaikille tietokoneen aakkosten merkeille on määritetty sarjanumerot, kutsutaan koodaustaulukoksi.

Erityyppiset tietokoneet käyttävät erilaisia koodaustaulukoita.

ASCII-kooditaulukko (American Standard Code for Information Interchange) on hyväksytty kansainväliseksi standardiksi, joka koodaa merkkien ensimmäisen puoliskon numerokoodeilla 0 - 127 (koodit 0 - 32 ei ole määritetty merkkeihin, vaan toimintonäppäimiin) .

ASCII-kooditaulukko on jaettu kahteen osaan.

Vain taulukon ensimmäinen puolisko on kansainvälinen standardi, ts. merkkejä numeroilla 0 (00000000) - 127 (01111111).

ASCII-koodaustaulukkorakenne

Sarjanumero	Koodi	Symboli
0 - 31	00000000 - 00011111	Symboleja, joiden numerot ovat 0-31, kutsutaan yleensä ohjaussymboleiksi. Niiden tehtävänä on ohjata tekstin näyttämistä näytöllä tai tulostamista, äänimerkin antamista, tekstin merkitsemistä jne.
32 - 127	0100000 - 01111111	Pöydän vakioosa (englanniksi). Tämä sisältää latinalaisten aakkosten pienet ja isot kirjaimet, desimaaliluvut, välimerkit, kaikenlaiset hakasulut, kaupalliset ja muut symbolit. Merkki 32 on välilyönti, ts. tyhjä paikka tekstissä. Kaikki muut heijastuvat tietyillä merkeillä.
128 - 255	10000000 - 11111111	Taulukon vaihtoehtoinen osa (venäjä). ASCII-kooditaulukon toisella puoliskolla, jota kutsutaan koodisivuksi (128 koodia alkaen 10000000 ja päättyen numeroon 11111111), voi olla erilaisia vaihtoehtoja, jokaisella vaihtoehdolla on oma numeronsa. Koodisivulla käytetään ensisijaisesti muita kansallisia aakkosia kuin latinaa. Venäjän kansallisissa koodauksissa venäläisten aakkosten merkit sijoitetaan tähän taulukon osaan.

ASCII-kooditaulukon ensimmäinen puolisko

Venäjän aakkosten kirjaimissa noudatetaan myös peräkkäisen koodauksen periaatetta.

ASCII-kooditaulukon toinen puolisko

Valitettavasti tällä hetkellä on olemassa viisi erilaista kyrillistä koodausta (KOI8-R, Windows. MS-DOS, Macintosh ja ISO). Tästä johtuen venäläisen tekstin siirtämisessä tietokoneelta toiselle, ohjelmistojärjestelmästä toiseen syntyy usein ongelmia.

Kronologisesti yksi ensimmäisistä standardeista venäläisten kirjainten koodaukseen tietokoneissa oli KOI8 ("Information Exchange Code, 8-bit"). Tätä koodausta käytettiin jo 70-luvulla ES-tietokonesarjan tietokoneissa, ja 80-luvun puolivälistä lähtien sitä alettiin käyttää UNIX-käyttöjärjestelmän ensimmäisissä venäläistetyissä versioissa.

90-luvun alusta, MS DOS -käyttöjärjestelmän dominanssiajasta, CP866-koodaus säilyy ("CP" tarkoittaa "koodisivua", "koodisivua").

Apple-tietokoneet, joissa on Mac OS -käyttöjärjestelmä, käyttävät omaa Mac-koodausta.

Lisäksi International Standards Organization (ISO) on hyväksynyt toisen koodauksen nimeltä ISO 8859-5 venäjän kielen standardiksi.

Yleisin tällä hetkellä käytetty koodaus on Microsoft Windows, lyhenne CP1251. Esitteli Microsoft; Kun otetaan huomioon tämän yrityksen käyttöjärjestelmien (OS) ja muiden ohjelmistotuotteiden laaja jakelu Venäjän federaatiossa, se on löytänyt laajan jakelun.

90-luvun lopulta lähtien merkkikoodauksen standardointiongelma on ratkaistu ottamalla käyttöön uusi kansainvälinen standardi nimeltä Unicode.

Tämä on 16-bittinen koodaus, ts. se varaa 2 tavua muistia jokaiselle merkille. Tietenkin tämä lisää varatun muistin määrää 2 kertaa. Mutta tällainen kooditaulukko sallii jopa 65536 merkin sisällyttämisen. Unicode-standardin täydellinen spesifikaatio sisältää kaikki maailman olemassa olevat, sukupuuttoon kuolleet ja keinotekoisesti luodut aakkoset sekä monet matemaattiset, musiikilliset, kemialliset ja muut symbolit.

Sanojen sisäinen esitys tietokoneen muistissa

käyttämällä ASCII-taulukkoa

Joskus käy niin, että toisesta tietokoneesta saatua venäläisten aakkosten kirjaimista koostuvaa tekstiä ei voida lukea - näytön näytöllä näkyy jonkinlainen "abrakadabra". Tämä johtuu siitä, että tietokoneet käyttävät venäjän kielen eri merkkikoodeja.

Siten jokainen koodaus on määritelty omalla kooditaulukollaan. Kuten taulukosta voidaan nähdä, samalle binäärikoodille on määritetty eri merkkejä eri koodauksissa.

Esimerkiksi numerokoodien 221, 194, 204 sekvenssi CP1251-koodauksessa muodostaa sanan "tietokone", kun taas muissa koodauksissa se on merkityksetön merkkijoukko.

Onneksi käyttäjän ei useimmissa tapauksissa tarvitse huolehtia tekstidokumenttien transkoodaamisesta, koska se tehdään erityisillä sovelluksiin sisäänrakennetuilla muunnosohjelmilla.

V . Tekstitiedon määrän laskeminen

Tehtävä 1: Koodaa sana "Rooma" käyttämällä KOI8-R- ja CP1251-koodaustaulukoita.

Ratkaisu:

Tehtävä 2: Olettaen, että jokainen merkki on koodattu yhteen tavuun, arvioi seuraavan lauseen tietomäärä:

"Setälläni on rehellisimmät säännöt,

Kun sairastuin vakavasti,

Hän pakotti itsensä kunnioittamaan

Ja en voinut ajatella mitään parempaa."

Ratkaisu: Tässä lauseessa on 108 merkkiä, mukaan lukien välimerkit, lainausmerkit ja välilyönnit. Kerromme tämän luvun 8 bitillä. Saamme 108*8=864 bittiä.

Tehtävä 3: Molemmat tekstit sisältävät saman määrän merkkejä. Ensimmäinen teksti on kirjoitettu venäjäksi ja toinen Naguri-heimon kielellä, jonka aakkosissa on 16 merkkiä. Kenen teksti sisältää enemmän tietoa?

Ratkaisu:

1) I = K * a (tekstin tietomäärä on merkkien määrän ja yhden merkin tietopainon tulo).

2) Koska Molemmissa teksteissä on sama määrä merkkejä (K), jolloin ero riippuu aakkosten yhden merkin tietosisällöstä (a).

3) 2 a1 = 32, so. a 1 = 5 bittiä, 2 a2 = 16, so. ja 2 = 4 bittiä.

4) I 1 = K * 5 bittiä, I 2 = K * 4 bittiä.

5) Tämä tarkoittaa, että venäjäksi kirjoitettu teksti sisältää 5/4 kertaa enemmän tietoa.

Tehtävä 4: Viestin koko, joka sisältää 2048 merkkiä, oli 1/512 megatavua. Määritä aakkosten voima.

Ratkaisu:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bittiä - muunsi viestin tietomäärän biteiksi.

2) a = I / K = 16384 / 1024 = 16 bittiä - vastaa yhtä aakkosten merkkiä.

3) 2*16*2048 = 65536 merkkiä – käytetyn aakkoston teho.

Tehtävä 5: Canon LBP -lasertulostin tulostaa keskimäärin 6,3 Kbps:n nopeudella. Kuinka kauan kestää tulostaa 8-sivuinen asiakirja, jos tiedät, että yhdellä sivulla on keskimäärin 45 riviä ja 70 merkkiä rivillä (1 merkki - 1 tavu)?

Ratkaisu:

1) Selvitä 1 sivun sisältämän tiedon määrä: 45 * 70 * 8 bittiä = 25200 bittiä

2) Etsi tiedon määrä 8 sivulta: 25200 * 8 = 201600 bittiä

3) Pelkistetään yhteisiksi mittayksiköiksi. Tätä varten muunnamme Mbit:t biteiksi: 6,3*1024=6451,2 bittiä/sek.

4) Etsi tulostusaika: 201600: 6451,2 =31 sekuntia.

Bibliografia

1. Ageev V.M. Informaatio- ja koodausteoria: mittaustietojen näytteenotto ja koodaus. - M.: MAI, 1977.

2. Kuzmin I.V., Kedrus V.A. Tietoteorian ja koodauksen perusteet. - Kiova, Vishcha-koulu, 1986.

3. Yksinkertaisimmat tekstin salausmenetelmät / D.M. Zlatopolsky. – M.: Chistye Prudy, 2007 – 32 s.

4. Ugrinovich N.D. Tietojenkäsittelytiede ja tietotekniikka. Oppikirja luokille 10-11 / N.D. Ugrinovich. – M.: BINOM. Tiedon laboratorio, 2003. – 512 s.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

Materiaali itseopiskeluun luennon 2 aiheesta

Koodaus ASCII

ASCII-koodaustaulukko (ASCII - American Standard Code for Information Interchange - American Standard Code for Information Interchange).

Yhteensä 256 eri merkkiä voidaan koodata käyttämällä ASCII-koodaustaulukkoa (kuva 1). Tämä taulukko on jaettu kahteen osaan: pääosa (koodeilla OOh - 7Fh) ja lisäosa (80h - FFh, jossa kirjain h osoittaa, että koodi kuuluu heksadesimaalilukujärjestelmään).

Kuva 1

Yhden merkin koodaamiseksi taulukosta varataan 8 bittiä (1 tavu). Tekstitietoja käsiteltäessä yksi tavu voi sisältää tietyn merkin koodin - kirjaimen, numeron, välimerkin, toimintamerkin jne. Jokaisella merkillä on oma koodinsa kokonaisluvun muodossa. Tässä tapauksessa kaikki koodit kerätään erityisiin taulukoihin, joita kutsutaan koodaustaulukoiksi. Niiden avulla symbolikoodi muunnetaan sen näkyväksi esitykseksi monitorin näytöllä. Tämän seurauksena mikä tahansa tietokoneen muistissa oleva teksti esitetään tavujonona merkkikoodeilla.

Esimerkiksi sana hei! koodataan seuraavasti (taulukko 1).

pöytä 1


Binäärikoodi
Koodi desimaali

Kuvassa 1 on esitetty standardin (englanninkielinen) ja laajennetun (venäläisen) ASCII-koodauksen merkit.

ASCII-taulukon ensimmäinen puolisko on standardoitu. Se sisältää ohjauskoodit (00h - 20h ja 77h). Nämä koodit on poistettu taulukosta, koska ne eivät koske tekstielementtejä. Välimerkit ja matemaattiset symbolit sijoitetaan myös tähän: 2lh - !, 26h - &, 28h - (, 2Bh -+,..., suuret ja pienet latinalaiset kirjaimet: 41h - A, 61h - a.

Taulukon toinen puoli sisältää kansallisia kirjasimia, pseudografisia symboleja, joista taulukoita voidaan rakentaa, sekä erityisiä matemaattisia symboleja. Koodaustaulukon alaosa voidaan korvata sopivilla ohjaimilla - ohjausapuohjelmilla. Tämän tekniikan avulla voit käyttää useita fontteja ja niiden kirjasintyyppejä.

Jokaisen symbolikoodin näytön tulee näyttää symbolin kuva - ei vain digitaalinen koodi, vaan vastaava kuva, koska jokaisella symbolilla on oma muotonsa. Jokaisen merkin muodon kuvaus tallennetaan erityiseen näyttömuistiin - merkkigeneraattoriin. Merkin korostaminen esimerkiksi IBM PC -näytön näytöllä tapahtuu pisteillä, jotka muodostavat merkkimatriisin. Jokainen pikseli tällaisessa matriisissa on kuvaelementti ja voi olla kirkas tai tumma. Tumma piste on koodattu 0:lla, vaalea (kirkas) piste 1. Jos edustat merkin matriisikentässä olevat tummat pikselit pisteenä ja vaaleat pisteet tähdellä, voit kuvata symbolin muodon graafisesti.

Eri maiden ihmiset käyttävät symboleja kirjoittaakseen sanoja äidinkielellään. Nykyään useimmat sovellukset, mukaan lukien sähköpostijärjestelmät ja verkkoselaimet, ovat puhtaasti 8-bittisiä, mikä tarkoittaa, että ne voivat näyttää ja hyväksyä vain 8-bittisiä merkkejä ISO-8859-1-standardin mukaisesti.

Maailmassa on yli 256 merkkiä (jos huomioidaan kyrillinen, arabia, kiina, japani, korea ja thai), ja uusia merkkejä ilmaantuu yhä enemmän. Ja tämä luo seuraavat aukot monille käyttäjille:

Samassa asiakirjassa ei ole mahdollista käyttää eri koodaussarjoja olevia merkkejä. Koska jokainen tekstiasiakirja käyttää omaa koodaussarjaansa, automaattinen tekstintunnistus aiheuttaa suuria vaikeuksia.

Uusia symboleita ilmestyy (esim. Euro), minkä seurauksena ISO kehittää uutta standardia, ISO-8859-15, joka on hyvin samanlainen kuin ISO-8859-1 standardi. Erona on, että vanhasta ISO-8859-1-koodaustaulukosta on poistettu symbolit vanhoista valuutoista, jotka eivät ole tällä hetkellä käytössä, jotta uusille symboleille (kuten eurolle) olisi tilaa. Tämän seurauksena käyttäjillä voi olla samat asiakirjat levyillä, mutta eri koodauksissa. Ratkaisu näihin ongelmiin on ottamalla käyttöön yksi kansainvälinen koodaussarja, nimeltään Universal Coding tai Unicode.

Koodaus Unicode

Standardia ehdotti vuonna 1991 voittoa tavoittelematon organisaatio Unicode Consortium (Unicode Inc.). Tämän standardin avulla voit koodata erittäin suuren määrän merkkejä eri skripteistä: Unicode-asiakirjat voivat sisältää kiinalaisia merkkejä, matemaattisia symboleja, kreikkalaisten aakkosten kirjaimia, latinalaisia ja kyrillisiä aakkosia, ja koodisivujen vaihtaminen on tarpeetonta.

Standardi koostuu kahdesta pääosasta: yleisestä merkistöstä (UCS) ja koodausperheestä (UTF, Unicode-muunnosmuoto). Universaali merkistö määrittää yksi-yhteen vastaavuuden merkkien ja koodien välillä - kooditilan elementit, jotka edustavat ei-negatiivisia kokonaislukuja. Koodausperhe määrittelee UCS-koodisarjan koneesityksen.

Unicode-standardi kehitettiin luomaan yksi merkkikoodaus kaikille nykyaikaisille ja monille muinaisille kirjoitetuille kielille. Jokainen tämän standardin merkki on koodattu 16-bittisellä koodauksella, mikä mahdollistaa sen, että se kattaa verrattoman suuremman määrän merkkejä kuin aiemmin hyväksytyt 8-bittiset koodaukset. Toinen tärkeä ero Unicoden ja muiden koodausjärjestelmien välillä on, että se ei ainoastaan anna yksilöllistä koodia jokaiselle merkille, vaan myös määrittää kyseisen merkin erilaisia ominaisuuksia, esimerkiksi:

merkkityyppi (iso kirjain, pieni kirjain, numero, välimerkki jne.);

merkkiattribuutit (näyttö vasemmalta oikealle tai oikealta vasemmalle, välilyönti, rivinvaihto jne.);

vastaava iso tai pieni kirjain (pienille ja isoille kirjaimille);

vastaava numeerinen arvo (numeerisille merkeille).

Koko koodialue 0:sta FFFF:ään on jaettu useisiin vakioalaryhmiin, joista jokainen vastaa joko kielen aakkosia tai funktioltaan samankaltaisten erikoismerkkien ryhmää. Alla oleva kaavio sisältää yleisen luettelon Unicode 3.0 -alijoukoista (kuva 2).

Kuva 2

Unicode-standardi on perusta tekstin tallentamiselle monissa nykyaikaisissa tietokonejärjestelmissä. Se ei kuitenkaan ole yhteensopiva useimpien Internet-protokollien kanssa, koska sen koodit voivat sisältää mitä tahansa tavuarvoja, ja protokollat käyttävät tyypillisesti tavuja 00 - 1F ja FE - FF palvelutavuina. Yhteensopivuuden saavuttamiseksi on kehitetty useita Unicode-muunnosmuotoja (UTF, Unicode Transformation Formats), joista UTF-8 on nykyään yleisin. Tämä muoto määrittelee seuraavat säännöt kunkin Unicode-koodin muuntamiseksi tavujoukoksi (yhdestä kolmeen), jotka sopivat siirrettäväksi Internet-protokollien avulla.

Tässä x,y,z tarkoittavat lähdekoodin bittejä, jotka tulee purkaa, alkaen vähiten merkitsevästä, ja syöttää tulostavuihin oikealta vasemmalle, kunnes kaikki määritetyt paikat on täytetty.

Unicode-standardin jatkokehitys liittyy uusien kielitasojen lisäämiseen, ts. merkit välillä 10000 - 1FFFF, 20000 - 2FFFF jne., joissa sen oletetaan sisältävän koodauksen kuolleiden kielten skripteille, jotka eivät sisälly yllä olevaan taulukkoon. Uusi muoto, UTF-16, kehitettiin koodaamaan nämä lisämerkit.

Unicode-tavujen koodaamiseen on siis neljä päätapaa:

UTF-8: 128 merkkiä koodattuina yhdelle tavulle (ASCII-muoto), 1920 merkkiä 2 tavulla koodattuina ((rooma, kreikka, kyrillinen, kopti, armenia, heprea, arabia), 63488 merkkiä koodattu 3 tavulla (kiina, japani jne.) .) Loput 2 147 418 112 merkkiä (ei vielä käytetty) voidaan koodata 4, 5 tai 6 tavulla.

UCS-2: Jokaista merkkiä edustaa 2 tavua. Tämä koodaus sisältää vain ensimmäiset 65 535 merkkiä Unicode-muodosta.

UTF-16: UCS-2:n laajennus, se sisältää 1 114 112 Unicode-muotoista merkkiä. Ensimmäiset 65 535 merkkiä edustavat 2 tavua, loput 4 tavua.

USC-4: Jokainen merkki on koodattu 4 tavulla.

Merkkipeitto

BS (askelpalautin) -merkin avulla tulostin voi tulostaa yhden merkin toisen päälle. ASCII mahdollistaa diakriittisten lisäysten kirjaimiin tällä tavalla, esimerkiksi:

a BS "→ á
a BS ` → à
a BS ^ → â
o BS / → ø
c BS , → ç
n BS ~ → с

Huomautus: vanhoissa kirjasimissa heittomerkki " piirrettiin vinosti vasemmalle ja tilde ~ siirrettiin ylöspäin, joten ne sopivat vain akuutin ja päälle aaltoviivan rooliin.

Jos sama merkki on merkin päällä, tuloksena on lihavoitu fonttitehoste, ja jos alleviivaus on merkin päällä, tuloksena on alleviivattu teksti.

a BS a → a
aBS_→ a

Huomautus: Tätä käytetään esimerkiksi miesapujärjestelmässä.

Kansalliset ASCII-versiot

ISO 646 (ECMA-6) -standardi mahdollistaa kansallisten symbolien sijoittamisen @ [ \ ] ^ ` { | } ~ . Tämän lisäksi paikan päällä # voidaan postittaa £ , ja paikallaan $ - ¤ . Tämä järjestelmä sopii hyvin eurooppalaisille kielille, joissa tarvitaan vain muutama lisämerkki. ASCII-versiota ilman kansallisia merkkejä kutsutaan US-ASCII:ksi tai "kansainväliseksi viiteversioksi".

Myöhemmin osoittautui kätevämmäksi käyttää 8-bittisiä koodauksia (koodisivuja), joissa kooditaulukon alapuoli (0-127) on US-ASCII-merkkien ja ylempi puolisko (128-255) käytössä. lisämerkeillä, mukaan lukien joukko kansallisia merkkejä. Siten ASCII-taulukon yläosaa käytettiin ennen Unicoden laajaa käyttöönottoa aktiivisesti edustamaan paikallisia merkkejä, paikallisen kielen kirjaimia. Yhtenäisen standardin puute kyrillisten merkkien sijoittamiselle ASCII-taulukkoon aiheutti monia ongelmia koodauksissa (KOI-8, Windows-1251 ja muut). Myös muut kielet, joilla on ei-latinalaisia kirjoituksia, kärsivät useista erilaisista koodauksista.

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
0.	NUL	SOM	EOA	EOM	EQT	W.R.U.	RU	BELL	BKSP	HT	LF	VT	FF	CR	NIIN	SI.
1.	DC 0	DC 1	DC 2	DC 3	DC 4	ERR	SYNC	L.E.M.	S 0	S 1	S 2	S 3	S 4	S 5	S 6	S 7
2.
3.
4.	TYHJÄ	!	"	#	$	%	&	"	(	)	*	+	,	-	.	/
5.	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
6.
7.
8.
9.
A.	@	A	B	C	D	E	F	G	H	minä	J	K	L	M	N	O
B.	P	K	R	S	T	U	V	W	X	Y	Z	[	\	]		←
C.
D.
E.		a	b	c	d	e	f	g	h	i	j	k	l	m	n	o
F.	s	q	r	s	t	u	v	w	x	y	z				POISTU	DEL

Niissä tietokoneissa, joissa pienin osoitettava muistiyksikkö oli 36-bittinen sana, käytettiin aluksi 6-bittisiä merkkejä (1 sana = 6 merkkiä). ASCII:een siirtymisen jälkeen tällaiset tietokoneet alkoivat sisältää joko 5 seitsemänbittistä merkkiä (1 bitti jäi ylimääräiseksi) tai 4 yhdeksänbittistä merkkiä yhdessä sanassa.

ASCII-koodeja käytetään myös määrittämään, mitä näppäintä painetaan ohjelmoinnin aikana. Tavallisen QWERTY-näppäimistön kooditaulukko näyttää tältä:

Unicode (englanniksi Unicode) on merkkien koodausstandardi. Yksinkertaisesti sanottuna tämä on vastaavuustaulukko tekstin merkkien välillä ( , kirjaimet, välimerkkejä) binäärikoodeja. Tietokone ymmärtää vain nollien ja ykkösten sarjan. Jotta se tietää, mitä sen pitäisi tarkalleen näyttää näytöllä, on tarpeen määrittää jokaiselle symbolille oma yksilöllinen numeronsa. 80-luvulla merkit koodattiin yhteen tavuun eli kahdeksaan bittiin (jokainen bitti on 0 tai 1). Siten kävi ilmi, että yhteen taulukkoon (alias koodaus tai joukko) mahtuu vain 256 merkkiä. Tämä ei välttämättä riitä edes yhdelle kielelle. Siksi ilmestyi monia erilaisia koodauksia, joiden sekaannus johti usein siihen, että ruudulle ilmestyi luettavan tekstin sijasta outoa hölynpölyä. Tarvittiin yksi standardi, josta tuli Unicode. Eniten käytetty koodaus on UTF-8 (Unicode Transformation Format), joka käyttää 1-4 tavua edustamaan merkkiä.

Symbolit

Unicode-taulukoiden merkit on numeroitu heksadesimaaliluvuilla. Esimerkiksi kyrillinen iso kirjain M on merkitty U+041C. Tämä tarkoittaa, että se on rivin 041 ja sarakkeen C leikkauskohdassa. Voit yksinkertaisesti kopioida sen ja liittää sen jonnekin. Jotta et turhaisi usean kilometrin luettelossa, sinun tulee käyttää hakua. Kun siirryt symbolisivulle, näet sen Unicode-numeron ja kuinka se on kirjoitettu eri fonteilla. Voit kirjoittaa itse merkin hakupalkkiin, vaikka sen sijaan piirrettäisiin neliö, ainakin selvittääksesi, mikä se oli. Lisäksi tällä sivustolla on erityisiä (ja satunnaisia) samankaltaisia kuvakkeita, jotka on kerätty eri osioista käytön helpottamiseksi.

Unicode-standardi on kansainvälinen. Se sisältää hahmoja melkein kaikista maailman käsikirjoituksista. Mukaan lukien ne, joita ei enää käytetä. Egyptiläiset hieroglyfit, germaaniset riimut, mayojen kirjoitus, nuolenpääkirja ja muinaisten valtioiden aakkoset. Esitellään myös painojen ja mittojen nimitykset, nuotit ja matemaattiset käsitteet.

Unicode Consortium ei itse keksi uusia merkkejä. Taulukoihin on lisätty ne kuvakkeet, jotka löytävät yhteiskunnassa käyttöä. Esimerkiksi ruplamerkkiä käytettiin aktiivisesti kuusi vuotta ennen kuin se lisättiin Unicodeen. Emoji-piktogrammeja (hymiöitä) käytettiin myös ensimmäisen kerran laajalti Japanissa ennen kuin ne sisällytettiin koodaukseen. Mutta tavaramerkkejä ja yritysten logoja ei periaatteessa lisätä. Jopa sellaiset yleiset kuin Apple-omena tai Windows-lippu. Tähän mennessä versiossa 8.0 on koodattu noin 120 tuhatta merkkiä.

[8-bittiset koodaukset: ASCII, KOI-8R ja CP1251] Ensimmäiset Yhdysvalloissa luodut koodaustaulukot eivät käyttäneet tavun kahdeksatta bittiä. Teksti esitettiin tavujonona, mutta kahdeksatta bittiä ei otettu huomioon (se käytettiin virallisiin tarkoituksiin).

Taulukosta on tullut yleisesti hyväksytty standardi ASCII(American Standard Code for Information Interchange). ASCII-taulukon 32 ensimmäistä merkkiä (00 - 1F) käytettiin ei-tulostuville merkeille. Ne on suunniteltu ohjaamaan tulostuslaitetta jne. Loput - 20 - 7F - ovat tavallisia (tulostettavia) merkkejä.

Taulukko 1 - ASCII-koodaus

joulukuuta	Hex	lokakuu	Hiiltyä	Kuvaus
0	0	000		tyhjä
1	1	001		suunnan alku
2	2	002		tekstin alku
3	3	003		tekstin loppu
4	4	004		lähetyksen loppu
5	5	005		tiedustelu
6	6	006		tunnustaa
7	7	007		kello
8	8	010		askelpalautin
9	9	011		vaakasuora välilehti
10	A	012		uusi rivi
11	B	013		pystysuora välilehti
12	C	014		uusi sivu
13	D	015		vaunun paluu
14	E	016		vaihtaa pois
15	F	017		siirtyä sisään
16	10	020		datalinkin pakoon
17	11	021		laitteen ohjaus 1
18	12	022		laitteen ohjaus 2
19	13	023		laitteen ohjaus 3
20	14	024		laitteen ohjaus 4
21	15	025		negatiivinen tunnustus
22	16	026		synkroninen tyhjäkäynti
23	17	027		transin loppu. lohko
24	18	030		peruuttaa
25	19	031		mediumin loppu
26	1A	032		korvike
27	1B	033		paeta
28	1C	034		tiedostojen erotin
29	1D	035		ryhmän erotin
30	1E	036		tietueen erotin
31	1F	037		yksikön erotin
32	20	040		tilaa
33	21	041	!
34	22	042	"
35	23	043	#
36	24	044	$
37	25	045	%
38	26	046	&
39	27	047	"
40	28	050	(
41	29	051	)
42	2A	052	*
43	2B	053	+
44	2C	054	,
45	2D	055	-
46	2E	056	.
47	2F	057	/
48	30	060	0
49	31	061	1
50	32	062	2
51	33	063	3
52	34	064	4
53	35	065	5
54	36	066	6
55	37	067	7
56	38	070	8
57	39	071	9
58	3A	072	:
59	3B	073	;
60	3C	074	<
61	3D	075	=
62	3E	076	>
63	3F	077	?

joulukuuta	Hex	lokakuu	Hiiltyä
64	40	100	@
65	41	101	A
66	42	102	B
67	43	103	C
68	44	104	D
69	45	105	E
70	46	106	F
71	47	107	G
72	48	110	H
73	49	111	minä
74	4A	112	J
75	4B	113	K
76	4C	114	L
77	4D	115	M
78	4E	116	N
79	4F	117	O
80	50	120	P
81	51	121	K
82	52	122	R
83	53	123	S
84	54	124	T
85	55	125	U
86	56	126	V
87	57	127	W
88	58	130	X
89	59	131	Y
90	5A	132	Z
91	5B	133	[
92	5C	134	\
93	5D	135	]
94	5E	136	^
95	5F	137	_
96	60	140	`
97	61	141	a
98	62	142	b
99	63	143	c
100	64	144	d
101	65	145	e
102	66	146	f
103	67	147	g
104	68	150	h
105	69	151	i
106	6A	152	j
107	6B	153	k
108	6C	154	l
109	6D	155	m
110	6E	156	n
111	6F	157	o
112	70	160	s
113	71	161	q
114	72	162	r
115	73	163	s
116	74	164	t
117	75	165	u
118	76	166	v
119	77	167	w
120	78	170	x
121	79	171	y
122	7A	172	z
123	7B	173	{
124	7C	174	\|
125	7D	175	}
126	7E	176	~
127	7F	177	DEL

Kuten on helppo nähdä, tämä koodaus sisältää vain latinalaisia kirjaimia ja niitä, joita käytetään englannin kielessä. Siellä on myös aritmeettisia ja muita palvelusymboleja. Mutta ei ole venäjän kirjaimia eikä edes erityisiä latinalaisia kirjaimia saksalle tai ranskalle. Tämä on helppo selittää - koodaus on kehitetty nimenomaan amerikkalaiseksi standardiksi. Kun tietokoneita alettiin käyttää kaikkialla maailmassa, muut merkit piti koodata.

Tätä varten päätettiin käyttää kahdeksatta bittiä jokaisessa tavussa. Tämä teki 128 lisäarvoa saataville (80:stä FF:iin), joita voitiin käyttää merkkien koodaamiseen. Ensimmäinen kahdeksanbittisistä taulukoista on "laajennettu ASCII" ( Laajennettu ASCII) - sisälsi useita muunnelmia latinalaisista kirjaimista, joita käytetään joissakin Länsi-Euroopan kielissä. Se sisälsi myös muita lisäsymboleja, mukaan lukien pseudografia.

Pseudografisten merkkien avulla voit luoda jonkin verran grafiikkaa näyttämällä vain tekstimerkkejä näytöllä. Esimerkiksi tiedostonhallintaohjelma FAR Manager toimii pseudografian avulla.

Laajennetussa ASCII-taulukossa ei ollut venäläisiä kirjaimia. Venäjä (entinen Neuvostoliitto) ja muut maat loivat omat koodauksensa, jotka mahdollistivat tiettyjen "kansallisten" merkkien esittämisen 8-bittisissä tekstitiedostoissa - Puolan ja Tšekin kielten latinalaiset kirjaimet, kyrilliset (mukaan lukien venäläiset kirjaimet) ja muut aakkoset.

Kaikissa laajalle levinneissä koodauksissa ensimmäiset 127 merkkiä (eli tavun arvo, jonka kahdeksas bitti on yhtä suuri kuin 0) ovat samat kuin ASCII. Joten ASCII-tiedosto toimii jommassakummassa näistä koodauksista; Englannin kielen kirjaimet esitetään samalla tavalla.

Organisaatio ISO(International Standardization Organisation) hyväksyi ryhmän standardeja ISO 8859. Se määrittelee 8-bittiset koodaukset eri kieliryhmille. Joten ISO 8859-1 on laajennettu ASCII-taulukko Yhdysvaltoihin ja Länsi-Eurooppaan. Ja ISO 8859-5 on taulukko kyrillisille aakkosille (mukaan lukien venäjä).

Historiallisista syistä ISO 8859-5 -koodaus ei kuitenkaan juurtunut. Todellisuudessa venäjän kielelle käytetään seuraavia koodauksia:

Koodisivu 866 ( CP866), eli "DOS", eli "vaihtoehtoinen GOST-koodaus". Käytettiin laajasti 90-luvun puoliväliin asti; nyt käytössä rajoitetusti. Käytännössä ei käytetä tekstien jakamiseen Internetissä.
- KOI-8. Kehitetty 70-80-luvulla. Se on yleisesti hyväksytty standardi sähköpostiviestien lähettämiseen Venäjän Internetissä. Sitä käytetään myös laajasti Unix-perheen käyttöjärjestelmissä, mukaan lukien Linux. Venäjälle suunniteltu KOI-8-versio on ns KOI-8R; Muille kyrillisille kielille on versioita (esimerkiksi KOI8-U on ukrainan kielen versio).
- Koodisivu 1251, CP1251,Windows-1251. Microsoftin kehittämä tukemaan venäjän kieltä Windowsissa.

CP866:n tärkein etu oli pseudografisten merkkien säilyminen samoissa paikoissa kuin Extended ASCII:ssa; siksi ulkomaiset tekstiohjelmat, esimerkiksi kuuluisa Norton Commander, voisivat toimia ilman muutoksia. CP866:ta käytetään nyt Windows-ohjelmissa, jotka toimivat tekstiikkunoissa tai koko näytön tekstitilassa, mukaan lukien FAR Manager.

CP866:n tekstit ovat olleet melko harvinaisia viime vuosina (mutta sitä käytetään koodaamaan venäläisiä tiedostonimiä Windowsissa). Siksi viivyttelemme tarkemmin kahdessa muussa koodauksessa - KOI-8R ja CP1251.

Kuten näette, CP1251-koodaustaulukossa venäläiset kirjaimet on järjestetty aakkosjärjestykseen (poikkeuksena kuitenkin E-kirjain). Tämän järjestelyn ansiosta tietokoneohjelmien on erittäin helppo lajitella aakkosjärjestykseen.

Mutta KOI-8R:ssä venäläisten kirjainten järjestys näyttää sattumanvaraiselta. Mutta itse asiassa se ei ole.

Monissa vanhemmissa ohjelmissa 8. bitti katosi tekstiä käsiteltäessä tai lähetettäessä. (Nyt tällaiset ohjelmat ovat käytännössä "kuonneet sukupuuttoon", mutta 80-luvun lopulla - 90-luvun alussa ne olivat yleisiä). Jos haluat saada 7-bittisen arvon 8-bittisestä arvosta, vähennä vain 8 merkittävimmästä numerosta. esimerkiksi E1:stä tulee 61.

Vertaa nyt KOI-8R:ää ASCII-taulukkoon (taulukko 1). Tulet huomaamaan, että venäläiset kirjaimet on sijoitettu selkeään vastaavuuteen latinalaisten kanssa. Jos kahdeksas bitti katoaa, pienet venäläiset kirjaimet muuttuvat isoiksi latinalaisiksi kirjaimille ja isot venäläiset kirjaimet pieniksi latinalaisiksi. Joten KOI-8:ssa E1 on venäläinen "A", kun taas 61 ASCII:ssa on latinalainen "a".

Joten KOI-8 antaa sinun säilyttää venäläisen tekstin luettavuuden, kun 8. bitti katoaa. "Hei kaikille" muuttuu "pRIWET WSEM".

Viime aikoina sekä koodaustaulukon merkkien aakkosjärjestys että luettavuus 8. bitin häviämisen myötä ovat menettäneet ratkaisevan merkityksensä. Nykyaikaisten tietokoneiden kahdeksas bitti ei häviä lähetyksen tai käsittelyn aikana. Ja aakkosellinen lajittelu tehdään koodaus huomioon ottaen, ei pelkästään koodeja vertaamalla. (Muuten, CP1251-koodit eivät ole täysin aakkosjärjestyksessä - E-kirjain ei ole paikallaan).

Koska on olemassa kaksi yleistä koodausta, Internetin kanssa työskennellessäsi (posti, Web-sivustoja selatessasi) voit joskus nähdä merkityksettömän joukon kirjaimia venäjän tekstin sijaan. Esimerkiksi "MINÄ OLEN SBYUFEMHEL." Nämä ovat vain sanoja "kunnioituksella"; mutta ne koodattiin CP1251-koodauksella, ja tietokone pursi tekstin KOI-8-taulukon avulla. Jos samat sanat päinvastoin koodattaisiin KOI-8:aan ja tietokone dekoodaisi tekstin CP1251-taulukon mukaisesti, tulos olisi "U HCHBTSEOYEN".

Joskus käy niin, että tietokone purkaa venäjänkieliset kirjaimet taulukolla, jota ei ole tarkoitettu venäjän kielelle. Sitten venäläisten kirjainten sijasta ilmestyy merkityksetön symbolijoukko (esimerkiksi Itä-Euroopan kielten latinalaiset kirjaimet); niitä kutsutaan usein "crocozybriksi".

Useimmissa tapauksissa nykyaikaiset ohjelmat selviävät Internet-asiakirjojen (sähköpostien ja Web-sivujen) koodausten määrittämisestä itsenäisesti. Mutta joskus ne "sytytyshäiriö", ja sitten voit nähdä outoja venäläisiä kirjaimia tai "krokozyabry". Yleensä tällaisessa tilanteessa oikean tekstin näyttämiseksi näytöllä riittää, että valitset koodauksen manuaalisesti ohjelmavalikosta.

Tässä artikkelissa käytettiin tietoja sivulta http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Sivustolta otettu materiaali:

Lisää tästä aiheesta:

Lataa Driver Sweeper – ohjelma ajurien poistamiseen käyttöjärjestelmästä Windows Lataa ohjelma kortin ajurien poistamiseen

Heittää Sniper Elite V2:n työpöydälle Mitä tehdä, jos sniper elite 3 viivästyy

Etsitään vastaavaa kuvaa Internetistä

Muut artikkelit:

Tehokkaimmat älypuhelimet Top 10 tehokkain puhelin Nykytekniikan avulla on mahdollista sovittaa teho ja suorituskyky tavalliseen älypuhelimeen...

Kuinka poistaa sivu ja tili maailmastani Sattuu niin, että henkilö rekisteröitymisen jälkeen ymmärtää, että tämä sosiaalinen verkosto ei ole häntä varten ja haluaa...

Kuinka poistaa Avast tietokoneeltasi, jos sitä ei voida poistaa Nyt tarkastelemme kuinka poistaa Avast niin, että virustorjuntaohjelman poistamisen jälkeen tietokone ei...

Nokia Lumian yhdistäminen tietokoneeseen Ensimmäistä kertaa artikkelit ja Lifehacks voivat tuottaa pettymyksen kaikille, jotka ovat äskettäin ostaneet tämän matkapuhelimen...