Latinalaisen kirjaimen koodit. ASCII-koodaus (amerikkalainen standardikoodi tiedonvaihtoon) - latinalaisten aakkosten perustekstikoodaus

Kuten tiedät, tietokone tallentaa tiedot binäärimuodossa esittäen sen ykkösten ja nollien sarjana. Tietojen muuntamiseksi ihmiselle sopivaan muotoon jokainen yksilöllinen numerosarja korvataan sitä vastaavalla symbolilla, kun se näytetään.

Yksi järjestelmistä binäärikoodien korreloimiseksi painettujen ja ohjausmerkkien kanssa on

Tietotekniikan nykyisellä kehitystasolla käyttäjän ei tarvitse tietää jokaisen tietyn merkin koodia. Yleinen ymmärrys koodauksen suorittamisesta on kuitenkin erittäin hyödyllistä ja joillekin asiantuntijaryhmille jopa välttämätöntä.

Luodaan ASCII

Koodaus kehitettiin alun perin vuonna 1963 ja päivitettiin sitten kahdesti 25 vuoden aikana.

Alkuperäisessä versiossa ASCII-merkkitaulukko sisälsi 128 merkkiä. Myöhemmin ilmestyi laajennettu versio, jossa ensimmäiset 128 merkkiä tallennettiin ja aiemmin puuttuvat merkit määritettiin koodeihin, joissa oli mukana kahdeksas bitti.

Tämä koodaus oli useiden vuosien ajan suosituin maailmassa. Vuonna 2006 Latin 1252 otti johtavan aseman, ja vuoden 2007 lopusta tähän päivään Unicode on pitänyt johtoasemaa vakaasti.

ASCII:n tietokoneesitys

Jokaisella ASCII-merkillä on oma koodinsa, joka koostuu kahdeksasta merkistä, jotka edustavat nollaa tai ykköstä. Pienin luku tässä esityksessä on nolla (kahdeksan nollaa binäärijärjestelmässä), joka on taulukon ensimmäisen elementin koodi.

Taulukon kaksi koodia on varattu vaihtamiseen standardin US-ASCII ja sen kansallisen muunnelman välillä.

Kun ASCII alkoi sisältää 128, vaan 256 merkkiä, yleistyi koodausmuunnos, jossa taulukon alkuperäinen versio tallennettiin ensimmäisiin 128 koodiin 8. bitin nollalla. Taulukon yläosaan (paikat 128-255) tallennettiin kansalliset kirjoitetut merkit.

Käyttäjän ei tarvitse tietää ASCII-merkkikoodeja suoraan. Ohjelmistokehittäjän tarvitsee yleensä tietää vain taulukon elementtinumero laskeakseen koodinsa tarvittaessa binäärijärjestelmän avulla.

Venäjän kieli

Skandinaavisten kielten, kiinan, korean, kreikan jne. koodausten kehittämisen jälkeen 70-luvun alussa Neuvostoliitto aloitti oman versionsa luomisen. Pian kehitettiin 8-bittisen koodauksen versio nimeltä KOI8, joka säilytti ensimmäiset 128 ASCII-merkkikoodia ja varasi saman määrän paikkoja kansallisten aakkosten kirjaimille ja lisämerkeille.

Ennen Unicoden käyttöönottoa KOI8 hallitsi Internetin venäläistä segmenttiä. Koodausvaihtoehtoja oli sekä venäjän että ukrainan aakkosille.

ASCII-ongelmia

Koska elementtien määrä ei edes laajennetussa taulukossa ylittänyt 256:ta, ei ollut mahdollista majoittaa useita eri skriptejä samaan koodaukseen. 90-luvulla "crocozyabr" -ongelma ilmestyi Runetissa, kun venäläisillä ASCII-merkeillä kirjoitetut tekstit näytettiin väärin.

Ongelmana oli, että eri ASCII-koodit eivät vastanneet toisiaan. Muistakaamme, että paikoille 128-255 saattoi sijoittaa erilaisia merkkejä, ja kun kyrillistä koodausta vaihdettiin toiseen, tekstin kaikki kirjaimet korvattiin muilla, joilla oli sama numero eri koodausversiossa.

Nykyinen tila

Unicoden myötä ASCII:n suosio alkoi laskea jyrkästi.

Syynä tähän on se, että uusi koodaus mahdollisti lähes kaikkien kirjoituskielten merkit. Tässä tapauksessa ensimmäiset 128 ASCII-merkkiä vastaavat samoja Unicode-merkkejä.

Vuonna 2000 ASCII oli Internetin suosituin koodaus, ja sitä käytettiin 60 prosentissa Googlen indeksoimista verkkosivuista. Vuoteen 2012 mennessä tällaisten sivujen osuus oli pudonnut 17 prosenttiin, ja Unicode (UTF-8) nousi suosituimman koodauksen tilalle.

ASCII on siis tärkeä osa tietotekniikan historiaa, mutta sen käyttö tulevaisuudessa näyttää lupaamattomalta.

Jotta ASCII:ta voisi käyttää oikein, on tarpeen laajentaa tietämystäsi tällä alueella ja koodausominaisuuksista.

Mikä se on?

ASCII on koodaustaulukko painetuista merkeistä (katso kuvakaappaus nro 1), jotka on kirjoitettu tietokoneen näppäimistöllä tiedon ja joidenkin koodien välittämiseksi. Toisin sanoen aakkoset ja desimaaliluvut on koodattu vastaaviksi symboleiksi, jotka edustavat ja kuljettavat tarvittavaa tietoa.

ASCII on kehitetty Amerikassa, joten vakiomerkkisarja sisältää yleensä englanninkieliset aakkoset numeroineen, yhteensä noin 128 merkkiä. Mutta sitten herää oikeudenmukainen kysymys: mitä tehdä, jos vaaditaan kansallisten aakkosten koodaus?

Muita ASCII-taulukon versioita on kehitetty vastaavien ongelmien ratkaisemiseksi. Esimerkiksi kielille, joilla on vieras rakenne, englannin aakkosten kirjaimet joko poistettiin tai niihin lisättiin lisämerkkejä kansallisten aakkosten muodossa. Siten ASCII-koodaus voi sisältää venäläisiä kirjaimia kansalliseen käyttöön (katso kuvakaappaus nro 2).

Missä ASCII-koodausjärjestelmää käytetään?

Tätä koodausjärjestelmää tarvitaan paitsi tekstitietojen kirjoittamiseen näppäimistöllä. Sitä käytetään myös grafiikassa. Esimerkiksi ASCII Art Maker -ohjelmassa eri laajennusten graafiset kuvat koostuvat ASCII-merkistä (katso kuvakaappaus nro 3).

Yleensä tällaiset ohjelmat voidaan jakaa sellaisiin, jotka suorittavat graafisten muokkausohjelmien toiminnon, kääntävät kuvan tekstiksi, ja niihin, jotka muuntavat kuvan ASCII-grafiikaksi. Tunnettu hymiö (tai kuten sitä kutsutaan myös " hymyilevät ihmisen kasvot") on myös esimerkki koodausmerkistä.

Tätä koodausmenetelmää voidaan käyttää myös kirjoitettaessa tai luotaessa HTML-dokumenttia. Syötät esimerkiksi tietyn ja tarpeellisen merkkisarjan, ja kun tarkastelet itse sivua, tätä koodia vastaava symboli näkyy näytöllä.

Muun muassa tämän tyyppinen koodaus on tarpeen monikielistä verkkosivustoa luotaessa, koska merkit, jotka eivät sisälly yhteen tai toiseen kansalliseen taulukkoon, on korvattava ASCII-koodeilla. Jos lukija on suoraan yhteydessä tieto- ja viestintätekniikoihin (ICT), hänen on hyödyllistä tutustua sellaisiin järjestelmiin kuin:

Kannettava merkistö;
Ohjausmerkit;
EBCDIC;
VISCII;
YUSCII;
Unicode;
ASCII-taide;
KOI-8.

ASCII-taulukon ominaisuudet

Kuten kaikilla systemaattisilla ohjelmilla, ASCII:lla on omat ominaispiirteensä. Joten esimerkiksi desimaalilukujärjestelmä (numerot 0 - 9) muunnetaan binäärilukujärjestelmäksi (eli jokainen desimaaliluku muunnetaan vastaavasti binääriluvuksi 288 = 1001000).

Ylä- ja alasarakkeessa olevat kirjaimet eroavat toisistaan vain vähän, mikä vähentää merkittävästi tapauksen tarkistamisen ja muokkaamisen monimutkaisuutta.

Kaikilla näillä ominaisuuksilla ASCII-koodaus toimii kahdeksanbittisenä, vaikka se oli alun perin tarkoitettu seitsenbittiseksi.

ASCII:n käyttö Microsoft Office -ohjelmissa:

Tarvittaessa tätä tietojen koodausvaihtoehtoa voidaan käyttää Microsoft Notepadissa ja Microsoft Office Wordissa. Näissä sovelluksissa asiakirja voidaan tallentaa ASCII-muodossa, mutta tässä tapauksessa et voi käyttää kaikkia toimintoja tekstiä kirjoitettaessa.

Erityisesti lihavointi ja lihavointi eivät ole käytettävissä, koska koodaus säilyttää vain kirjoitetun tiedon merkityksen, ei yleistä ulkoasua ja muotoa. Voit lisätä tällaisia koodeja asiakirjaan käyttämällä seuraavia ohjelmistosovelluksia:

Microsoft Excel;
Microsoft FrontPage;
Microsoft InfoPath;
Microsoft OneNote;
Microsoft Outlook;
Microsoft PowerPoint;
Microsoft Project.

On syytä harkita, että kun kirjoitat ASCII-koodia näissä sovelluksissa, sinun on pidettävä ALT-näppäintä painettuna.

Tietenkin kaikki tarvittavat koodit vaativat pidemmän ja yksityiskohtaisemman tutkimuksen, mutta tämä ei kuulu tämän päivän artikkelimme soveltamisalaan. Toivottavasti pidit siitä todella hyödyllisenä.

Nähdään taas!

Hyvä huono

Kansainvälisen televiestintäliiton mukaan vuonna 2016 kolme ja puoli miljardia ihmistä käytti Internetiä jonkin verran säännöllisesti. Useimmat heistä eivät edes ajattele sitä tosiasiaa, että kaikki viestit, jotka he lähettävät PC:n tai mobiililaitteiden kautta, sekä tekstit, jotka näkyvät kaikenlaisissa näytöissä, ovat itse asiassa 0:n ja 1:n yhdistelmiä. Tätä tiedon esitystapaa kutsutaan koodaukseksi. . Se varmistaa ja helpottaa suuresti sen varastointia, käsittelyä ja siirtoa. Vuonna 1963 kehitettiin amerikkalainen ASCII-koodaus, joka on tämän artikkelin aihe.

Tietojen esittäminen tietokoneella

Minkä tahansa elektronisen tietokoneen näkökulmasta teksti on joukko yksittäisiä merkkejä. Nämä eivät sisällä vain kirjaimia, mukaan lukien isot kirjaimet, vaan myös välimerkit ja numerot. Lisäksi käytetään erikoismerkkejä "=", "&", "(" ja välilyöntejä.

Tekstin muodostavaa merkkijoukkoa kutsutaan aakkosiksi, ja niiden lukumäärää kutsutaan kardinaaliudeksi (merkitty numerolla N). Sen määrittämiseksi käytetään lauseketta N = 2^b, jossa b on tietyn symbolin bittien lukumäärä tai informaation paino.

On todistettu, että aakkoset, joiden kapasiteetti on 256 merkkiä, voivat edustaa kaikkia tarvittavia merkkejä.

Koska 256 edustaa kahden kahdeksatta potenssia, kunkin merkin paino on 8 bittiä.

8 bitin mittayksikköä kutsutaan 1 tavuksi, joten on tapana sanoa, että mikä tahansa tietokoneelle tallennetun tekstin merkki vie yhden tavun muistia.

Miten koodaus tehdään?

Kaikki tekstit syötetään henkilökohtaisen tietokoneen muistiin näppäimistön näppäimillä, joihin kirjoitetaan numerot, kirjaimet, välimerkit ja muut symbolit. Ne siirretään RAM:iin binäärikoodina, eli jokainen merkki liittyy ihmisille tuttuihin desimaalikoodiin 0-255, joka vastaa binaarikoodia - 00000000 - 11111111.

Tavutavuinen merkkikoodaus mahdollistaa tekstinkäsittelyä suorittavan prosessorin pääsyn jokaiseen merkkiin erikseen. Samaan aikaan 256 merkkiä riittää edustamaan mitä tahansa symbolista tietoa.

ASCII-merkkikoodaus

Tämä lyhenne englanniksi tarkoittaa koodia tiedonvaihdolle.

Jo tietokoneistumisen kynnyksellä kävi selväksi, että oli mahdollista keksiä monia erilaisia tapoja koodata tietoa. Tietojen siirtämiseksi tietokoneesta toiseen oli kuitenkin tarpeen kehittää yhtenäinen standardi. Joten vuonna 1963 ASCII-koodaustaulukko ilmestyi Yhdysvalloissa. Siinä mikä tahansa tietokoneen aakkosten symboli liittyy sen sarjanumeroon binäärimuodossa. ASCII:ta käytettiin alun perin vain Yhdysvalloissa, ja siitä tuli myöhemmin kansainvälinen PC-standardi.

ASCII-koodit on jaettu kahteen osaan. Vain tämän taulukon ensimmäistä puoliskoa pidetään kansainvälisenä standardina. Se sisältää merkkejä, joiden sarjanumerot ovat 0 (koodattu 00000000) - 127 (koodattu 01111111).

Sarjanumero	ASCII-tekstin koodaus	Symboli
	0000 0000 - 0001 1111	Merkkejä, joiden N on 0-31, kutsutaan ohjausmerkeiksi. Niiden tehtävänä on "hallita" tekstin näyttämistä näytöllä tai tulostuslaitteella, äänimerkin antamista jne.
	0010 0000 - 0111 1111	Merkit N 32 - 127 (taulukon vakioosa) - latinalaisten aakkosten isot ja pienet kirjaimet, 10. numerot, välimerkit sekä erilaiset sulut, kaupalliset ja muut symbolit. Merkki 32 edustaa välilyöntiä.
	1000 0000 - 1111 1111	Merkkeillä, joiden N on 128-255 (taulukon tai koodisivun vaihtoehtoinen osa), voi olla erilaisia muunnelmia, joista jokaisella on oma numeronsa. Koodisivulla määritellään latinalaisista poikkeavat kansalliset aakkoset. Erityisesti sen avulla suoritetaan venäläisten merkkien ASCII-koodaus.

Taulukossa koodaukset ovat isoilla kirjaimilla ja seuraavat toisiaan aakkosjärjestyksessä, ja numerot ovat nousevassa järjestyksessä. Tämä periaate pysyy samana venäjän aakkosissa.

Ohjaushahmot

ASCII-koodaustaulukko luotiin alun perin tiedon vastaanottamiseen ja lähettämiseen pitkään käyttämättömän laitteen, kuten teletypen, kautta. Tältä osin merkistössä on mukana ei-tulostettavia merkkejä, joita käytettiin komentoina tämän laitteen ohjaamiseen. Samanlaisia komentoja käytettiin sellaisissa tietokonetta edeltävissä viestintämenetelmissä kuin morsekoodi jne.

Yleisin teletype-merkki on NUL (00). Sitä käytetään edelleen useimmissa ohjelmointikielissä osoittamaan rivin loppua.

Missä ASCII-koodausta käytetään?

Amerikkalaista standardikoodia tarvitaan paitsi tekstitietojen syöttämiseen näppäimistöllä. Sitä käytetään myös grafiikassa. Erityisesti ASCII Art Makerissa eri laajennusten kuvat edustavat ASCII-merkkien kirjoa.

Tällaisia tuotteita on kahdenlaisia: ne, jotka suorittavat graafisten muokkausohjelmien toimintoa muuntamalla kuvat tekstiksi, ja ne, jotka muuntavat "piirustukset" ASCII-grafiikaksi. Esimerkiksi kuuluisa hymiö on erinomainen esimerkki koodaussymbolista.

ASCII:ta voidaan käyttää myös luotaessa HTML-dokumenttia. Tässä tapauksessa voit syöttää tietyn merkkijoukon, ja sivua katsellessasi näytölle tulee tätä koodia vastaava symboli.

ASCII on tarpeen myös monikielisten verkkosivustojen luomiseen, koska merkit, jotka eivät sisälly tiettyyn kansalliseen taulukkoon, korvataan ASCII-koodeilla.

Jotkut ominaisuudet

ASCII:ta käytettiin alun perin tekstitietojen koodaamiseen 7 bitin avulla (yksi jätettiin tyhjäksi), mutta nykyään se toimii 8 bittinä.

Ylä- ja alapuolella olevissa sarakkeissa sijaitsevat kirjaimet eroavat toisistaan vain yhdellä bitillä. Tämä vähentää merkittävästi tarkastuksen monimutkaisuutta.

ASCII:n käyttö Microsoft Officessa

Tarvittaessa tämän tyyppistä tekstitietojen koodausta voidaan käyttää Microsoftin tekstieditoreissa, kuten Muistiossa ja Office Wordissa. Et kuitenkaan ehkä voi käyttää kaikkia toimintoja kirjoittaessasi tässä tapauksessa. Et esimerkiksi voi käyttää lihavoitua tekstiä, koska ASCII-koodaus säilyttää vain tiedon merkityksen jättäen huomioimatta sen yleisen ulkoasun ja muodon.

Standardointi

ISO-organisaatio on ottanut käyttöön ISO 8859 -standardit. Tämä ryhmä määrittelee kahdeksanbittiset koodaukset eri kieliryhmille. Erityisesti ISO 8859-1 on laajennettu ASCII-taulukko Yhdysvaltoihin ja Länsi-Euroopan maihin. Ja ISO 8859-5 on taulukko, jota käytetään kyrillisille aakkosille, mukaan lukien venäjän kieli.

Useista historiallisista syistä ISO 8859-5 -standardia käytettiin hyvin lyhyen aikaa.

Venäjän kielellä käytetään tällä hetkellä itse asiassa seuraavia koodauksia:

CP866 (koodisivu 866) tai DOS, jota usein kutsutaan vaihtoehtoiseksi GOST-koodaukseksi. Sitä käytettiin aktiivisesti viime vuosisadan 90-luvun puoliväliin asti. Tällä hetkellä sitä ei käytännössä käytetä.
KOI-8. Koodaus kehitettiin 1970- ja 80-luvuilla, ja se on tällä hetkellä yleisesti hyväksytty standardi sähköpostiviesteille RuNetissä. Sitä käytetään laajalti Unix-käyttöjärjestelmissä, mukaan lukien Linux. KOI-8:n "venäläinen" versio on nimeltään KOI-8R. Lisäksi on olemassa versioita muille kyrillisille kielille, kuten ukraina.
Koodisivu 1251 (CP 1251, Windows - 1251). Microsoftin kehittämä tukemaan venäjän kieltä Windows-ympäristössä.

Ensimmäisen CP866-standardin tärkein etu oli pseudografisten merkkien säilyttäminen samoissa paikoissa kuin Extended ASCII:ssa. Tämä mahdollisti ulkomaisten tekstiohjelmien, kuten kuuluisan Norton Commanderin, suorittamisen ilman muutoksia. Tällä hetkellä CP866:ta käytetään Windowsille kehitetyissä ohjelmissa, jotka toimivat koko näytön tekstitilassa tai tekstiikkunoissa, mukaan lukien FAR Manager.

CP866-koodauksella kirjoitetut tietokonetekstit ovat nykyään melko harvinaisia, mutta sitä käytetään Windowsissa venäläisten tiedostonimien kohdalla.

"Unicode"

Tällä hetkellä tämä koodaus on laajimmin käytetty. Unicode-koodit on jaettu alueisiin. Ensimmäinen (U+0000 - U+007F) sisältää ASCII-merkkejä koodeineen. Tämän jälkeen tulevat eri kansallisten kirjoitusten merkkialueet sekä välimerkit ja tekniset symbolit. Lisäksi joitain Unicode-koodeja on varattu siltä varalta, että tulevaisuudessa tarvitaan uusia merkkejä.

Nyt tiedät, että ASCII:ssä jokainen merkki esitetään 8 nollan ja ykkösen yhdistelmänä. Ei-asiantuntijoille nämä tiedot voivat tuntua tarpeettomilta ja epäkiinnostavilta, mutta etkö halua tietää, mitä tietokoneesi "aivoissa" tapahtuu?!

Jokaisella tietokoneella on omat merkit, jotka se toteuttaa. Tämä sarja sisältää 26 isoa ja pientä kirjainta, numeroa ja erikoismerkkejä (piste, välilyönti jne.). Kun symboleja muunnetaan kokonaisluvuiksi, niitä kutsutaan koodeiksi. Standardit kehitettiin niin, että tietokoneilla olisi samat koodisarjat.

ASCII-standardi

ASCII (American Standard Code for Information Interchange) on amerikkalainen standardikoodi tiedonvaihtoon. Jokaisessa ASCII-merkissä on 7 bittiä, joten merkkien enimmäismäärä on 128 (taulukko 1). Koodit 0–1F ovat ohjausmerkkejä, eikä niitä tulosteta. Tiedon siirtämiseen tarvitaan monia ei-tulostettavia ASCII-merkkejä. Viesti voi koostua esimerkiksi otsikon aloitusmerkistä SOH, itse otsikosta ja tekstin alun merkistä STX, itse tekstistä ja tekstin lopun merkistä ETX sekä lähetyksen lopusta. hahmo EOT. Tieto verkon yli kuitenkin välitetään paketteina, jotka itse vastaavat lähetyksen alkamisesta ja lopusta. Joten ei-tulostettavia merkkejä ei käytetä melkein koskaan.

Taulukko 1 - ASCII-kooditaulukko

Määrä	Tiimi	Merkitys	Määrä	Tiimi	Merkitys
0	NUL	Nolla-osoitin	10	DLE	Poistu siirtojärjestelmästä
1	SOH	otsikon alku	11	DC1	Laitehallinta
2	STX	Tekstin alku	12	DC2	Laitehallinta
3	ETX	Tekstin loppu	13	DC3	Laitehallinta
4	EOT	Lähetyksen loppu	14	DC4	Laitehallinta
5	ACK	Pyyntö	15	N.A.K.	Vastaanoton vahvistamatta jättäminen
6	BEL	Hyväksymisen vahvistus	16	SYN	Yksinkertainen
7	B.S.	Kellon symboli	17	ETB	Lähetyslohkon loppu
8	HT	Astu taaksepäin	18	VOI	Mark
9	LF	Vaakataulukko	19	E.M.	Median loppu
A	VT	Rivikäännös	1A	SUB	Alaindeksi
B	FF	Pysty välilehti	1B	POISTU	Poistu
C	CR	Sivun käännös	1C	FS	Tiedoston erotin
D	NIIN	Vaunun palautus	1D	G.S.	Ryhmäerotin
E	SI.	Vaihda lisärekisteriin	1E	R.S.	Tietueen erotin
	SI.	Vaihda vakiokoteloon	1F	MEILLE	Moduulien erotin

Määrä	Symboli	Määrä	Symboli	Määrä	Symboli	Määrä	Symboli	Määrä	Symboli	Määrä	Symboli
20	tilaa	30	0	40	@	50	P	60	.	70	s
21	!	31	1	41	A	51	K	61	a	71	q
22	‘	32	2	42	B	52	R	62	b	72	r
23	#	33	3	43	C	53	S	63	c	73	s
24	φ	34	4	44	D	54	T	64	d	74	t
25	%	35	5	45	E	55	JA	65	e	75	Ja
26	&	36	6	46	F	56	V	66	f	76	v
27	‘	37	7	47	G	57	W	67	g	77	w
28	(	38	8	48	H	58	X	68	h	78	x
29	)	39	9	49	minä	59	Y	69	i	70	y
2A	‘	3A	;	4A	J	5A	Z	6A	j	7A	z
2B	+	3B	;	4B	K	5B	[	6B	k	7B	{
2C	‘	3C	<	4C	L	5C	\	6C	l	7C	\|
2D	—	3D	=	4D	M	5D	]	6D	m	7D	}
2E		3E	>	4E	N	5E	—	6E	n	7E	~
2F	/	3F	g	4F	O	5F	_	6F	o	7F	DEL

Unicode standardi

Edellinen koodaus on hyvä englannin kielelle, mutta se ei ole kätevä muille kielille. Esimerkiksi saksassa on umlautit ja ranskassa yläindeksit. Joillakin kielillä on täysin erilaiset aakkoset. Ensimmäinen yritys laajentaa ASCII:ta oli IS646, joka laajensi aiempaa koodausta 128 lisämerkillä. Lisättiin latinalaisia kirjaimia viivoineen ja diakriittisinä ja sai nimen - Latin 1. Seuraava yritys oli IS 8859 - joka sisälsi koodisivun. Myös pidennysyrityksiä yritettiin, mutta tämä ei ollut yleistä. UNICODE-koodaus luotiin (on 10646). Koodauksen ideana on antaa jokaiselle merkille yksi vakio 16-bittinen arvo, jota kutsutaan - koodi osoitin. Kaikkiaan osoittimia on 65536. Tilan säästämiseksi käytimme Latin-1-koodeja 0 -255, jolloin ASII vaihdettiin helposti UNICODE:ksi. Tämä standardi ratkaisi monia ongelmia, mutta ei kaikkia. Uusien sanojen saapumisen vuoksi esimerkiksi japanin kielelle on tarpeen lisätä termien määrää noin 20 tuhannella. Myös pistekirjoitus on tarpeen.

Kutsutaan merkkijoukkoa, jolla tekstiä kirjoitetaan aakkoset.

Aakkosten merkkien määrä on sen tehoa.

Kaava tiedon määrän määrittämiseksi: N = 2b,

missä N on aakkosten teho (merkkien määrä),

b – bittien lukumäärä (symbolin tietopaino).

Aakkoset, joiden kapasiteetti on 256 merkkiä, voivat sisältää melkein kaikki tarvittavat merkit. Tätä aakkosta kutsutaan riittävä.

Koska 256 = 2 8, silloin 1 merkin paino on 8 bittiä.

Mittayksikkö 8 bittiä sai nimen 1 tavu:

1 tavu = 8 bittiä.

Tietokonetekstin jokaisen merkin binäärikoodi vie 1 tavun muistia.

Miten tekstitieto esitetään tietokoneen muistissa?

Tavu-tavuisen merkkikoodauksen mukavuus on ilmeinen, koska tavu on muistin pienin osoitettavissa oleva osa ja siksi prosessori voi käyttää jokaista merkkiä erikseen käsitellessään tekstiä. Toisaalta 256 merkkiä on varsin riittävä määrä edustamaan monenlaista symbolista tietoa.

Nyt herää kysymys, mikä kahdeksanbittinen binaarikoodi kullekin merkille määritetään.

On selvää, että tämä on ehdollinen asia, voit keksiä monia koodausmenetelmiä.

Kaikki tietokoneen aakkosten merkit on numeroitu 0 - 255. Jokainen numero vastaa kahdeksan bitin binaarikoodia 00000000 - 11111111. Tämä koodi on yksinkertaisesti merkin sarjanumero binäärinumerojärjestelmässä.

Taulukkoa, jossa kaikille tietokoneen aakkosten merkeille on määritetty sarjanumerot, kutsutaan koodaustaulukoksi.

Erityyppiset tietokoneet käyttävät erilaisia koodaustaulukoita.

Taulukosta on tullut PC-tietokoneiden kansainvälinen standardi ASCII(lue aski) (American Standard Code for Information Interchange).

ASCII-kooditaulukko on jaettu kahteen osaan.

Vain taulukon ensimmäinen puolisko on kansainvälinen standardi, ts. symbolit numeroilla alkaen 0 (00000000), enintään 127 (01111111).

ASCII-koodaustaulukkorakenne

Sarjanumero	Koodi	Symboli
0 - 31	00000000 - 00011111	Symboleja, joiden numerot ovat 0-31, kutsutaan yleensä ohjaussymboleiksi. Niiden tehtävänä on ohjata tekstin näyttämistä näytöllä tai tulostamista, äänimerkin antamista, tekstin merkitsemistä jne.
32 - 127	00100000 - 01111111	Pöydän vakioosa (englanniksi). Tämä sisältää latinalaisten aakkosten pienet ja isot kirjaimet, desimaaliluvut, välimerkit, kaikenlaiset hakasulut, kaupalliset ja muut symbolit. Merkki 32 on välilyönti, ts. tyhjä paikka tekstissä. Kaikki muut heijastuvat tietyissä merkeissä.
128 - 255	10000000 - 11111111	Taulukon vaihtoehtoinen osa (venäjä). ASCII-kooditaulukon toisella puoliskolla, jota kutsutaan koodisivuksi (128 koodia alkaen 10000000 ja päättyen numeroon 11111111), voi olla erilaisia vaihtoehtoja, jokaisella vaihtoehdolla on oma numeronsa. Koodisivulla käytetään ensisijaisesti muita kansallisia aakkosia kuin latinaa. Venäjän kansallisissa koodauksissa venäläisten aakkosten merkit sijoitetaan tähän taulukon osaan.

ASCII-kooditaulukon ensimmäinen puolisko

Huomaa, että koodaustaulukossa kirjaimet (isot ja pienet) on järjestetty aakkosjärjestykseen ja numerot nousevaan järjestykseen. Tätä leksikografisen järjestyksen noudattamista symbolien järjestelyssä kutsutaan aakkosten peräkkäisen koodauksen periaatteeksi.

Venäjän aakkosten kirjaimissa noudatetaan myös peräkkäisen koodauksen periaatetta.

ASCII-kooditaulukon toinen puolisko

Valitettavasti tällä hetkellä on olemassa viisi erilaista kyrillistä koodausta (KOI8-R, Windows. MS-DOS, Macintosh ja ISO). Tästä johtuen venäläisen tekstin siirtämisessä tietokoneelta toiselle, ohjelmistojärjestelmästä toiseen syntyy usein ongelmia.

Kronologisesti yksi ensimmäisistä standardeista venäläisten kirjainten koodaukseen tietokoneissa oli KOI8 ("Information Exchange Code, 8-bit"). Tätä koodausta käytettiin jo 70-luvulla ES-tietokonesarjan tietokoneissa, ja 80-luvun puolivälistä lähtien sitä alettiin käyttää UNIX-käyttöjärjestelmän ensimmäisissä venäläistetyissä versioissa.

90-luvun alusta, MS DOS -käyttöjärjestelmän dominanssiajasta, CP866-koodaus säilyy ("CP" tarkoittaa "koodisivua", "koodisivua").

Apple-tietokoneet, joissa on Mac OS -käyttöjärjestelmä, käyttävät omaa Mac-koodausta.

Lisäksi International Standards Organization (ISO) on hyväksynyt toisen koodauksen nimeltä ISO 8859-5 venäjän kielen standardiksi.

Yleisin tällä hetkellä käytetty koodaus on Microsoft Windows, lyhenne CP1251.

90-luvun lopulta lähtien merkkikoodauksen standardointiongelma on ratkaistu ottamalla käyttöön uusi kansainvälinen standardi, ns. Unicode. Tämä on 16-bittinen koodaus, ts. se varaa 2 tavua muistia jokaiselle merkille. Tietenkin tämä lisää varatun muistin määrää 2 kertaa. Mutta tällainen kooditaulukko sallii jopa 65536 merkin sisällyttämisen. Unicode-standardin täydellinen spesifikaatio sisältää kaikki maailman olemassa olevat, sukupuuttoon kuolleet ja keinotekoisesti luodut aakkoset sekä monet matemaattiset, musiikilliset, kemialliset ja muut symbolit.

Yritetään käyttää ASCII-taulukkoa kuvitellaksesi, miltä sanat näyttävät tietokoneen muistissa.

Sanojen sisäinen esitys tietokoneen muistissa

Joskus käy niin, että toisesta tietokoneesta saatua venäläisten aakkosten kirjaimista koostuvaa tekstiä ei voida lukea - näytön näytöllä näkyy jonkinlainen "abrakadabra". Tämä johtuu siitä, että tietokoneet käyttävät venäjän kielen eri merkkikoodeja.