Big datan analytiikkamenetelmät. Mitä Big data on: Keräsimme kaikki tärkeimmät asiat big datasta. Kuinka Big Data -teknologiat auttavat kaupunkeja kehittymään

Tiedätkö tämän kuuluisan vitsin? Big Data on kuin seksiä ennen 18:aa:

  • kaikki ajattelevat sitä;
  • kaikki puhuvat siitä;
  • kaikki luulevat, että heidän ystävänsä tekevät sen;
  • melkein kukaan ei tee tätä;
  • kuka tahansa tekee sen huonosti;
  • kaikki ajattelevat, että se toimii paremmin ensi kerralla;
  • kukaan ei ryhdy turvatoimiin;
  • joku hävettää myöntää, ettei hän tiedä jotain;
  • jos joku onnistuu jossain, siitä on aina paljon melua.

Mutta olkaamme rehellisiä, minkä tahansa hypetyksen yhteydessä tulee aina esiin tavallinen uteliaisuus: minkälaista meteliä siellä on ja onko siellä jotain todella tärkeää? Lyhyesti sanottuna kyllä, on. Yksityiskohdat ovat alla. Olemme valinneet sinulle Big Data -teknologioiden hämmästyttävimmät ja mielenkiintoisimmat sovellukset. Tämä pieni markkinatutkimus selkeitä esimerkkejä käyttäen kohtaa meidät yksinkertaisen tosiasian kanssa: tulevaisuus ei tule, ei tarvitse "odota vielä n vuotta ja taikuudesta tulee totta." Ei, se on jo saapunut, mutta on silti näkymätön silmälle, ja siksi singulariteetin polttaminen ei ole vielä polttanut tiettyä kohtaa työmarkkinoilla niin paljon. Mennä.

1 Kuinka Big Data -teknologioita sovelletaan siellä, missä ne ovat syntyneet

Tietotiede sai alkunsa suuret IT-yritykset, joten niiden sisäinen tietämys tällä alueella on mielenkiintoisinta. Kampanja Google, Map Reduce -paradigman syntymäpaikka, jonka ainoa tarkoitus on kouluttaa ohjelmoijiaan koneoppimistekniikoissa. Ja tässä on heidän kilpailuetunsa: uuden tiedon hankinnan jälkeen työntekijät ottavat käyttöön uusia menetelmiä niissä Google-projekteissa, joissa he työskentelevät jatkuvasti. Kuvittele kuinka valtava on luettelo alueista, joilla kampanja voi mullistaa. Yksi esimerkki: käytetään neuroverkkoja.

Yhtiö ottaa koneoppimisen käyttöön kaikissa tuotteissaan. Sen etuna on laaja ekosysteemi, joka sisältää kaikki jokapäiväisessä elämässä käytettävät digitaaliset laitteet. Tämä antaa Applelle mahdollisuuden saavuttaa mahdoton tason: kampanjalla on enemmän käyttäjätietoja kuin millään muulla. Samalla tietosuojakäytäntö on erittäin tiukka: yhtiö on aina kehunut, ettei se käytä asiakastietoja mainostarkoituksiin. Näin ollen käyttäjätiedot on salattu niin, että Applen lakimiehet tai edes luvan saaneet FBI eivät voi lukea niitä. Täältä löydät laajan yleiskatsauksen Applen kehityksestä tekoälyn alalla.

2 Big Data 4 pyörällä

Nykyaikainen auto on tiedon tallennuslaite: se kerää kaiken tiedon kuljettajasta, ympäristöstä, kytketyistä laitteista ja itsestään. Pian tällaiseen verkkoon kytketty yksittäinen ajoneuvo tuottaa jopa 25 Gt dataa tunnissa.

Autonvalmistajat ovat käyttäneet ajoneuvojen telematiikkaa useiden vuosien ajan, mutta nyt lobbataan kehittyneemmän tiedonkeruumenetelmän puolesta, joka hyödyntää täysimääräisesti Big Dataa. Tämä tarkoittaa, että tekniikka voi nyt varoittaa kuljettajaa huonoista tieolosuhteista aktivoimalla automaattisesti lukkiutumattomat jarrut ja luistonestojärjestelmät.

Muut yritykset, mukaan lukien BMW, käyttävät Big Data -tekniikkaa yhdistettynä testattavista prototyypeistä kerättyihin tietoihin, ajoneuvon sisäisiin virhemuistijärjestelmiin ja asiakkaiden valituksiin tunnistaakseen mallin heikkouksia tuotannon varhaisessa vaiheessa. Nyt kuukausia kestävän tietojen manuaalisen arvioinnin sijaan käytetään modernia algoritmia. Virheet ja vianetsintäkustannukset pienenevät, mikä nopeuttaa BMW:n tiedon analysointityönkulkua.

Asiantuntijoiden arvioiden mukaan vuoteen 2019 mennessä yhdistettyjen autojen liikevaihto nousee 130 miljardiin dollariin. Tämä ei ole yllättävää, kun otetaan huomioon, kuinka nopeasti autovalmistajat integroivat ajoneuvoon olennaisesti kuuluvia teknologioita.

Big Datan käyttö auttaa tekemään autosta turvallisemman ja toimivamman. Siten Toyota integroimalla tietoliikennemoduulit (DCM). Tämä Big Data -työkalu käsittelee ja analysoi DCM:n keräämiä tietoja saadakseen siitä lisäarvoa.

3 Big Datan soveltaminen lääketieteessä


Big Data -teknologioiden käyttöönotto lääketieteen alalla antaa lääkäreille mahdollisuuden tutkia sairautta perusteellisemmin ja valita kullekin tapaukselle tehokkaan hoitomuodon. Tietojen analysoinnin ansiosta terveydenhuollon työntekijöiden on helpompi ennakoida pahenemisvaiheita ja ryhtyä ennaltaehkäiseviin toimenpiteisiin. Tuloksena on tarkempi diagnoosi ja paremmat hoitomenetelmät.

Uusi tekniikka antoi meille mahdollisuuden tarkastella potilaiden ongelmia eri näkökulmasta, mikä johti aiemmin tuntemattomien ongelman lähteiden löytämiseen. Esimerkiksi jotkut rodut ovat geneettisesti alttiimpia sydänsairauksille kuin muut etniset ryhmät. Nyt kun potilas valittaa tietystä sairaudesta, lääkärit ottavat huomioon tiedot hänen rotunsa jäsenistä, jotka valittivat samasta ongelmasta. Tietojen keräämisen ja analysoinnin avulla voimme oppia paljon enemmän potilaista: ruokamieltymyksistä ja elämäntavoista DNA:n geneettiseen rakenteeseen sekä solujen, kudosten ja elinten metaboliitteihin. Siten Kansas Cityssä sijaitseva Center for Children's Genomic Medicine käyttää potilaita ja analysoi syöpää aiheuttavia geneettisen koodin mutaatioita. Yksilöllinen lähestymistapa jokaiseen potilaaseen, hänen DNA:nsa huomioon ottaen, nostaa hoidon tehokkuuden laadullisesti eri tasolle.

Big Datan käytön ymmärtäminen on ensimmäinen ja erittäin tärkeä muutos lääketieteen alalla. Kun potilas on hoidossa, sairaala tai muu terveydenhuollon laitos voi saada paljon olennaista tietoa henkilöstä. Kerättyjä tietoja käytetään sairauksien uusiutumisen ennustamiseen tietyllä tarkkuudella. Esimerkiksi, jos potilas on saanut aivohalvauksen, lääkärit tutkivat tietoja aivoverenkiertohäiriön ajankohdasta, analysoivat aikaisempien ennakkotapausten välistä väliaikaa (jos sellaisia ​​on) kiinnittäen erityistä huomiota stressitilanteisiin ja raskaaseen fyysiseen rasitukseen potilaan elämässä. Näiden tietojen perusteella sairaalat laativat potilaalle selkeän toimintasuunnitelman aivohalvauksen estämiseksi tulevaisuudessa.

Myös puettavat laitteet auttavat tunnistamaan terveysongelmia, vaikka henkilöllä ei olisi selviä oireita tietystä sairaudesta. Sen sijaan, että lääkäri arvioi potilaan tilaa pitkän tutkimusjakson kautta, hän voi tehdä johtopäätöksiä kuntoseurantalaitteen tai älykellon keräämien tietojen perusteella.

Yksi viimeisimmistä esimerkeistä on . Kun miehellä tutkittiin uutta lääkkeen väliin jääneen kohtauksen varalta, lääkärit havaitsivat, että miehellä oli paljon vakavampi terveysongelma. Tämä ongelma osoittautui eteisvärinäksi. Diagnoosi tehtiin sen ansiosta, että osaston henkilökunta pääsi käsiksi potilaan puhelimeen, eli hänen kuntoseurantaansa liittyvään sovellukseen. Hakemuksen tiedot osoittautuivat avaintekijäksi diagnoosin määrittämisessä, koska miehellä ei tutkimushetkellä havaittu sydämen poikkeavuuksia.

Tämä on vain yksi harvoista tapauksista, jotka näkyvät miksi käyttää big dataa on niin merkittävä rooli lääketieteen alalla nykyään.

4 Tietojen analysoinnista on jo tullut vähittäiskaupan ydin

Käyttäjien kyselyjen ja kohdistuksen ymmärtäminen on yksi suurimmista ja julkisuudellisimmista Big Data -työkalujen sovellusalueista. Big Data auttaa analysoimaan asiakkaiden tottumuksia, jotta voidaan ymmärtää paremmin kuluttajien tarpeita tulevaisuudessa. Yritykset pyrkivät laajentamaan perinteistä tietojoukkoa sosiaalisten verkostojen tiedoilla ja selaimen hakuhistorialla luodakseen mahdollisimman täydellisen asiakaskuvan. Joskus suuret organisaatiot päättävät luoda oman ennustemallinsa globaaliksi tavoitteeksi.

Esimerkiksi Target-myymäläketju onnistuu syvällisen data-analyysin ja oman ennustejärjestelmän avulla määrittämään suurella tarkkuudella - . Jokaiselle asiakkaalle annetaan tunnus, joka puolestaan ​​on linkitetty luottokorttiin, nimeen tai sähköpostiosoitteeseen. Tunniste toimii eräänlaisena ostoskorina, johon tallennetaan tietoa kaikesta, mitä henkilö on koskaan ostanut. Verkoston asiantuntijat ovat havainneet, että raskaana olevat naiset ostavat aktiivisesti hajusteettomia tuotteita ennen raskauden toista kolmannesta, ja ensimmäisten 20 viikon aikana he käyttävät kalsium-, sinkki- ja magnesiumlisäravinteita. Saatujen tietojen perusteella Target lähettää asiakkaille kuponkeja vauvantuotteisiin. Lasten tavaroiden alennukset "laimennetaan" muiden tuotteiden kuponkeilla, jotta pinnasängyn tai vaippojen ostotarjoukset eivät näytä liian häiritseviltä.

Jopa ministeriöt ovat löytäneet tavan käyttää Big Data -tekniikoita vaalikampanjoiden optimointiin. Jotkut uskovat, että Barack Obaman voitto vuoden 2012 Yhdysvaltain presidentinvaaleissa johtui hänen analyytikkotiiminsä erinomaisesta työstä, joka käsitteli valtavia tietomääriä oikealla tavalla.

5 Big Data suojaa lakia ja järjestystä


Muutaman viime vuoden aikana lainvalvontaviranomaiset ovat kyenneet selvittämään, miten ja milloin Big Dataa käytetään. On tunnettu tosiasia, että National Security Agency käyttää Big Data -teknologioita terrori-iskujen estämiseen. Muut osastot käyttävät kehittyneitä menetelmiä pienempien rikosten estämiseksi.

Los Angelesin poliisilaitos käyttää . Hän tekee niin kutsuttua ennakoivaa poliisitoimintaa. Käyttämällä rikosilmoituksia tietyn ajanjakson aikana, algoritmi tunnistaa alueet, joilla rikollisuutta todennäköisimmin tapahtuu. Järjestelmä merkitsee tällaiset alueet kaupungin kartalle pienillä punaisilla neliöillä ja tiedot välittyvät välittömästi partioautoille.

Chicagon poliisit käyttää Big Data -tekniikoita hieman eri tavalla. Windy Cityn lainvalvontaviranomaiset tekevät samoin, mutta sen tarkoituksena on hahmotella "riskipiiri", joka koostuu ihmisistä, jotka voivat olla aseellisen hyökkäyksen uhri tai osallistuja. The New York Timesin mukaan tämä algoritmi antaa henkilölle haavoittuvuusluokituksen hänen rikoshistoriansa perusteella (pidätykset ja ampumiseen osallistuminen, rikollisryhmien jäsenyys). Järjestelmän kehittäjä kertoo, että vaikka järjestelmä tutkii henkilön rikoshistoriaa, se ei ota huomioon toissijaisia ​​tekijöitä, kuten henkilön rotua, sukupuolta, etnistä taustaa ja sijaintia.

6 Kuinka Big Data -teknologiat auttavat kaupunkeja kehittymään


Veniamin toimitusjohtaja Joao Barros näyttää kartan Wi-Fi-reitittimien seurannasta Porton linja-autoissa

Tietojen analysointia käytetään myös parantamaan useita kaupunkien ja maiden elämän näkökohtia. Voit esimerkiksi optimoida liikennevirtoja, kun tiedät tarkalleen, miten ja milloin käyttää Big Data -tekniikoita. Tätä varten autojen liikkuminen verkossa otetaan huomioon, sosiaalinen media ja säätiedot analysoidaan. Nykyään useat kaupungit ovat sitoutuneet käyttämään data-analytiikkaa yhdistääkseen liikenneinfrastruktuurin muuntyyppisten julkisten palvelujen kanssa yhdeksi kokonaisuudeksi. Tämä on "älykkään" kaupungin käsite, jossa bussit odottavat myöhäisiä junia ja liikennevalot pystyvät ennustamaan liikenneruuhkia liikenneruuhkien minimoimiseksi.

Big Data -teknologioihin perustuen Long Beachin kaupungissa on käytössä älykkäitä vesimittareita, joita käytetään laittoman kastelun pysäyttämiseen. Aiemmin niitä käytettiin kotitalouksien vedenkulutuksen vähentämiseen (enimmäistulos oli 80 %). Makean veden säästäminen on aina kiireellinen kysymys. Varsinkin kun osavaltiossa on pahin koskaan kirjattu kuivuus.

Los Angelesin liikenneministeriön edustajat ovat liittyneet Big Datan käyttäjien luetteloon. Viranomaiset valvovat liikennekameraantureilta saatujen tietojen perusteella liikennevalojen toimintaa, mikä puolestaan ​​mahdollistaa liikenteen säätelyn. Tietokoneistettu järjestelmä ohjaa noin 4 500 tuhatta liikennevaloa ympäri kaupunkia. Virallisten tietojen mukaan uusi algoritmi auttoi vähentämään ruuhkia 16 %.

7 Markkinoinnin ja myynnin edistyksen moottori


Markkinoinnin Big Data -työkalujen avulla voidaan tunnistaa, mitkä ideat ovat tehokkaimmin edistettävät tietyssä myyntisyklin vaiheessa. Data-analyysi määrittää, kuinka investoinneilla voidaan parantaa asiakassuhteen hallintaa, mitä strategiaa tulisi käyttää konversioprosentin parantamiseksi ja miten asiakkaan elinkaari optimoidaan. Pilviyrityksissä Big Data -algoritmeilla selvitetään, miten asiakashankinnan kustannuksia voidaan minimoida ja asiakkaan elinkaarta pidentää.

Hinnoittelustrategioiden eriyttäminen asiakkaan järjestelmän sisäisen tason mukaan on ehkä tärkein asia, johon Big Dataa käytetään markkinoinnin alalla. McKinsey havaitsi, että noin 75 prosenttia keskimääräisen yrityksen tuloista tulee ydintuotteista, joista 30 prosenttia on hinnoiteltu väärin. Yhden prosentin hinnannousu lisää liikevoittoa 8,7 %.

Forresterin tutkimusryhmä havaitsi, että data-analytiikan avulla markkinoijat voivat keskittyä asiakassuhteiden onnistumiseen. Asiakkaan kehityksen suuntaa tarkastelemalla asiantuntijat voivat arvioida heidän uskollisuutensa tasoa sekä pidentää elinkaarta tietyn yrityksen kontekstissa.

Myyntistrategioiden optimointi ja uusille markkinoille tulon vaiheet geoanalytiikan avulla näkyvät biolääketeollisuudessa. McKinseyn mukaan lääkkeitä valmistavat yritykset käyttävät keskimäärin 20–30 prosenttia voitoistaan ​​hallintoon ja myyntiin. Jos yritykset aktivoituvat käyttää Big Dataa Kannattavimpien ja nopeimmin kasvavien markkinoiden tunnistamiseksi kustannuksia alennetaan välittömästi.

Data-analytiikka on keino yrityksille saada täydellinen kuva liiketoimintansa keskeisistä näkökohdista. Liikevaihdon kasvattaminen, kustannusten vähentäminen ja käyttöpääoman vähentäminen ovat kolme haastetta, joita nykyaikaiset yritykset yrittävät ratkaista analyyttisten työkalujen avulla.

Lopuksi 58 % markkinointijohtajista väittää, että Big Data -teknologioiden käyttöönotto näkyy hakukoneoptimoinnissa (SEO), sähköposti- ja mobiilimarkkinoinnissa, joissa data-analyysillä on merkittävin rooli markkinointiohjelmien muodostuksessa. Ja vain 4 % vähemmän vastaajista luottaa siihen, että Big Data tulee olemaan merkittävässä roolissa kaikissa markkinointistrategioissa monien vuosien ajan.

8 Globaali data-analyysi

Yhtä utelias ei ole... On mahdollista, että koneoppiminen on lopulta ainoa voima, joka pystyy säilyttämään herkän tasapainon. Aihe ihmisen vaikutuksesta ilmaston lämpenemiseen herättää edelleen paljon kiistaa, joten vain luotettavat, suurten tietomäärien analysointiin perustuvat ennustavat mallit voivat antaa tarkan vastauksen. Loppujen lopuksi päästöjen vähentäminen auttaa meitä kaikkia: kulutamme vähemmän energiaan.

Nyt Big Data ei ole abstrakti käsite, joka saattaa löytää sovelluksensa muutaman vuoden kuluttua. Tämä on täysin toimiva teknologiasarja, joka voi olla hyödyllinen lähes kaikilla ihmisen toiminnan aloilla: lääketieteestä ja yleisestä tilauksesta markkinointiin ja myyntiin. Big Datan aktiivisen integroinnin vaihe jokapäiväiseen elämäämme on juuri alkanut, ja kuka tietää, mikä on Big Datan rooli muutaman vuoden kuluttua?

Big data - mitä se on yksinkertaisin sanoin

Vuonna 2010 alkoi näkyä ensimmäisiä yrityksiä ratkaista big datan kasvava ongelma. Julkistettiin ohjelmistotuotteita, joiden toiminnalla pyrittiin minimoimaan suuria tietomääriä käytettäessä riskejä.

Vuoteen 2011 mennessä sellaiset suuret yritykset kuin Microsoft, Oracle, EMC ja IBM kiinnostuivat big datasta - niistä tuli ensimmäisiä, jotka käyttivät Big data -kehitystä kehitysstrategioissaan ja varsin menestyksekkäästi.

Yliopistot aloittivat big datan opiskelun erillisenä aineena jo vuonna 2013 - nyt ei vain datatiede, vaan myös insinööritiede yhdistettynä laskenta-aineisiin käsittelee tämän alan ongelmia.

Tietojen analysoinnin ja käsittelyn tärkeimmät menetelmät ovat seuraavat:

  1. Luokkamenetelmät tai syväanalyysi (Data Mining).

Näitä menetelmiä on melko paljon, mutta niillä on yksi yhteinen piirre: matemaattiset työkalut, joita käytetään yhdessä tietotekniikan alan saavutusten kanssa.

  1. Joukkoistaminen.

Tämän tekniikan avulla voit saada tietoja samanaikaisesti useista lähteistä, ja jälkimmäisten määrä on käytännössä rajoittamaton.

  1. A/B-testaus.

Koko tietomäärästä valitaan elementtien ohjausjoukko, jota verrataan vuorotellen muihin vastaaviin sarjoihin, joissa yhtä elementistä on muutettu. Tällaisten testien suorittaminen auttaa määrittämään, millä parametrien vaihteluilla on suurin vaikutus kontrollipopulaatioon. Big Datan määrän ansiosta on mahdollista suorittaa valtava määrä iteraatioita, joista jokainen on lähempänä luotettavinta tulosta.

  1. Ennakoiva analytiikka.

Tämän alan asiantuntijat yrittävät ennustaa ja suunnitella etukäteen, kuinka ohjattu kohde käyttäytyy, jotta tässä tilanteessa kannattaisi tehdä kannattavin päätös.

  1. Koneoppiminen (tekoäly).

Se perustuu tiedon empiiriseen analyysiin ja sitä seuraavaan järjestelmien itseoppivien algoritmien rakentamiseen.

  1. Verkkoanalyysi.

Yleisin tapa sosiaalisten verkostojen tutkimiseen on se, että tilastotietojen hankinnan jälkeen analysoidaan ruudukkoon luodut solmut, eli yksittäisten käyttäjien ja heidän yhteisöjensä väliset vuorovaikutukset.

Big datan kehityksen näkymät ja trendit

Vuonna 2017, kun big data lakkasi olemasta jotain uutta ja tuntematonta, sen merkitys ei vain vähentynyt, vaan kasvoi entisestään. Nyt asiantuntijat lyövät vetoa siitä, että big data-analyysit tulevat paitsi jättimäisten organisaatioiden, myös pienten ja keskisuurten yritysten saataville. Tämä lähestymistapa on suunniteltu toteutettavaksi seuraavilla komponenteilla:

  • Pilvitallennus.

Tiedon tallentaminen ja käsittely ovat nopeampia ja taloudellisempia – verrattuna oman konesalin ylläpitokustannuksiin ja mahdolliseen henkilöstön laajentamiseen, pilven vuokraaminen näyttää olevan paljon halvempi vaihtoehto.

  • Tumman datan käyttäminen.

Ns. ”pimeä data” on kaikkea digitalisoimatonta tietoa yrityksestä, jolla ei ole keskeistä roolia sen suorassa käytössä, mutta joka voi toimia syynä siirtymiseen uuteen tallennusmuotoon.

  • Tekoäly ja syväoppiminen.

Ihmisaivojen rakennetta ja toimintaa jäljittelevä koneälyoppimisteknologia soveltuu erinomaisesti suurten jatkuvasti muuttuvan tiedon käsittelyyn. Tässä tapauksessa kone tekee kaiken, mitä henkilö tekisi, mutta virheiden todennäköisyys pienenee huomattavasti.

  • Lohkoketju.

Tämä tekniikka mahdollistaa lukuisten verkkotapahtumien nopeuttamisen ja yksinkertaistamisen, myös kansainväliset. Toinen Blockchainin etu on, että se pienentää transaktiokustannuksia.

  • Itsepalvelu ja alennetut hinnat.

Vuonna 2017 on tarkoitus ottaa käyttöön "itsepalvelualustoja" - nämä ovat ilmaisia ​​​​alustoja, joissa pienten ja keskisuurten yritysten edustajat voivat itsenäisesti arvioida tallentamiaan tietoja ja systematisoida niitä.

VISA-yritys käytti vastaavasti Big Dataa jäljittääkseen vilpillisiä yrityksiä suorittaa tietty toimenpide. Tämän ansiosta he säästävät vuosittain yli 2 miljardia dollaria vuodoista.

Saksan työministeriö onnistui leikkaamaan kustannuksia 10 miljardilla eurolla ottamalla käyttöön big data -järjestelmän työttömyysetuuksien myöntämiseen. Samalla paljastui, että viidesosa kansalaisista saa nämä edut ilman syytä.

Big Data ei ole säästänyt myöskään peliteollisuutta. Siksi World of Tanks -kehittäjät suorittivat tutkimuksen kaikista pelaajista ja vertasivat käytettävissä olevia indikaattoreita heidän aktiivisuudestaan. Tämä auttoi ennustamaan pelaajien mahdollista tulevaa ulosvirtausta – tehtyjen oletusten perusteella organisaation edustajat pystyivät olemaan tehokkaampia vuorovaikutuksessa käyttäjien kanssa.

Merkittäviä big dataa käyttäviä organisaatioita ovat myös HSBC, Nasdaq, Coca-Cola, Starbucks ja AT&T.

Big Data -ongelmat

Bigdatan suurin ongelma on sen käsittelykustannukset. Tämä voi sisältää sekä kalliita laitteita että palkkakustannuksia päteville asiantuntijoille, jotka pystyvät palvelemaan valtavia tietomääriä. On selvää, että laitteistoa on päivitettävä säännöllisesti, jotta se ei menetä minimitoimintoja datamäärän kasvaessa.

Toinen ongelma liittyy jälleen käsiteltävän tiedon suureen määrään. Jos esimerkiksi tutkimus ei tuota 2-3, vaan lukuisia tuloksia, on hyvin vaikeaa pysyä objektiivisena ja valita yleisestä tietovirrasta vain ne, joilla on todellinen vaikutus minkä tahansa ilmiön tilaan.

Big Datan tietosuojaongelma. Useimmat asiakaspalvelupalvelut siirtyvät verkkodatan käyttöön, joten kyberrikollisten seuraavaksi kohteeksi on erittäin helppoa tulla. Jopa pelkkä henkilötietojen tallentaminen ilman verkkotapahtumia voi olla täynnä ei-toivottuja seurauksia pilvitallennusasiakkaille.

Tietojen katoamisen ongelma. Varotoimenpiteet edellyttävät, että et rajoitu yksinkertaiseen kertaluonteiseen tietojen varmuuskopiointiin, vaan teet vähintään 2-3 tallennusvarmuuskopiota. Kuitenkin volyymin kasvaessa irtisanomisongelmat lisääntyvät - ja IT-asiantuntijat yrittävät löytää optimaalisen ratkaisun tähän ongelmaan.

Suuret datateknologiamarkkinat Venäjällä ja maailmassa

Vuodesta 2014 lähtien 40 % big datamarkkinoiden volyymista on palveluita. Liikevaihto Big Datan käytöstä atk-laitteissa on hieman (38 %) tätä indikaattoria pienempi. Loput 22 % tulee ohjelmistoista.

Globaalin segmentin hyödyllisimmät tuotteet Big Data -ongelmien ratkaisemiseen ovat tilastojen mukaan In-memory- ja NoSQL-analyyttiset alustat. Log-file-analyyttisten ohjelmistojen ja Columnar-alustojen käytössä on vastaavasti 15 ja 12 prosenttia markkinoista. Mutta Hadoop/MapReduce ei käytännössä selviä suurista dataongelmista kovin tehokkaasti.

Big data -teknologioiden käyttöönoton tulokset:

  • asiakaspalvelun laadun parantaminen;
  • toimitusketjun integroinnin optimointi;
  • organisaatiosuunnittelun optimointi;
  • vuorovaikutuksen nopeuttaminen asiakkaiden kanssa;
  • asiakkaiden pyyntöjen käsittelyn tehostaminen;
  • palvelukustannusten aleneminen;
  • asiakaspyyntöjen käsittelyn optimointi.

Parhaat kirjat Big Datasta

"The Human Face of Big Data", Rick Smolan ja Jennifer Erwitt

Soveltuu isojen tietojenkäsittelyteknologioiden alkututkimukseen - se tutustuttaa sinut helposti ja selkeästi asiaan. Tekee selväksi kuinka tiedon runsaus on vaikuttanut jokapäiväiseen elämään ja kaikkiin sen osa-alueisiin: tieteeseen, liike-elämään, lääketieteeseen jne. Sisältää lukuisia kuvia, joten se havaitaan vaivattomasti.

Pang-Ning Tanin, Michael Steinbachin ja Vipin Kumarin "Johdatus tiedon louhintaan".

Aloittelijoille on hyödyllistä myös Big Dataa käsittelevä kirja, joka selittää big datan käsittelyn periaatteen "yksinkertaisesta monimutkaiseen" mukaisesti. Käsittää monia tärkeitä asioita alkuvaiheessa: käsittelyyn valmistautuminen, visualisointi, OLAP sekä jotkin tiedon analysointi- ja luokittelumenetelmät.

Sebastian Raschkan "Python Machine Learning".

Käytännön opas big datan käyttöön ja käsittelyyn Python-ohjelmointikielellä. Sopii sekä insinööriopiskelijoille että ammattilaisille, jotka haluavat syventää osaamistaan.

"Hadoop for Dummies", Dirk Derus, Paul S. Zikopoulos, Roman B. Melnik

Hadoop on projekti, joka on luotu erityisesti työskentelemään hajautettujen ohjelmien kanssa, jotka järjestävät toimintojen suorittamisen tuhansissa solmuissa samanaikaisesti. Sen tunteminen auttaa sinua ymmärtämään tarkemmin big datan käytännön soveltamista.

Julia Sergeevna Volkova, 4. vuoden opiskelija, Venäjän federaation alainen talousyliopisto, Kalugan haara, Kaluga [sähköposti suojattu]

Big Data nykymaailmassa

Tiivistelmä Artikkeli on omistettu Big Data -tekniikoiden käyttöönotolle nyky-yhteiskunnassamme. Selvitetään Big Datan pääpiirteitä, pohditaan pääsovellusalueita, kuten pankkitoimintaa, vähittäiskauppaa, yksityistä ja julkista sektoria ja jopa arkea. Tutkimus paljasti Big Data -tekniikoiden käytön haitat. Big Datan käytön sääntelyn kehittämisen tarve hahmotellaan Avainsanat: Big Data, pankit, pankkisektori, vähittäiskauppa, yksityinen sektori, julkinen sektori.

Tietotekniikan työkalujen integroitumisasteen lisääntyessä modernin yhteiskunnan eri osa-alueille kasvavat myös vaatimukset niiden sopeutumiskyvylle uusien valtavia tietomääriä vaativien ongelmien ratkaisemiseksi. On olemassa suuria määriä tietoa, jota ei voida käsitellä perinteisillä tavoilla, mukaan lukien strukturoitu data, mediadata ja satunnaiset objektit. Ja jos nykyiset teknologiat selviävät enemmän tai vähemmän ensimmäisen analysoinnista, niin toisen ja kolmannen analysointi jää käytännössä ylivoimaiseksi tehtäväksi. Tutkimukset osoittavat, että mediatietojen, kuten videovalvonnan, ilmakuvauksen, digitaalisen terveystiedon ja lukuisiin arkistoihin ja pilviin tallennettujen satunnaisten kohteiden määrä kasvaa vuosi vuodelta Suuri data. Sekä ulkomaisten että venäläisten tutkijoiden teokset ovat omistettu Big Datan tutkimukselle: James Manyika, Michael Chui, Toporkov V.V., Budzko V.I. Suuret globaalit yritykset, kuten McKinsey& Company, СNews Analytics, SAP, Oracle, IBM, Microsoft, Teradata ja monet muut antavat merkittävän panoksen tämän teknologian tutkimukseen. He osallistuvat tietojen käsittelyyn ja analysointiin sekä luovat ohjelmisto- ja laitteistojärjestelmiä, jotka perustuvat Big Dataan McKinsey Instituten raportin mukaan: ”Big Data on joukko tietoja, joiden koko ylittää tyypillisten tietokantaohjelmistotyökalujen kyvyt kaapata, tallentaa, hallita ja hallita. analysoida tietoja." Pohjimmiltaan big datan käsitteeseen kuuluu työskentely valtavan volyymin ja monipuolisen koostumuksen, jatkuvasti päivittyvän ja eri lähteisiin sijoitetun tiedon kanssa toiminnan tehostamiseksi, uusien tuotteiden luomiseksi ja kilpailukyvyn lisäämiseksi. Konsulttiyritys Forrester esittää lyhyen ja melko selkeän sanamuodon: "Big data yhdistää tekniikat ja teknologiat, jotka poimivat merkityksen datasta käytännöllisyyden äärirajoilla." kerääntynyt tietokanta edustaa suurta määrää tietoa. Nopeus – nopeus, tämä ominaisuus osoittaa tiedon kertymisen lisääntymistä (90 % tiedosta on kerätty viimeisen 2 vuoden aikana Variety – monimuotoisuus, ts. kyky käsitellä samanaikaisesti erimuotoista strukturoitua ja strukturoimatonta tietoa. Markkinoinnin asiantuntijat lisäävät mielellään "V:nsä" tähän. Jotkut puhuvat myös totuudesta, toiset lisäävät, että big data -teknologioiden on varmasti hyödynnettävä liiketoimintaa (arvoa). Vuoteen 2020 mennessä planeetalle kertyneen tiedon määrän odotetaan kaksinkertaistuvan joka toinen vuosi. Tietojen runsaus saa sinut haluamaan käyttää sitä analysointiin ja ennustamiseen. Valtavat määrät vaativat asianmukaista tekniikkaa. Nykyään yritysten on käsiteltävä valtavia määriä dataa vaikeasti kuviteltavissa määrin, mikä johtaa siihen, että perinteiset tietokannat eivät pysty selviytymään sellaisesta tehtävästä, mikä johtaa tarpeeseen ottaa käyttöön Big Data -teknologioita. Taulukossa on esitetty Big Datan ja perinteisten tietokantojen vertailuominaisuudet. Taulukon muodostamisen perustana oli V. I. Budzkon ja Moskovan pörssin tutkimus. Taulukko 1 Big datan ja perinteisen datan vertailu

Perinteiset tietokannatBig DataApplication Area

Yksi tai useampi sovellusalue Big Data -teknologioiden laajuus on laaja. Asiakkaiden mieltymysten tunnistamisesta riskianalyysiin Tietojen ominaisuudet Vain jäsenneltyä dataa Valtavat tietomäärät, joilla on monimutkainen heterogeeninen ja/tai epävarma rakenne Tiedon tallennusmenetelmä Keskitetty Hajautettu Tiedon tallennus- ja käsittelymalli Pystymalli Vaakamalli Käsiteltävien tietojen määrä gigatavuista (109 tavua) teratavuihin (1012 tavua) Petatavuista (1015 tavua) eksatavuihin (1018 tavua) IT ) Näin ollen perinteisten tietokantojen laajuus kattaa vain yhden tai useita, ja tällaisilla alueilla tulisi olla vain strukturoitua dataa. Mitä tulee Big Dataan, sen sovellusalue on laaja ja tietomäärä on monimutkainen Kuvassa 1 esitetyn CNews Analytics -tutkimuksen tulosten mukaan Venäjän markkinoilla on tulossa Big Datan kaltainen ilmiö. osoittaa yritysten kypsyysasteen nousua. Monet yritykset ovat siirtymässä Big Data -teknologioihin käsitellyn datan määrän vuoksi, yli 44 % tuottaa noin 100 teratavua ja 13 %:lla datamäärä ylittää 500 teratavua.

Kuva 1. Yrityksissä käsitellyt tietomäärät

Tällaisia ​​määriä ei voida käsitellä perinteisillä tietokannoilla, joten tällaiset yritykset näkevät ratkaisun Big Dataan siirtymiseen paitsi valtavien volyymien käsittelynä, myös kilpailukyvyn lisäämisenä, asiakasuskollisuuden lisäämisenä tuotteelleen ja uusien houkuttelemisena. Tällaisten ratkaisujen aktiivisimpia asiakkaita ovat pankit, televiestintä ja vähittäiskauppa. Niiden prosenttiosuudet on esitetty kuvassa 2. Liikenne-, energia- ja teollisuussektorilla big dataa käyttävien tai ottamaan käyttöön valmiiden yritysten määrä on vähemmän havaittavissa. Ensimmäiset esimerkit big datan käytöstä ilmestyivät myös julkiselle sektorille.

Kuva 2. Big Datan käytön toimialarakenne

Mitä tulee lännen hallitukseen, eri arvioiden mukaan digitaalitalouden osuus G20-maiden BKT:sta on 3–21 prosenttia. Venäjän julkinen sektori ei ole vielä saavuttanut merkittäviä tuloksia suuren datan parissa. Nykyään Venäjällä pääasiassa kaupalliset yritykset ovat kiinnostuneita tällaisista teknologioista: vähittäiskauppaketjut, pankit, televiestintäyritykset Venäjän sähköisen viestinnän liiton mukaan Venäjän federaation digitaalitalouden volyymi on vain 1 biljoona. hieroa. -noin 1,5 % BKT:sta. Venäjän federaatiolla on kuitenkin valtavat mahdollisuudet kasvaa digitaalisessa taloudessa Big Data -sektorin lyhyestä olemassaolosta huolimatta, näiden teknologioiden tehokkaasta käytöstä on jo tehty todellisiin esimerkkeihin perustuvia arvioita. Pankit käsittelevät nykyään keskimäärin noin 3,8 petotavua, ne käyttävät Big Data -teknologioita tiettyjen tehtävien suorittamiseen:  luottokorttien käyttöä koskevien tietojen kerääminen  lainojen tietojen kerääminen 44 % 16 %; 13% 7% 20%PankitTelecomRetailJulkinen sektoriMuut asiakasprofiilitietojen kerääminen;asiakassäästötietojen kerääminen.Pankit väittävät, että siitä lähtien, kun he aloittivat Big Data -teknologioiden käytön, ne ovat pystyneet houkuttelemaan uusia asiakkaita, toimimaan paremmin sekä uusien että vanhojen asiakkaiden kanssa ja säilyttää uskollisuutensa. Vuonna 2015 CNews Analytics teki kyselyn 30 suurimman venäläisen pankin kesken taseen loppusummalla mitattuna selvittääkseen, mitä big data-tekniikoita ne käyttävät ja mihin tarkoituksiin. Vuoden 2014 tutkimukseen verrattuna big data -teknologioiden käyttöä raportoivien 30 parhaan pankin määrä on kasvanut, mutta tämä muutos johtuu todennäköisemmin 30 parhaan kokoonpanon muutoksesta. Kuvassa 3 on vertailu vuoden 2015 tutkimuksesta vuoden 2014 tutkimukseen A. Kiryanovan kyselyn perusteella.

Riisi. 3. Big Datan käyttö 30 parhaan venäläisen pankin toimesta

IBS:n ​​arvioiden mukaan 80 % myönteisesti vastanneista pankeista ottaa käyttöön Big Data Appliance -ohjelmiston ja -laitteiston tietojen tallentamiseen ja käsittelyyn. Nämä ratkaisut toimivat yleensä analyyttisenä tai transaktiovarastona, jonka tärkein etu on suuri suorituskyky suurien tietomäärien kanssa. Suuren datan käyttö on kuitenkin vasta lapsenkengissä. Syy niin hitaalle sopeutumiselle Venäjällä näkyy asiakkaiden IT-asiantuntijoiden varovaisessa asenteessa uusia teknologioita kohtaan. He eivät ole varmoja siitä, että big data -teknologiat auttavat ratkaisemaan ongelmia täysimääräisesti. Mutta mitä tulee Amerikan markkinoille, siellä pankit ovat keränneet jo yhden eksatavun dataa, jota voidaan verrata 275 miljardiin mp3-tietueeseen. Tietolähteitä on valtava määrä, joista klassiset voidaan erottaa:  vierailut pankkiasiakkaiden toimistoissa  puhelujen tallenteet  asiakkaiden käyttäytyminen sosiaalisissa verkostoissa  tiedot luottokorttitapahtumista; Offline-vähittäiskauppa käyttää big dataa analysoidakseen asiakkaiden käyttäytymistä, suunnitellakseen reittejä myyntitilojen ympärille, järjestääkseen tavarat oikein, suunnitellakseen ostoja ja viime kädessä lisätäkseen myyntiä. Verkkokaupassa itse myyntimekanismi rakentuu big datalle: käyttäjille tarjotaan aiempien ostosten ja henkilökohtaisten mieltymysten perusteella tuotteita, joista kerätään tietoa esimerkiksi sosiaalisista verkostoista. Molemmissa tapauksissa big data -analyysi auttaa vähentämään kustannuksia, lisäämään asiakasuskollisuutta ja tavoittamaan suuremman yleisön Kun yritykset kehittävät kaupankäyntipotentiaaliaan, perinteiset tietokannat eivät enää täytä kasvavia liiketoiminnan vaatimuksia, minkä vuoksi järjestelmä ei pysty tarjoamaan riittävää yksityiskohtaa johdon kirjanpidossa. Siirtymällä big dataan uudet teknologiat mahdollistavat tuotteiden jakelun hallinnan optimoinnin, tiedon relevanssin ja käsittelyn nopeuden saavuttamisen johdon päätösten seurausten arvioimiseksi sekä johdon raportoinnin nopean tuottamisen. Kerätyn datan kokonaismäärä on yli 100 eksatavua, kun taas Walmart yksin käsittelee 2,5 petabyyttiä dataa tunnissa käyttämällä big dataa. Lisäksi Big Data -tekniikoiden käytöstä toiminnan kannattavuus kasvaa 60%, ja myös Hadoopin tilastojen mukaan Big Datan käyttöönoton jälkeen analytiikan tuottavuus kasvaa 120 algoritmin käsittelyyn ja voitot kasvavat 710%. jos otamme huomioon Venäjän vähittäiskaupan, niin Big Data on juuri alkamassa saada vauhtia, koska tiedonkäsittelyn aukko on hyvin erilainen. Esimerkiksi verkkokauppa on 18 kertaa vähemmän kuin Kiinassa, ja verkkokaupan koko dataliikevaihto on 4,5 kertaa pienempi kuin yksi Amazon-kauppa. Samaan aikaan Big Dataa käyttävien verkkokauppojen määrä Venäjällä on alle 40 tuhatta, kun taas Euroopassa tällaisia ​​kauppoja on yli 550 tuhatta. Mikä luonnehtii Venäjän vähittäiskauppamarkkinoita vielä kehittyviksi ja vielä kehittymättömiksi. Mitä tulee jokapäiväiseen elämäämme, täällä käytetään Big Data -teknologioita, joita emme ole edes ajatelleet joka päivä, mikä on noin 1,5–2 petatavua, ja niitä käsittelee shazam, musiikkipalvelu, ympäri maailmaa ja perustuu. Sitten musiikin tuottajat ennustavat artistin suosion. Big dataa käytetään myös luottokorttitietojen, kuten mastercardin ja viisumin, käsittelyyn. Mastercard käsittelee siten 65 miljardia tapahtumaa vuodessa 1,9 miljardilla kortilla 32 miljoonalla kauppiaalla kaupan suuntausten ennustamiseksi. Joka päivä ihmiset ympäri maailmaa lähettävät 19 teratavua dataa sosiaalisiin verkostoihin, kuten Twitteriin ja Facebookiin. He lataavat ja käsittelevät valokuvia, kirjoittavat, lähettävät viestejä ja niin edelleen. Infrastruktuurissa käytetään myös Big Data -teknologioita johdinautoista lentokoneisiin ja raketteihin. Näin ollen Lontoon metrossa kääntöportit tallentavat noin 20 miljoonaa kulkua päivässä Big Data -teknologioiden perusteella tehdyn analyysin tuloksena, ja 10 mahdollista episentriä tunnistettiin, mikä on myös otettu huomioon jatkokehityksessä; metro. Kaikenlaisista vuorovaikutuksista syntyvän tiedon monimuotoisuus ja määrä on epäilemättä vahva perusta yrityksille, jotka voivat rakentaa ja tarkentaa ennusteita, tunnistaa malleja, arvioida suorituskykyä jne. Kaikella on kuitenkin huonot puolensa, jotka on myös otettava huolellisesti huomioon Big Datan käytön ilmeisistä ja mahdollisista eduista huolimatta, niiden käytössä on myös haittapuolensa, jotka liittyvät ensisijaisesti suuriin tietomääriin, erilaisiin menetelmiin pääsyyn. ja usein riittämättömät resurssit tukevat tietoturvatoimintoja organisaatioissa. Big Data -teknologioiden käyttöön liittyvät ongelmat on esitetty kuvassa 4.

Riisi. 4. Big Datan käytön ongelmat

Kaikki nämä ongelmat johtavat siihen, että monet yritykset ovat varovaisia ​​ottamaan käyttöön big data -teknologioita, koska työskennellessään kolmansien osapuolten kanssa heillä on itsellään ongelmana paljastaa sisäpiiritietoa, jota yritys ei mielestäni pystynyt paljastamaan pelkästään omilla resursseillaan tärkein askel Big dataan perustuvien teknologioiden täysimääräisen käyttöönoton tiellä on oltava lainsäädännöllinen näkökohta. Tietyntyyppisten henkilötietojen keräämistä, käyttöä ja säilyttämistä rajoittavia lakeja on jo olemassa, mutta ne eivät rajoita big dataa kokonaan, joten sitä varten on oltava erityinen lainsäädäntö. Nopeasti muuttuvien ja uusien lakien noudattamiseksi yritysten on tehtävä alustava inventaario asiaankuuluvista säännöksistä ja päivitettävä tämä luettelo säännöllisesti. Kaikista yllä olevista puutteista huolimatta, kuten länsimaiden edustajien kokemus osoittaa, Big Data -teknologiat auttavat ratkaista menestyksekkäästi niin nykyaikaisia ​​yritystehtäviä ja kilpailukykyä lisääviä tehtäviä kuin suoraan ihmisten elämään liittyviä tehtäviä. Venäläiset yritykset ovat jo tiellä Big Data -teknologioiden käyttöönotossa sekä tuotanto- että julkisella alueella, sillä tiedon määrä lähes kaksinkertaistuu joka vuosi. Ajan myötä Big Data muuttaa monia elämämme alueita.

Linkit lähteisiin 1. BudzkoV. I. Korkean käytettävyyden järjestelmät ja Big Data // Big Data in the Economy 2013. S. 1619.2 Korotkova T. “EMC Data Lake 2.0 - keino siirtyä big datan analytiikkaan ja digitaaliseen talouteen” http://bigdata. cnews.ru/ News/Line/20151203_EMC_DATA_LAKE_20_POMOZHET_PEREJTI_K_ANALITIKE.3. Kiryanova A. "Suurista tiedoista ei tullut Maynstamia venäläisissä pankeissa" http://www.cnews/top/bolshie_dannye_ne_m Venäjä "Inf. ” http://bigdata.cnews.ru/articles/infografika_bolshie_dannye_prishli_v_rossiyu.5.CNews “Infographics: Kuinka vähittäiskauppa käyttää big dataa” http://bigdata.cnews.ru/articles/infografika_kak_roznitsa_ispolzuet maailmassa ei ole erityisiä säännöksiä Big Datan osalta tiedot tulee peittää alkuperäisten tietolähteiden suojaamiseksi yritysten on oltava varmoja siitä, että kaikkia tietoturvavaatimuksia valvotaan ja Big Data -ratkaisujen tuettu käyttöönotto voi johtaa aiemmin luottamuksellisen tiedon syntymiseen tai löytämiseen Tiedonhallinta Tietoturvavaatimusten ylläpitäminen Lainsäädäntö Riskien tunnistaminen 6.CNews "Infographics" : BigData Technologies http://bigdata.cnews.ru/articles/big_data_v_zhizni_cheloveka.7.CNews"Infographics: Mitä iso data voi tehdä pankeissa" http://bigdata.cnews.ru/ articles/infografika_chto_mogut_bolshie_dannye.8.Moscow Exchange "BigData-markkinoiden analyyttinen katsaus" http://habrahabr.ru/company/moex/blog/256747/9 Big Data (BigData). http://www.tadviser.ru/index.php/Article:Big_Data_(Big_Data).10.BigData – XXI-luvun sähkö http://bit.samag.ru/archive/article/1463.11.McKinsey Global Institute " Bigdata: innovaation, kilpailun ja tuottavuuden seuraava raja" (kesäkuu 2011).

Big data on laaja käsite epätavanomaisille strategioille ja teknologioille, joita tarvitaan tietojen keräämiseen, järjestämiseen ja käsittelyyn suurista tietojoukoista. Vaikka yksittäisen tietokoneen käsittely- tai tallennuskapasiteetin ylittävän tiedon käsittelyn haaste ei ole uusi, tämän tyyppisen tietojenkäsittelyn laajuus ja arvo ovat laajentuneet merkittävästi viime vuosina.

Tämä artikkeli opastaa sinut peruskäsitteiden läpi, joita saatat kohdata tutkiessasi big dataa. Siinä käsitellään myös joitakin tällä alalla tällä hetkellä käytössä olevista prosesseista ja teknologioista.

Mitä on big data?

"Big datan" tarkkaa määritelmää on vaikea ilmaista, koska projektit, toimittajat, ammatinharjoittajat ja liike-elämän ammattilaiset käyttävät sitä hyvin eri tavoin. Tämä huomioon ottaen big data voidaan määritellä seuraavasti:

  • Suuret tietojoukot.
  • Luokka laskentastrategioita ja teknologioita, joita käytetään suurten tietojoukkojen käsittelyyn.

Tässä yhteydessä "suuri tietojoukko" tarkoittaa tietojoukkoa, joka on liian suuri käsiteltäväksi tai tallennettavaksi perinteisillä työkaluilla tai yhdelle tietokoneelle. Tämä tarkoittaa, että suurten tietojoukkojen yleinen mittakaava muuttuu jatkuvasti ja voi vaihdella merkittävästi tapauskohtaisesti.

Big Data Systems

Big datan kanssa työskentelyn perusvaatimukset ovat samat kuin minkä tahansa muun tietojoukon. Prosessin jokaisessa vaiheessa kohdattava valtava mittakaava, käsittelynopeus ja dataominaisuudet asettavat kuitenkin merkittäviä uusia haasteita työkalujen kehitykselle. Useimpien big datajärjestelmien tavoitteena on ymmärtää ja kommunikoida suuria määriä heterogeenista dataa, mikä ei olisi mahdollista perinteisillä menetelmillä.

Vuonna 2001 Gartnerin Doug Laney esitteli "big datan kolme V:tä" kuvaamaan joitain ominaisuuksia, jotka erottavat big datan käsittelyn muun tyyppisestä tietojenkäsittelystä:

  1. Volyymi (tietomäärä).
  2. Nopeus (tietojen keräämisen ja käsittelyn nopeus).
  3. Variety (erilaisia ​​käsiteltäviä tietoja).

Tietojen määrä

Käsiteltävän tiedon laaja mittakaava auttaa määrittelemään isot datajärjestelmät. Nämä tietojoukot voivat olla suuruusluokkaa suurempia kuin perinteiset tietojoukot, mikä vaatii suurempaa huomiota käsittelyn ja tallennuksen jokaisessa vaiheessa.

Koska vaatimukset ylittävät yhden tietokoneen kyvyt, tietokoneryhmien resurssien yhdistämisen, jakamisen ja koordinoinnin ongelma ilmenee usein. Klusterin hallinta ja algoritmit, jotka voivat pilkkoa tehtäviä pienempiin osiin, ovat yhä tärkeämpiä tällä alueella.

Kertyminen ja käsittelynopeus

Toinen ominaisuus, joka erottaa big datan merkittävästi muista tietojärjestelmistä, on nopeus, jolla tieto liikkuu järjestelmän läpi. Tiedot tulevat usein järjestelmään useista lähteistä, ja ne on käsiteltävä reaaliajassa järjestelmän nykyisen tilan päivittämiseksi.

Tämä välittömän palautteen painottaminen on saanut monet toimijat luopumaan eräsuuntautuneesta lähestymistavasta reaaliaikaisen suoratoistojärjestelmän hyväksi. Dataa lisätään, käsitellään ja analysoidaan jatkuvasti, jotta se pysyy ajan tasalla uuden tiedon tulvista ja antaa arvokkaita oivalluksia varhaisessa vaiheessa, kun se on kaikkein olennaisinta. Tämä edellyttää vankkoja järjestelmiä, joissa on erittäin saatavilla olevia komponentteja, jotka suojaavat dataputken vikoja vastaan.

Erilaisia ​​käsiteltyjä tietotyyppejä

Big datassa on monia ainutlaatuisia haasteita käsiteltyjen lähteiden laajan valikoiman ja niiden suhteellisen laadun vuoksi.

Tiedot voivat tulla sisäisistä järjestelmistä, kuten sovellus- ja palvelinlokeista, sosiaalisen median syötteistä ja muista ulkoisista API-liittymistä, fyysisten laitteiden antureista ja muista lähteistä. Big data -järjestelmien tavoitteena on käsitellä mahdollisesti hyödyllistä dataa alkuperästä riippumatta yhdistämällä kaikki tiedot yhdeksi järjestelmäksi.

Mediamuodot ja -tyypit voivat myös vaihdella huomattavasti. Mediatiedostot (kuvat, videot ja ääni) yhdistetään tekstitiedostoihin, strukturoituihin lokeihin jne. Perinteisemmät tietojenkäsittelyjärjestelmät odottavat tietojen tulevan putkistoon jo merkittyinä, muotoiltuina ja järjesteltyinä, mutta suuret datajärjestelmät tyypillisesti nielevät ja tallentavat dataa yrittäessään säilyttää. niiden alkuperäinen kunto. Ihannetapauksessa kaikki raakadatan muunnokset tai muutokset tapahtuvat muistissa käsittelyn aikana.

Muut ominaisuudet

Ajan mittaan harjoittajat ja organisaatiot ovat ehdottaneet alkuperäisen "kolmen V:n" laajennuksia, vaikka näillä innovaatioilla on tapana kuvata ongelmia pikemminkin kuin big datan ominaisuuksia.

  • Todellisuus: Lähteiden moninaisuus ja käsittelyn monimutkaisuus voivat aiheuttaa ongelmia arvioitaessa tietojen laatua (ja siten tuloksena olevan analyysin laatua).
  • Vaihtuvuus: Muutokset tiedoissa johtavat suuriin laatuvaihteluihin. Lisäresursseja voidaan tarvita heikkolaatuisten tietojen tunnistamiseen, käsittelyyn tai suodattamiseen tietojen laadun parantamiseksi.
  • Arvo: Big datan perimmäinen tavoite on arvo. Joskus järjestelmät ja prosessit ovat hyvin monimutkaisia, mikä vaikeuttaa tietojen käyttöä ja todellisten arvojen poimimista.

Big Datan elinkaari

Joten miten suurdataa todella käsitellään? Toteuttamiseen on useita erilaisia ​​lähestymistapoja, mutta strategioissa ja ohjelmistoissa on yhteisiä piirteitä.

  • Tietojen syöttäminen järjestelmään
  • Tietojen tallennus tallennustilaan
  • Tietojen laskenta ja analyysi
  • Tulosten visualisointi

Ennen kuin tarkastelemme näitä neljää työnkulkuluokkaa yksityiskohtaisesti, puhutaan klusterilaskennasta, tärkeästä strategiasta, jota monet big data -työkalut käyttävät. Tietojenkäsittelyklusterin perustaminen on elinkaaren jokaisessa vaiheessa käytetty ydintekniikka.

Klusterilaskenta

Big datan laadusta johtuen yksittäiset tietokoneet eivät sovellu tietojen käsittelyyn. Klusterit sopivat tähän paremmin, koska ne pystyvät käsittelemään big datan tallennus- ja laskentatarpeita.

Big data -klusterointiohjelmisto yhdistää monien pienten koneiden resurssit ja pyrkii tarjoamaan useita etuja:

  • Resurssien yhdistäminen: Suurten tietojoukkojen käsittely vaatii suuria määriä suoritin- ja muistiresursseja sekä paljon vapaata tallennustilaa.
  • Korkea käytettävyys: Klusterit voivat tarjota eritasoisia vikasietokykyä ja saatavuutta, jotta laitteisto- tai ohjelmistovirheet eivät vaikuta tietojen käyttöön ja käsittelyyn. Tämä on erityisen tärkeää reaaliaikaisen analytiikan kannalta.
  • Skaalautuvuus: klusterit tukevat nopeaa vaakasuuntaista skaalausta (uusien koneiden lisääminen klusteriin).

Jotta voit työskennellä klusterissa, tarvitset työkaluja klusterin jäsenyyden hallintaan, resurssien jakelun koordinointiin ja yksittäisten solmujen työn ajoittamiseen. Klusterijäsenyyttä ja resurssien allokointia voidaan käsitellä ohjelmilla, kuten Hadoop YARN (Yet Another Resource Negotiator) tai Apache Mesos.

Esivalmistettu laskentaklusteri toimii usein selkärankana, jonka kanssa muut ohjelmistot käsittelevät tietoja. Laskentaklusteriin osallistuvat koneet liittyvät tyypillisesti myös hajautetun tallennusjärjestelmän hallintaan.

Tietojen vastaanottaminen

Tietojen käsittely on prosessi, jossa järjestelmään lisätään raakadataa. Tämän toimenpiteen monimutkaisuus riippuu suurelta osin tietolähteiden muodosta ja laadusta sekä siitä, missä määrin tiedot täyttävät käsittelyn vaatimukset.

Voit lisätä big dataa järjestelmään erikoistyökaluilla. Tekniikat, kuten Apache Sqoop, voivat ottaa olemassa olevia tietoja relaatiotietokannoista ja lisätä ne big datajärjestelmään. Voit myös käyttää Apache Flume- ja Apache Chukwa -projekteja, jotka on suunniteltu sovellus- ja palvelinlokien kokoamiseen ja tuontiin. Viestinvälittäjiä, kuten Apache Kafkaa, voidaan käyttää rajapintana eri datageneraattoreiden ja ison datajärjestelmän välillä. Kehykset, kuten Gobblin, voivat yhdistää ja optimoida kaikkien liukuhihnan lopussa olevien työkalujen tuotoksen.

Tietojen käsittelyn aikana suoritetaan yleensä analysointi, lajittelu ja merkitseminen. Tätä prosessia kutsutaan joskus ETL:ksi (extract, transform, load), joka tarkoittaa extract, transform ja load. Vaikka termi yleensä viittaa vanhoihin tietovarastointiprosesseihin, sitä käytetään joskus suuriin tietojärjestelmiin. Tyypillisiä toimintoja ovat saapuvien tietojen muokkaaminen muotoilua, luokittelu ja merkitseminen, suodatus tai tietojen vaatimustenmukaisuuden tarkistaminen.

Ihannetapauksessa vastaanotettu data läpikäy minimaalisen muotoilun.

Tietovarasto

Kun tiedot on vastaanotettu, ne siirtyvät tallennustilaa hallitseviin komponentteihin.

Tyypillisesti raakadatan tallentamiseen käytetään hajautettuja tiedostojärjestelmiä. Ratkaisut, kuten Apache Hadoopin HDFS, mahdollistavat suurten tietomäärien kirjoittamisen useisiin klusterin solmuihin. Tämä järjestelmä tarjoaa laskentaresurssien pääsyn tietoihin, voi ladata tietoja klusterin RAM-muistiin muistitoimintoja varten ja käsitellä komponenttien vikoja. HDFS:n sijasta voidaan käyttää muita hajautettuja tiedostojärjestelmiä, mukaan lukien Ceph ja GlusterFS.

Tietoja voidaan myös tuoda muihin hajautettuihin järjestelmiin jäsennellymmän pääsyn saamiseksi. Hajautetut tietokannat, erityisesti NoSQL-tietokannat, sopivat hyvin tähän rooliin, koska ne pystyvät käsittelemään heterogeenista dataa. Hajautettuja tietokantoja on monia erilaisia, valinta riippuu siitä, kuinka haluat järjestää ja esittää tietosi.

Tietojen laskenta ja analyysi

Kun tiedot ovat saatavilla, järjestelmä voi aloittaa käsittelyn. Laskentakerros on ehkä järjestelmän vapain osa, koska vaatimukset ja lähestymistavat voivat vaihdella huomattavasti tiedon tyypistä riippuen. Tietoja käsitellään usein toistuvasti joko käyttämällä yhtä työkalua tai käyttämällä useita työkaluja erityyppisten tietojen käsittelemiseen.

Eräkäsittely on yksi menetelmistä suurten tietojoukkojen laskentaan. Tämä prosessi sisältää tietojen jakamisen pienempiin osiin, kunkin osan ajastamisen erilliselle koneelle, tietojen järjestämisen uudelleen välitulosten perusteella ja sitten lopputuloksen laskemisen ja keräämisen. Apache Hadoopin MapReduce käyttää tätä strategiaa. Eräkäsittely on hyödyllisintä, kun käsitellään erittäin suuria tietojoukkoja, jotka vaativat melko paljon laskentaa.

Muut työmäärät vaativat reaaliaikaista käsittelyä. Tieto on kuitenkin käsiteltävä ja valmisteltava välittömästi, ja järjestelmän on reagoitava ajoissa, kun uutta tietoa tulee saataville. Yksi tapa toteuttaa reaaliaikainen käsittely on käsitellä jatkuvaa tietovirtaa, joka koostuu yksittäisistä elementeistä. Toinen reaaliaikaisten prosessorien yhteinen ominaisuus on, että ne laskevat tietoja klusterin muistissa välttäen tarvetta kirjoittaa levylle.

Apache Storm, Apache Flink ja Apache Spark tarjoavat erilaisia ​​tapoja toteuttaa reaaliaikainen käsittely. Näiden joustavien tekniikoiden avulla voit valita parhaan lähestymistavan jokaiseen yksittäiseen ongelmaan. Yleensä reaaliaikainen käsittely soveltuu parhaiten pienten, muuttuvien tai nopeasti järjestelmään lisättyjen tietojen analysointiin.

Kaikki nämä ohjelmat ovat kehyksiä. On kuitenkin monia muita tapoja laskea tai analysoida dataa big datajärjestelmässä. Nämä työkalut muodostavat usein yhteyden yllä oleviin kehyksiin ja tarjoavat lisärajapintoja vuorovaikutukseen alla olevien kerrosten kanssa. Esimerkiksi Apache Hive tarjoaa tietovarastoliittymän Hadoopille, Apache Pig tarjoaa kyselyliittymän ja SQL-tietovuorovaikutuksia Apache Drill, Apache Impala, Apache Spark SQL ja Presto. Koneoppiminen käyttää Apache Sparkin Apache SystemML:ää, Apache Mahoutia ja MLlibiä. Suoraan analyyttiseen ohjelmointiin, jota dataekosysteemi tukee laajasti, käytetään R:tä ja Pythonia.

Tulosten visualisointi

Usein tiedon trendien tai muutosten tunnistaminen ajan mittaan on tärkeämpää kuin tuloksena saadut arvot. Tietojen visualisointi on yksi hyödyllisimmistä tavoista tunnistaa trendejä ja järjestää suuria määriä datapisteitä.

Reaaliaikaista käsittelyä käytetään sovellusten ja palvelinten mittareiden visualisointiin. Tiedot muuttuvat usein, ja suuret vaihtelut mittareissa osoittavat yleensä merkittävän vaikutuksen järjestelmien tai organisaatioiden terveyteen. Prometheuksen kaltaisia ​​projekteja voidaan käyttää datavirtojen ja aikasarjojen käsittelyyn ja näiden tietojen visualisointiin.

Yksi suosittu tapa visualisoida tietoja on elastinen pino, joka tunnettiin aiemmin nimellä ELK-pino. Logstashia käytetään tiedon keräämiseen, Elasticsearchia tietojen indeksointiin ja Kibanaa visualisointiin. Elastic-pino voi toimia ison datan kanssa, visualisoida laskelmien tuloksia tai olla vuorovaikutuksessa raakamittareiden kanssa. Samanlainen pino voidaan saada yhdistämällä Apache Solr indeksointia varten Kibanan haarukkaan nimeltä Banana visualisointia varten. Tämän pinon nimi on Silk.

Toinen visualisointitekniikka tietojen kanssa vuorovaikutukseen on asiakirjat. Tällaiset projektit mahdollistavat tiedon interaktiivisen tutkimisen ja visualisoinnin muodossa, jossa dataa on helppo jakaa ja esittää. Suosittuja esimerkkejä tämäntyyppisistä käyttöliittymistä ovat Jupyter Notebook ja Apache Zeppelin.

Big Datan sanasto

  • Big data on laaja termi datajoukoille, joita tavanomaiset tietokoneet tai työkalut eivät pysty käsittelemään kunnolla niiden määrän, nopeuden ja vaihtelevuuden vuoksi. Termiä käytetään yleisesti myös teknologioissa ja strategioissa tällaisten tietojen kanssa työskentelemiseksi.
  • Eräkäsittely on laskentastrategia, joka sisältää tietojen käsittelyn suurissa sarjoissa. Tyypillisesti tämä menetelmä on ihanteellinen ei-kiireellisten tietojen käsittelyyn.
  • Klusteroitu laskenta on käytäntö, jossa yhdistetään useiden koneiden resurssit ja hallitaan niiden jaettuja ominaisuuksia tehtävien suorittamiseksi. Tässä tapauksessa tarvitaan klusterinhallintakerros, joka käsittelee yksittäisten solmujen välistä viestintää.
  • Datajärvi on suuri arkisto kerättyä dataa suhteellisen raakatilassa. Termiä käytetään usein viittaamaan jäsentämättömään ja usein muuttuvaan big dataan.
  • Tiedonlouhinta on laaja termi erilaisille käytännöille löytää kuvioita suurista tietojoukoista. Se on yritys järjestää datamassa ymmärrettävämmäksi ja yhtenäisemmäksi tiedoiksi.
  • Tietovarasto on suuri, organisoitu arkisto analysointia ja raportointia varten. Toisin kuin datajärvi, varasto koostuu muotoilluista ja hyvin järjestetyistä tiedoista, jotka on integroitu muihin lähteisiin. Tietovarastot mainitaan usein big datan yhteydessä, mutta ne ovat usein osa perinteisiä tietojenkäsittelyjärjestelmiä.
  • ETL (extract, transform, and load) – tietojen purkaminen, muuntaminen ja lataaminen. Tämä on prosessi raakadatan hankkimiseksi ja valmistelemiseksi käyttöä varten. Se liittyy tietovarastoihin, mutta tämän prosessin piirteitä löytyy myös suurten datajärjestelmien putkistosta.
  • Hadoop on avoimen lähdekoodin Apache-projekti big datalle. Se koostuu hajautetusta tiedostojärjestelmästä nimeltä HDFS ja klusteri- ja resurssien ajastimesta nimeltä YARN. MapReduce-laskentamoottori tarjoaa eräkäsittelyominaisuudet. Nykyaikaiset Hadoop-asennukset voivat käyttää muita laskenta- ja analytiikkajärjestelmiä MapReducen rinnalla.
  • Muistissa oleva laskenta on strategia, joka sisältää kokonaisten toimivien tietojoukkojen siirtämisen klusterin muistiin. Välilaskutoimituksia ei kirjoiteta levylle, vaan ne tallennetaan muistiin. Tämä antaa järjestelmille valtavan nopeusedun I/O-sidottuihin järjestelmiin verrattuna.
  • Koneoppiminen on tutkimusta ja käytäntöä suunnitella järjestelmiä, jotka voivat oppia, mukauttaa ja kehittyä niille syötetyn tiedon perusteella. Tämä tarkoittaa yleensä ennustavien ja tilastollisten algoritmien toteuttamista.
  • Kartan vähentäminen (jota ei pidä sekoittaa Hadoopin MapReduceen) on laskentaklusterin ajoitusalgoritmi. Prosessi sisältää tehtävän jakamisen solmujen kesken ja välitulosten saamisen, sekoittamisen ja sitten yksittäisen arvon tulostamisen jokaiselle sarjalle.
  • NoSQL on laaja termi, joka viittaa tietokantoihin, jotka on suunniteltu perinteisen relaatiomallin ulkopuolelle. NoSQL-tietokannat sopivat hyvin big datalle joustavuuden ja hajautetun arkkitehtuurinsa ansiosta.
  • Virtauskäsittely on käytäntö, jossa lasketaan yksittäisiä datakappaleita niiden liikkuessa järjestelmän läpi. Tämä mahdollistaa reaaliaikaisen data-analyysin ja soveltuu aikaherkkien tapahtumien käsittelyyn nopeilla mittareilla.
Tunnisteet: ,

Vain laiskot eivät puhu big datasta, mutta he tuskin ymmärtävät mitä se on ja miten se toimii. Aloitetaan yksinkertaisimmasta - terminologiasta. Venäjällä puhuen Big data on erilaisia ​​työkaluja, lähestymistapoja ja menetelmiä sekä strukturoidun että strukturoimattoman datan käsittelyyn, jotta sitä voidaan käyttää tiettyihin tehtäviin ja tarkoituksiin.

Strukturoimaton data on tietoa, jolla ei ole ennalta määrättyä rakennetta tai jota ei ole järjestetty tiettyyn järjestykseen.

Nature-lehden toimittaja Clifford Lynch esitteli termin "big data" vuonna 2008 erikoisnumerossaan, joka on omistettu maailman tietomäärien räjähdysmäiselle kasvulle. Vaikka big data itsessään oli tietysti olemassa ennenkin. Asiantuntijoiden mukaan Big data -luokka sisältää suurimman osan datavirroista, jotka ovat yli 100 Gt päivässä.

Lue myös:

Nykyään tämä yksinkertainen termi kätkee vain kaksi sanaa - tietojen tallennus ja käsittely.

Big data - yksinkertaisin sanoin

Big data on nykymaailmassa sosioekonominen ilmiö, joka liittyy siihen, että valtavan datamäärän analysointiin on ilmaantunut uusia teknologisia valmiuksia.

Lue myös:

Ymmärtämisen helpottamiseksi kuvittele supermarket, jossa kaikki tavarat eivät ole siinä järjestyksessä, johon olet tottunut. Hedelmien viereen leipä, pakastepizzan viereen tomaattipyree, tamponitelineen eteen sytytinneste, joka sisältää mm. avokadoja, tofua tai shiitake-sieniä. Big data asettaa kaiken paikoilleen ja auttaa sinua löytämään pähkinämaidon, selvittämään hinnan ja viimeisen käyttöpäivän sekä kuka tämän maidon lisäksi ostaa ja miksi se on parempaa kuin lehmänmaito.

Kenneth Cukier: Big data on parempaa dataa

Big data tekniikka

Valtavia tietomääriä käsitellään siten, että henkilö voi saada konkreettisia ja tarpeellisia tuloksia tehokkaaseen käyttöönsä.

Lue myös:

Itse asiassa Big data on ratkaisu ongelmiin ja vaihtoehto perinteisille tiedonhallintajärjestelmille.

Bigdataan sovellettavia tekniikoita ja analyysimenetelmiä McKinseyn mukaan:

  • Tietojen louhinta;
  • Joukkoistaminen;
  • Tietojen sekoittaminen ja integrointi;
  • Koneoppiminen;
  • Keinotekoiset hermoverkot;
  • Hahmontunnistus;
  • Ennakoiva analytiikka;
  • Simulointi mallinnus;
  • Tila-analyysi;
  • Tilastollinen analyysi;
  • Analyyttisten tietojen visualisointi.

Tietojenkäsittelyn mahdollistava horisontaalinen skaalautuvuus on big datan käsittelyn perusperiaate. Tiedot jaetaan laskentasolmujen kesken, ja käsittely tapahtuu ilman suorituskyvyn heikkenemistä. McKinsey sisällytti myös relaatiohallintajärjestelmät ja Business Intelligencen soveltuvuuden kontekstiin.

Tekniikat:

  • NoSQL;
  • MapReduce;
  • Hadoop;
  • Laitteistoratkaisut.

Lue myös:

Big datalle on olemassa perinteiset Meta Groupin vuonna 2001 kehittämät määrittelevät ominaisuudet, joita kutsutaan " Kolme V»:

  1. Äänenvoimakkuus- fyysisen tilavuuden määrä.
  2. Nopeus- kasvunopeus ja nopean tietojenkäsittelyn tarve tulosten saamiseksi.
  3. Lajike- kyky käsitellä samanaikaisesti erityyppisiä tietoja.

Big data: sovelluksia ja mahdollisuuksia

Heterogeenisen ja nopeasti saapuvan digitaalisen tiedon määriä on mahdotonta käsitellä perinteisillä työkaluilla. Tietojen analysointi itsessään antaa sinun nähdä tiettyjä ja huomaamattomia malleja, joita henkilö ei näe. Näin voimme optimoida kaikki elämämme osa-alueet julkishallinnosta tuotantoon ja tietoliikenteeseen.

Esimerkiksi muutama vuosi sitten jotkut yritykset suojelivat asiakkaitaan petoksilta, ja asiakkaan rahoista huolehtiminen tarkoittaa omasta rahasta huolehtimista.

Susan Etliger: Entä big data?

Big dataan perustuvat ratkaisut: Sberbank, Beeline ja muut yritykset

Beelinellä on valtava määrä tilaajatietoja, joita he käyttävät paitsi työskentelyyn heidän kanssaan, myös analyyttisten tuotteiden luomiseen, kuten ulkoiseen konsultointiin tai IPTV-analytiikkaan. Beeline segmentoi tietokannan ja suojasi asiakkaita talouspetoksilta ja viruksilta käyttämällä HDFS:ää ja Apache Sparkia tallennusta varten sekä Rapidmineria ja Pythonia tietojenkäsittelyyn.

Lue myös:

Tai muistakaamme Sberbankin vanhan AS SAFI-kotelonsa kanssa. Tämä on järjestelmä, joka analysoi valokuvia pankkien asiakkaiden tunnistamiseksi ja petosten estämiseksi. Järjestelmä otettiin käyttöön jo vuonna 2014, järjestelmä perustuu tietokannan valokuvien vertailuun, jotka pääsevät sinne telineillä olevista web-kameroista tietokonenäön ansiosta. Järjestelmän perustana on biometrinen alusta. Tämän ansiosta petosten määrä on vähentynyt 10-kertaiseksi.

Big data maailmassa

Vuoteen 2020 mennessä ihmiskunta tuottaa ennusteiden mukaan 40-44 settatavua tietoa. Vuoteen 2025 mennessä se kasvaa 10-kertaiseksi IDC:n analyytikot laatiman The Data Age 2025 -raportin mukaan. Raportissa todetaan, että suurin osa tiedoista tulee yritysten itsensä tuottaman tavallisten kuluttajien sijaan.

Tutkimusanalyytikot uskovat, että datasta tulee elintärkeä voimavara ja tietoturvasta kriittinen perusta elämässä. Teoksen tekijät uskovat myös, että teknologia muuttaa talousmaisemaa ja keskimääräinen käyttäjä kommunikoi kytkettyjen laitteiden kanssa noin 4800 kertaa päivässä.

Suuret datamarkkinat Venäjällä

Vuonna 2017 suurdatamarkkinoiden globaalin liikevaihdon odotetaan nousevan 150,8 miljardiin dollariin, mikä on 12,4 % enemmän kuin viime vuonna. Maailmanlaajuisesti suuren datan palveluiden ja teknologioiden Venäjän markkinat ovat vielä hyvin pienet. Vuonna 2014 amerikkalainen IDC arvioi sen arvoksi 340 miljoonaa dollaria. Venäjällä teknologiaa käytetään pankki-, energia-, logistiikka-, julkissektorilla, televiestinnässä ja teollisuudessa.

Lue myös:

Mitä tulee datamarkkinoihin, se on vasta syntymässä Venäjällä. RTB-ekosysteemissä tiedontoimittajat ovat ohjelmallisten tiedonhallintaalustojen (DMP) ja tiedonvaihdon omistajia. Teleoperaattorit jakavat kuluttajatietoja mahdollisista lainanottajien kanssa pankkien kanssa pilottitilassa.

Big data tulee yleensä kolmesta lähteestä:

  • Internet (sosiaaliset verkostot, foorumit, blogit, media ja muut sivustot);
  • Yritysten asiakirja-arkistot;
  • Antureiden, instrumenttien ja muiden laitteiden lukemat.

Big data pankeissa

Yllä kuvatun järjestelmän lisäksi Sberbankin strategia vuosille 2014-2018 sisältää: puhuu superdatan analysoinnin tärkeydestä laadukkaan asiakaspalvelun, riskienhallinnan ja kustannusten optimoinnin kannalta. Nyt pankki käyttää Big dataa riskien hallintaan, petosten torjuntaan, asiakkaiden segmentointiin ja luottokelpoisuuden arviointiin, henkilöstöjohtamiseen, konttoreiden jonojen ennustamiseen, työntekijöiden bonusten laskemiseen ja muihin tehtäviin.

VTB24 käyttää big dataa segmentoidakseen ja hallitakseen asiakkaiden ulosvirtausta, tuottaa taloudellisia raportteja ja analysoida arvosteluja sosiaalisissa verkostoissa ja foorumeilla. Tätä varten hän käyttää Teradatan, SAS Visual Analyticsin ja SAS Marketing Optimizerin ratkaisuja.