Tiedonhakujärjestelmien tiedonhaku. Ensimmäinen tutustuminen tiedonhakujärjestelmiin. Modernin PS:n luomisen ja kehityksen historia. Tiedontarve on tarve, joka syntyy, kun tavoite on käyttäjän edessä prosessissa

Pietarin valtionyliopisto

Filologian tiedekunta

Matemaattisen kielitieteen laitos

V.P. Zaharov

Tiedonhaku
järjestelmät

Kasvatus- ja metodologinen käsikirja

Pietari

Arvostelijat:

doc. tekniikka. tieteet V.Sh. Rubashkin(Pietarin valtionyliopisto)

Ph.D. ped. tieteet O.A. Arbatskaja(Pietarin valtion kulttuuri- ja taideyliopisto)

Painettu asetuksella
Toimitus- ja julkaisuneuvosto
Pietarin valtionyliopisto

Zakharov V.P.

Z-38 Tiedonhakujärjestelmät: Koulutusmenetelmä. korvaus. - Pietari, 2005. - 48 s.

Ehdotettu käsikirja sisältää kuvauksen dokumentaarisen tiedonhaun perusteista, Pietarin osavaltion yliopiston rakenne- ja sovelletun kielitieteen laitoksen 3. vuoden opiskelijoista opiskelevan akateemisen tieteenalan ”Tiedonhaun teoria” ohjelman sekä joukko laboratorio (käytännön) töitä tällä tieteenalalla. Erillinen laboratoriotyöt käytetään muiden kurssien ja muiden alojen opiskelijoiden opettamiseen. Käsikirja perustuu tutkimukseen ja opetustoimintaa kirjoittaja.

Sovelletun kielitieteen, tietojärjestelmien ja automaattisten tekstinkäsittelyjärjestelmien alaan erikoistuneille perustutkinto- ja jatko-opiskelijoille.

ã V.P. Zakharov, 2005

ã Pietari
osavaltio
yliopisto, 2005

1. Johdatus teoriaan ja käytäntöön
tiedonhaku

1.1. Tiedonhaun peruskäsitteet

Tiedonhakujärjestelmä (IPS) on järjestetty kokoelma asiakirjoja (asiakirjataulukoita) ja tietoteknologioita, jotka on suunniteltu tietojen - tekstien (asiakirjojen) tai tietojen (faktien) - tallentamiseen ja hakemiseen. Tiedonhakujärjestelmät ovat mitä tahansa tietyllä tavalla järjestettyjä tietovarastoja. Lisäksi tiedonhakujärjestelmät voivat olla myös automatisoimattomia. Pääasia on kohdetoiminto: tiedon tallennus ja haku.

Tallennusobjektista ja pyynnön tyypistä riippuen erotetaan kaksi tiedonhakutyyppiä: dokumentaarinen ja tosiasiallinen - ja vastaavasti kahden tyyppiset tiedonhakujärjestelmät - dokumentaarinen ja faktatieto. Jälkimmäisiä kutsutaan myös tiedon ja viitetiedon hakujärjestelmiksi.

Dokumentti Niitä kutsutaan tiedonhakujärjestelmiksi, jotka toteuttavat temaattisten kyselyiden haun asiakirjojen tai tekstien joukosta ja tarjoavat sitten käyttäjälle osajoukon näistä asiakirjoista tai niiden kopioista. Asiakirjan käsite voi vaihdella järjestelmästä toiseen. SISÄÄN yleinen tapaus tämä on tietty tietoobjekti, joka on kiinnitetty (yleensä jonkin merkkijärjestelmän kautta) joihinkin materiaalinen väliaine(paperi, valokuva ja filmi, magneettinen muisti jne.) ja tarkoitettu siirrettäväksi avaruudessa ja ajassa sosiaalisen viestinnän järjestelmässä.

Asiallista Tiedonhakujärjestelmät toteuttavat suoraan asiatietojen (esineiden, prosessien, ilmiöiden, osoitteiden, nimien, määrällisten tietojen tieteelliset, tekniset, taloudelliset ominaisuudet ja ominaisuudet, jne.) tallentamisen, etsimisen ja julkaisemisen.

Suurin, olennainen ero dokumentaarisen ja faktahaun välillä on lähestymistapa dokumenttien semantiikkaan. Dokumenttijärjestelmät kuvaavat asiakirjojen merkitystä kokonaisuutena niiden temaattisen, aihesisällön näkökulmasta. Tässä tapauksessa on tärkeää tunnistaa ja nimetä (luettelo) tärkeimmät aiheet ja objektit, joille asiakirja on omistettu. Faktajärjestelmissä objektit kuvataan, niiden ominaisuudet ja näiden ominaisuuksien merkitykset tallennetaan. Tästä johtuvat erot kuvauskielissä ja kuvausten tallennusmenetelmissä järjestelmään. Näin ollen jokaisella hakutyypillä on omat hakutyökalunsa.

Faktajärjestelmiin kuuluu kerääminen ja haku tiukasti säädellyn rakenteen omaavien asiakirjojen joukosta. Tällainen rakenne on joko tulosta asiakirjojen alustavasta älyllisestä käsittelystä, kun tietoja syötetään järjestelmään, tai tällaisten asiakirjojen saatavuudesta valmiissa muodossa tietyillä ihmisen toiminnan alueilla, esimerkiksi kirjanpitolomakkeet, lomakkeet, hakuteokset, aikataulut jne. . On olemassa faktatietojärjestelmiä, jotka tarjoavat tiedon keräämisen ja hakevat vain yhden tyyppisiä objekteja ja vain yhden tyyppisiä kyselyjä. On myös kehittyneempiä faktografisia järjestelmiä, jotka mahdollistavat sisällöltään ja rakenteeltaan erilaisten tietojen tallennuksen ja haun, mutta tämä monimuotoisuus on aina rajallinen.

Samaan aikaan ei ole ylitsepääsemätöntä eroa dokumentti- ja faktajärjestelmien välillä. Usein todelliset tiedonhakujärjestelmät ovat esimerkki sekajärjestelmistä, joissa faktatietoa käytetään lisäkeinona dokumenttien hakuun ja päinvastoin. Dokumenttijärjestelmissä tekstit (asiakirjat) voidaan myös jäsentää, jakaa osioihin tai kenttiin ja dokumenttitiedon käsittely ja jakelu voidaan suorittaa yksittäisten kenttien tasolla.

On myös kolmannen tyyppisiä järjestelmiä, joita kutsutaan informaatioloogisiksi. Nämä ovat järjestelmiä, jotka vastaavat pyyntöihin tietokanta yksiselitteistä vastausta ei ole. Extralingvistinen tietokanta ja jo saatavilla olevasta (dokumentaarisesta tai asiallisesta) algoritmisesti generoitu tieto auttavat saamaan vastauksen. Tämä uusi tieto joko vastauksena pyyntöön tai käytetään lisäksi hakuun.

Dokumenttityyppinen tiedonhakujärjestelmä on asiakirjojen tilattu kokoelma sekä joukko työkaluja ja menetelmiä, jotka on suunniteltu dokumenttitietojen tallentamiseen, etsimiseen ja pyynnöstä luovuttamiseen. Dokumentaarinen IPS julkaisee asiakirjoja, jotka vastaavat aihetta tai aihetta koskevaa pyyntöä. Kutsutaan asiakirja, jonka keskeinen aihe tai aihe yleensä vastaa tietopyynnön semanttista sisältöä asiaankuuluvaa , A semanttisen läheisyyden ominaisuus kahden tai useamman tekstin välillä (in tässä tapauksessa- asiakirjan ja tietopyynnön välillä) - merkityksellisyys . Relevanssi on peruskäsite tiedonhakuteoriassa. He puhuvat kahdesta merkityksestä: semanttisesta ja muodollisesta. Asiakirjan vastaavuutta tietopyynnön sisältöön kutsutaan semanttiseksi relevanssiksi ja tämän asiakirjan hakukuvan vastaavuutta tätä ilmaisevaan formalisoituun hakumääräykseen. informaatio pyyntö, - muodollinen merkitys. Muodollista relevanssia kutsutaan myös asiakirjan relevanssiksi ja semanttista relevanssia on tiedon relevanssi (tarkoittaa "asiakirjan sisältämää tietoa").

Tietojärjestelmän osia kutsutaan osajärjestelmiksi. Osajärjestelmiin jako on tarpeellista ja hyödyllistä sekä kehittämisen että järjestelmien toimintatekniikan kuvaamisen kannalta. Sillä voi olla eri perusta. Yleensä harkitaan kahdenlaista tietojärjestelmien jakoa osajärjestelmiin: toimintaperiaatteen mukaan (toiminnalliset osajärjestelmät) ja välineiden tyypin mukaan (tukijärjestelmät).

Erilaisia IPS-toimintoja toteuttavia työkaluja kutsutaan tukevia alajärjestelmiä tai "määräyksiä". Seuraavat alajärjestelmät erotetaan: kielellinen tuki, tietotuki, tekninen tuki, ohjelmistot, tekninen tuki, henkilöstö jne.

Tietotuki - nämä ovat tietotaulukoita (asiakirjat, kyselyt, metatiedot) sekä työkaluja ja menetelmiä niiden kuvaamiseen, rakentamiseen ja luokitteluun.

Kielellinen tuki - Tämä on loogis-semanttinen laite, joka koostuu tiedonhakukielestä, sovellussäännöistä (indeksointitekniikat), myöntämiskriteereistä ja muista kielellisistä keinoista.

Ohjelmisto - Nämä ovat algoritmeja ja ohjelmistoja, jotka toteuttavat kaikki tietojärjestelmän toiminnot tietokoneella.

Tekninen tuki - Nämä ovat teknisiä välineitä (tietokoneet, tietoliikenne), jotka mahdollistavat tietojen tallennuksen, haun ja siirron.

Tekninen tuki - tämä on sarja ja menettelytapa, jolla suoritetaan automatisoituja ja ei-automaattisia prosesseja ja menettelyjä tietojärjestelmän tietojen käsittelyssä, mukaan lukien niiden kuvaus, tietotekniikkakaaviot ja ohjemateriaalit.

Henkilöstön (tai henkilöstön) tuki - nämä ihmiset ovat vuorovaikutuksessa järjestelmän kanssa ja varmistavat sen toiminnan (huoltohenkilöstö).

IPS on myös jaettu komponenttiosiin (alijärjestelmiin) toiminnallisten kriteerien mukaan, kun jokainen osajärjestelmä suorittaa tietyn toiminnon tekninen prosessi: asiakirjojen syöttäminen, asiakirjojen indeksointi, kyselyjen syöttäminen ja säätäminen, kyselyjen indeksointi, haku, sanakirjojen ylläpito, tilastojen ylläpito, hakutulosten käsittely, asiakirjojen myöntäminen jne. Tällaisia osia kutsutaan ns. toiminnalliset osajärjestelmät .

Tiedonhaussa tärkeitä käsitteitä ovat dokumentti ja kysely. Asiakirja määritellään keinoksi kiinnittää millään tavalla erityiseen materiaaliin mitä tahansa tietoa tosiasioista, tapahtumista, objektiivisen todellisuuden ilmiöistä ja ihmisen henkisestä toiminnasta. Asiakirjoilla on erilaisia esitysmuotoja. Automaattisissa dokumentaarisissa tiedonhakujärjestelmissä tämä on ensisijaisesti tekstitietoa luonnollisilla kielillä koneellisesti luettavassa muodossa.

Pyyntö on luonnollisella kielellä muotoiltu tiedontarve. "Käännöksen" tulos informaatio pyyntö tiedonhakukielessä kutsutaan hakukyselyn kuva (POZ) tai etsi reseptiä (PP). Tämä ymmärretään ilmaisuksi in kyselyn kieli , joka sisältää sekä itse FP:n että hakusäätimet. Kyselykielten syntaksi ja semantiikka määräytyvät asiakirjojen rakenteen ja sisällön sekä järjestelmän yleisten tehtävien mukaan.

Kolmas osa tiedon tarjonnasta on ns. ”ongelma”, hakutulokset. On olemassa kahdenlaisia kysymyksiä: asiakirjojen lyhyet kuvaukset ja itse asiakirjat.

Tiedonhakujärjestelmien tärkein komponentti on tiedonhakukieli. Voidakseen valita tarvittavat asiakirjat asiakirjojen joukosta, henkilön on luettava tai katsottava niiden sisältö. Tämän menettelyn nopeuttamiseksi ja yksinkertaistamiseksi on olemassa erilaisia muotoja dokumenttien sisällön lyhennetty tallennus - huomautukset, tiivistelmät, luettelot. Mutta kaikissa näissä tapauksissa asiakirjojen valintaan käytetään luonnollista kieltä niiden lyhennettyjen kuvausten perusteella. Sellaiset kielellisten merkkien ”haitat”, kuten homonyymi, synonyymia ja polysemia, tunnetaan hyvin. Monien sanojen tarkka merkitys voidaan ymmärtää vain kontekstissa. Tämä estää luonnollisen kielen käytön käsitteellisen tiedon kaappaamiseen ja tunnistamiseen. Siksi muodolliset järjestelmät, jotka oli suunniteltu tallentamaan dokumenttitietoja myöhempää hakua varten, vaativat erityisten luomista tietokieliä. Tiedonhakukielet ovat viittomajärjestelmiä, joissa on omat aakkoset, sanasto, kielioppi ja käyttösäännöt. Huomaa vain, että kaikki keinotekoiset kielet on tavalla tai toisella luotu ja luodaan luonnollisten kielten pohjalta.

Asiakirjoja ja pyyntöjä verrattaessa on tarpeen määrittää asiakirjan relevanssi pyyntöön nähden ja tehdä päätös asiakirjan myöntämisestä tai jättämisestä antamatta tätä pyyntöä varten. Säännöt, joihin muodollisesti määritetään asiakirjan ja pyynnön relevanssiaste, ts. POD- ja POS-yhteiskuntaa kutsutaan semanttisen vastaavuuden kriteeri (KSS), tai myöntämiskriteeri .

Matemaattiset mallit ja kaavat relevanssikertoimen laskemiseksi voivat olla hyvin erilaisia. Käytännössä IPA:t looginen myöntämiskriteeri , kun PP:t muodostetaan käyttämällä konjunktio (&), disjunktio (\/), negaatio (~) loogisia (Boolen) operaattoreita. Tässä tapauksessa looginen kyselylauseke on joukko hakuelementtejä (yleensä avainsanoja), yhdistettynä loogisiin operaattoreihin ja sulkeisiin, jotka ovat välttämättömiä osoittamaan, missä järjestyksessä lauseet suoritetaan. PP-avainsanat toimivat Boolen muuttujina, jotka saavat arvon 1 ("true"), jos annettu sana sisältyy asiakirjaan, ja 0 ("false"), kun sitä ei ole. Asiakirjaa pidetään pyynnön kannalta merkityksellisenä, jos pyynnön looginen kaava kokonaisuutena vastaanottaa tästä asiakirjasta arvo "true" ja epäolennainen, jos loogisen kaavan arvioinnin tulos on "false".

Logiikassa konjunktiota, disjunktiota ja negaatiota kuvaavat symbolit (&, \/, ~) korvataan tiedonhauissa yleensä operaattoreilla AND, OR ja NOT. Venäjällä nimityksiä JA, TAI, EI käytetään useammin. Yleensä kuitenkin kussakin tietyssä IRS:ssä valitaan Boolen operaattoreiden merkinnät, ja joskus käyttäjän mukavuuden vuoksi samalle operaattorille otetaan käyttöön useita symboleja (esimerkiksi Aport IRS:ssä konjunktiooperaattori voidaan määrittää seuraavilla merkeillä: &, välilyönti, AND , ja, +).

Boolen operaattorien käyttö tarjoaa käyttäjäystävällisen logiikan asiakirjojen ja kyselyiden vertailuun. Haku (PP-elementtien totuuden laskeminen) suoritetaan pääsääntöisesti käyttämällä erityisiä indeksitiedostoja (käänteisiä), jotka on rakennettu dokumenttiryhmän sanaston perusteella, ja sille on ominaista suuri nopeus. Tämä loogisen CSS:n yksinkertaisuus ja selkeys ovat syynä sen laajaan käyttöön.

Haun tehokkuuden arviointiongelma on monimutkainen ongelma, joka sisältää sekä teoreettisen että käytännön puolen. IRS:n tärkeimmät toiminnalliset (tekniset) merkityksellisyyteen perustuvat indikaattorit ovat täydellisyys ja tarkkuus, jotka perustuvat asiakirjojen jaotteluun merkityksellisiin ja epäolennaisiin sekä myönnettyihin ja myöntämättömiin.

Haun täydellisyys (P) (englanniksi Recall - R) on suuren suhteena laskettu mitta annettu asiaankuuluva asiakirjoja varten asiaankuuluvien kokonaismäärä tietojoukon sisältämät asiakirjat.

Haun tarkkuus (T) (englanniksi Precision - P) on määrän suhde annettu asiaankuuluva asiakirjoja varten myönnettyjen asiakirjojen kokonaismäärä.

1.2. Tietojen haku Internetistä

Siirtyminen kohteeseen tietoyhteiskunta 2000-luku on aiheuttanut ennennäkemättömän lisääntyneen tiedon määrän ja keskittymisen maailmanlaajuisissa tietokoneverkoissa. Tämä on pahentanut jyrkästi tiedonhakujärjestelmien (IRS) luomisen ja niiden tehokkaan käytön ongelmaa.

Automaattisten tiedonhakujärjestelmien historia ulottuu puolen vuosisadan taakse. Tyypillinen alkuvuosien tiedonhakujärjestelmä on ihminen-kone -järjestelmä, jossa asiakirjojen sisällön analysointi ja kuvaus (indeksointi) tehdään manuaalisesti ja haut koneellisesti. Aluksi tiedonhakukielten (IRL) perusta, jonka pääelementtejä ovat kuvaajasanakirjat ja asiasanakirjat. Nykyään useimmat toimivat tietojärjestelmät kuuluvat kuitenkin ei-thesaurustyyppisten verbaalisten järjestelmien luokkaan, kun indeksointitermit valitaan suoraan asiakirjateksteistä. Sähköisen dokumenttitiedon lumivyörymäinen kasvu, sen tyyppi, temaattinen ja kielellinen monimuotoisuus on sekä syy nykyajan tiedonhaun kriisiin että kannustin sen parantamiseen.

Resurssien etsimisen ongelma Internetistä havaittiin melko pian, ja vastauksena hakuun ilmestyi erilaisia järjestelmiä ja ohjelmistotyökaluja, joiden joukossa ovat järjestelmät Gopher, Archie, Veronica, WAIS, WHOIS jne. Viime aikoina näitä työkaluja on käytetty korvataan World Wide Web WWW:n "asiakkailla" ja "palvelimilla".

Jos yritämme luokitella Internetin IPS:n, voimme erottaa seuraavat päätyypit:

1. Verbaalinen IRS (hakukoneet)

2. Luokitus IRS (hakemistot)

3. Sähköiset hakemistot("keltaiset" sivut jne.)

4. Tietyntyyppisten resurssien erikoistuneet tietojärjestelmät

5. Älykkäät agentit.

Kaikkien Internet-resurssien globaali kirjanpito tapahtuu verbaalisilla ja osittain luokittelujärjestelmillä.

Luokitus IPS toteuttaa web-avaruudessa navigointia erityisten osoittimien perusteella, jotka ovat luokittelujen perusteella rakennettuja temaattisia "puita". Internetin resurssien luokittelumallit ovat tyypillisesti puurakenteita, joiden solmut on nimetty luonnollisen kielen sanoilla. Eri luokitusjärjestelmät eroavat toisistaan laajuudeltaan ja laatimismenetelmiltään. Yksi universaalien hierarkkisten luokittelujen haitoista on, että ne ovat konservatiivisia ja jäävät jäljessä tieteen, tekniikan ja elämän kehityksestä yleensä. Luokittelun pääongelma hakupalvelut- tämä on luokitteluautomaatiota. Toistaiseksi automaattisen luokittelun ongelma ei ole löytänyt tyydyttävää ratkaisua. Web-sivustojen ja verkkosivujen rekisteröinnin hakemistoihin tekevät yleensä ihmiset - tämän järjestelmän indeksoijat ja moderaattorit. Ja siksi luokitustyyppisten järjestelmien tietokannan määrä on suhteellisen pieni verrattuna koko Internetin tietokapasiteettiin.

Internet-resurssien maksimaalisen kattavuuden ongelman ratkaisemiseksi järjestelmät nimeltään metahaku(metahakukoneet). Heillä ei ole omia hakutietokantoja, ne eivät sisällä indeksejä ja käyttävät haussa muiden hakukoneiden resursseja. Tästä johtuen todennäköisyys löytää tarvittava tieto kasvaa. Pyynnön välittämiseen hakukoneeseen käytetään erityistä metahakuagenttia, joka vastaa pyynnön välittämisestä muihin järjestelmiin. Käsiteltyään vastaanotetun pyynnön jokainen järjestelmä palauttaa metahakuagentille joukon kuvauksia ja linkkejä asiakirjoihin, jotka se pitää tarpeellisina. tämä pyyntö. Kaikesta metahakukoneiden houkuttelevuudesta huolimatta sinun tulee muistaa myös niiden haitat ja haitat. Ensinnäkin yhtenäisen kyselykielistandardin puuttuminen ei salli metajärjestelmien saavuttaa samoja tuloksia hakukoneista, jotka suorittavat kyselyitä metahakukoneista. edistynyt käyttäjä kun työskentelet jokaisen koneen kanssa erikseen.

Maailmanlaajuisia tiedonhakujärjestelmiä tulisi pitää nykyään tärkeimpänä tiedonhaun välineenä Internetistä. sanallinen tyyppi(hakukoneet), indeksointi (by vähintään, väittäen tämän) koko Internet-tilan. Tämän tyyppisiä päähakukoneita (pääasiassa tietokannan koon suhteen) ovat Google, Fast (AlltheWeb), AltaVista, HotBot, Inktomi, Teoma, WiseNut, MSN Search. Venäläisistä järjestelmistä on kolme pääjärjestelmää: Yandex, Rambler ja Aport! (Aportti). Hakutietokannan täydellisyys ja verkkosivujen indeksoinnin tehokkuus on pääongelma kaikki Internetin IPS. Pääsääntöisesti järjestelmät, joissa on suurempi tietokantavolyymi, tuottavat haun tuloksena suuremman määrän asiakirjoja. Suuri, sekä kielellinen että ohjelmisto ongelma- Internet-tietoavaruuden monikielisyys ja tiedon esitysmuotojen monipuolisuus. Suuret globaalit järjestelmät selviävät kuitenkin näistä ongelmista.

Sanalliseen IPS:ään kiinnitetään päähuomio oppaan käytännön osassa. Ensinnäkin käyttäjätaso mallinnetaan, ilmaistaan kyselykielillä ja pyyntö-vastausrajapinnoilla. Tuotettu vertaileva analyysi Internetin eri tiedonhakujärjestelmien kyselykieliä.

Erikoisuus nykyaikaiset järjestelmät - koko tekstihaku. Monet verbaaliset tiedonhakujärjestelmät Internetissä laskevat asiakirjojen merkityksen kyselyille vertaamalla kyselyelementtejä Internetiin lähetettyjen asiakirjojen kokonaisiin teksteihin. Mitä tulee tiedonhakukieleen, luonnollisten kielten tavalliset sanat toimivat yleensä hakuelementteinä. Pyynnöt muotoillaan erityisen käyttöliittymän kautta, joka toteutetaan selainohjelmien näyttölomakkeiden muodossa.

On hyödyllistä ymmärtää, miten nämä järjestelmät toimivat. Jokaisessa hakukoneessa on kolme pääosaa.

Robotti - alijärjestelmä, joka tarjoaa Internetin selaamisen (skannauksen) ja pitää käänteisen tiedoston (hakemistotietokanta) ajan tasalla. Tämä ohjelmistopaketti on tärkein tapa kerätä tietoa verkon tietoresurssien saatavuudesta ja tilasta.

Hae tietokannasta - niin sanottu indeksi - erityisesti järjestetty tietokanta (englanninkielinen indeksitietokanta), joka sisältää ennen kaikkea käänteisen tiedoston, joka koostuu indeksoiduista verkkodokumenteista poimituista leksikaalisista yksiköistä ja sisältää niistä monenlaista tietoa (erityisesti niiden sijainnit asiakirjoissa), sekä asiakirjoista ja sivustoista yleensä.

Hakujärjestelmä - hakualijärjestelmä, joka käsittelee käyttäjän pyynnön (hakujärjestyksen), tekee haun tietokannasta ja tarjoaa hakutuloksia käyttäjälle. Hakukone kommunikoi käyttäjän kanssa kautta käyttöliittymät- selainohjelmien näyttömuodot: käyttöliittymä kyselyjen luomiseen ja käyttöliittymä hakutulosten katseluun.

Hakemistotiedosto (tai yksinkertaisesti hakemisto) on joukko toisiinsa yhdistettyjä tiedostoja, joiden tarkoituksena on hakea nopeasti tietoja pyynnöstä. Indeksi perustuu aina käänteiseen tiedostoon. Käänteinen (käänteinen) piiri Hakutaulukon organisointi perustuu periaatteeseen, että asiakirjoihin pääsee käsiksi niiden sisältötunnisteiden kautta (haun ominaisuudet: kuvaukset, avainsanat, termit, muut ominaisuudet). Tämä järjestelmä saadaan käsittelemällä peräkkäinen joukko asiakirjoja erityisten käänteisten aputiedostojen - tukiasemien - luomiseksi.

Jokainen tällaisen aputaulukon tietue tunnistetaan vastaavalla sisältötunnisteella (kuvaaja, avainsana, pelkkä termi, tekijän nimi, organisaation nimi jne.) ja sisältää kaikkien niiden asiakirjojen nimet (tallennusosoitteet), joiden hakukuvissa se on. sisältyy. Jokaiselle käänteisen taulukon sisältötunnisteelle (hakutietoelementille) asiakirjan osoitteen (numeron, nimen) kanssa voidaan tallentaa (ja yleensä tallennetaan) lisätietoja, kuten: kentän nimi, lausenumero, joka sisältää tämä elementti löytyy tästä asiakirjasta, sanan numero lauseessa jne. Kun määrität sanan sijainnin tekstissä tarkasti lauseen numeron ja tämän sanan numeron mukaan lauseessa, voit rakentaa joustavan kyselykielen, jonka avulla voit asettaa sanojen ja lauseiden välisen etäisyyden asiakirjassa. Paikkaominaisuuksia käytetään myös laskettaessa osuvuuskerrointa ja sijoitettaessa asiakirjoja hakutuloksissa.

Löytäminen tarvittavat asiakirjat käänteisen tiedoston läpi ei suoriteta koko taulukon jatkuvalla skannauksella, vaan katsomalla vain ne käänteisessä tiedostossa olevat sisältötunnisteet, jotka on määritelty hakuohjeessa, ts. sanavertailuoperaatioiden määrä haun aikana on verrannollinen hakumääräyksen termien määrään. Tämä käyttöjärjestelmätapa vähentää hakuaikaa ja mahdollistaa tiedon kuluttajien palvelemisen reaaliajassa.

Indeksihaut ovat toimintoja hakuelementtien tunnisteluetteloilla hakumallin ja hakukriteerien mukaisesti. Tuloksena oleva luettelo asiaan liittyvistä asiakirjoista (nykyaikaisen terminologian mukaan "vastaus"), joka muunnetaan paremmuusjärjestykseen lyhyiden asiakirjojen kuvauksista. hypertekstilinkkejä ja muut ominaisuudet palautetaan käyttäjälle hänen asiakasselainohjelmassaan. Dokumentin nimen napsauttaminen sen lyhyessä kuvauksessa (hyperlinkin kautta) pyytää asiakirjaa joko suoraan palvelimelta, jolla se sijaitsee, tai hakukoneen tietokannan kautta.

Tärkeä komponentti nykyaikaiset tietojärjestelmät ovat ns. front-end-verkkosivuja, ts. näyttölomakkeet, joiden kautta käyttäjä kommunikoi hakukoneen kanssa. Käyttöliittymäsivuja on kahta päätyyppiä: kyselysivut ja hakutulossivut.

indeksoi mahdollisimman monen sivuston kokonaiset tekstit;

"pätevä" työ sanamuotojen kanssa - IPS:n kyky tunnistaa saman lekseemin eri sanamuodot eri tavalla, luoda kanoninen muoto - lemma, ja kyky tunnistaa tietty muoto monien sanamuotojen joukosta;

Väitöskirjan tiivistelmä

Käyttöesimerkkejä ja muuta tietoa Dokumentti tiedollisesti-hakukonejärjestelmä – tiedollisesti-hakukonejärjestelmä, suunniteltu etsimään asiakirjoja, jotka sisältävät...

Automaattiset tiedonhakujärjestelmät
Opetusohjelma
Automaattinen tyyppi tiedollisesti-hakukoneet järjestelmät: dokumentti, fakta ja tiedollisesti- aivojumppa. Dokumentti automatisoitu tiedollisesti-hakukonejärjestelmä – järjestelmä, suunniteltu...
Diplomityön aihe: "Tiedonhakujärjestelmän tietoagentin (robotin) kehittäminen tiedon keräämiseen Internetistä"
Diplomi
DIPLOMAPROJEKTI Aihe: "Kehitys tiedottava agentti (robotti) tiedollisesti-hakukonejärjestelmät kerätä tietoja...) V.K. Ivanov, K.V. Ivanov, Johdatus tiedollisesti-hakukoneetjärjestelmät. (/window_catalog/pdf2txt?p_id=28415) I. Nekrestyaninov...

Tiedonhakujärjestelmät keskittyvät ratkaisemaan ongelmia, jotka liittyvät tiedon, asiakirjan tai tosiasian etsimiseen erilaisista tietolähteistä (asiakirjoista). Tällaisissa järjestelmissä ei ole mielekästä tietojenkäsittelyä. Ne syöttävät, systematisoivat, tallentavat ja antavat tietoja käyttäjän pyynnöstä ilman monimutkaisia datamuunnoksia. Esimerkiksi tiedonhakujärjestelmä lippukirjastossa. Tällaiset järjestelmät tallentavat tietotaulukon, josta tarvittavat tiedot saadaan käyttäjän vaatimusten mukaisesti. Tietojen haku käyttäjän pyynnöstä tapahtuu joko automaattisesti tai manuaalisesti.

Asiakirjan hakukuva (SID) saadaan indeksointiprosessin tuloksena, joka koostuu kahdesta vaiheesta: asiakirjan merkityksen tunnistamisesta ja merkityksen kuvauksesta erityisellä tiedonhakukielellä (IRL). Verohallinnolle osoitettu pyyntö kuvataan myös tällä kielellä. Asiakirjan etsiminen koostuu järjestelmään tallennettujen PRI:iden joukon ja pyynnön nykyisen hakukuvan (SRI) vertailusta, jonka seurauksena käyttäjälle annetaan vaadittu asiakirja tai hylkäys.

Tiedonhakujärjestelmät jaetaan kahteen tyyppiin.

Dokumentti (dokumentti)

Nämä ovat järjestelmiä, joissa tallennuksen ja käsittelyn kohteena ovat itse asiakirjat. Tällaisessa tietojärjestelmässä kaikki tallennetut asiakirjat indeksoidaan jollain erityisellä tavalla. Jokaiselle asiakirjalle (artikkelille, raportille, protokollalle jne.) on määritetty yksilöllinen koodi, joka muodostaa asiakirjan hakukuvan. Haku ei perustu itse asiakirjoihin, vaan niiden hakukuviin, jotka sisältävät tietoa (osoite) dokumentin sijainnista. Näin kirjoja etsitään isoista kirjastoista lukijatilauksilla (pienissä kirjastoissa kirjastonhoitaja etsii kirjat yleensä itse). Lukijan pyynnöstä he löytävät ensin kortin luettelosta, ja sitten siinä ilmoitetun koodin avulla löydetään itse kirja. Dokumentografisten tietojen hakujärjestelmien väliset erot määräytyvät sen mukaan, miten asiakirjan hakukuva on rakennettu. Yksinkertaisimmassa tapauksessa tämä on yksinkertaisesti sen yksilöllinen nimi (esimerkiksi nimi, kirjoittaja, kirjan julkaisuvuosi). Monimutkaisemmissa tapauksissa asiakirjan hakukuvan ja itse asiakirjan välillä ei ole henkilökohtaista vastaavuutta. On täysin mahdollista, että asiakirjan hakukuva vastaa useita eri dokumentteja ja päinvastoin sama dokumentti ei vastaa yhtä, vaan useampaa hakukuvaa.

Faktatietojen hakujärjestelmä – IRS

Tämä on järjestelmä, jossa kohde tai kokonaisuus on ongelma-alueen monenvälisesti kiinnostava (työntekijä, sopimus, tuote jne.). Tietoja näistä kokonaisuuksista voi olla useissa eri syötteissä ja alkuperäiset viestit.. Toisin kuin dokumentografiset tietojärjestelmät, tämäntyyppiset tietojärjestelmät eivät tallenna asiakirjoja, vaan mihin tahansa aihealueeseen liittyviä faktoja . Tallennetut faktat voidaan poimia eri asiakirjoista. Itse asiassa ne on yhdistetty toisiinsa erilaisten suhteiden järjestelmällä. Tällaista IRS-verkkoa kutsutaan aihealueen tesauruseksi. Asiatietojen hakujärjestelmiin lähetetyt kyselyt etsivät kyselyihin vastauksia sanastoa käyttäen. Haku suoritetaan mallihakumenetelmällä, jota käytetään laajalti järjestelmän tietokannoissa tekoäly. Faktatyyppiset verohallinnot ovat vähitellen lähestymässä organisaatiossaan ja toiminnassaan kehittyneitä tietokantoja ja tietämystä.

Kaikkien hakujärjestelmien perustana ovat tietokannat - kokoelma dataa, joka on järjestetty rajoittavien sääntöjen mukaan, jotka tarjoavat yleiset periaatteet tietojen kuvaamiselle, tallentamiselle ja käsittelylle sovellusohjelmista riippumatta.

Tietojärjestelmien toiminnasta voidaan erottaa seuraavat elementit:

Tiedonkeruu - järjestetty sisään Erikois tilaus tietojen keräämis- ja näyttämisprosessi:

Tietojen vastaanottaminen;

Tiedon relevanssin arviointi;

Tietojen valinta- ja tallennusmenettely.

Täydentäminen on prosessi, jossa yhdistetään useista osista peräisin oleva tieto yhdeksi kokonaisuudeksi ja tuodaan se käyttäjälle.

Tiedon haku ja antaminen - erityisen teknologisen menettelyn luominen tietojärjestelmän tilaajien tietotarpeiden täyttämiseksi johtamistoimintaa ja teknologiset prosessit.

Tietojen eheyden ja säilymisen ylläpitäminen - merkityksensä menettäneen tiedon tarkistaminen, auditointi ja seulominen on olennainen tietoosastojen tehtävä. Tietojen turvallisuus toteutetaan säädös- ja ohjeasiakirjojen avulla.

Tallennetun tiedon loogisen järjestyksen tarjoamisen luonteen mukaan tietojärjestelmät jaetaan asiatieto-, dokumentti- ja paikkatietoon.

Faktatietojärjestelmät keräävät ja tallentavat tietoja useiden yhden tai useamman tyyppisen rakenneelementin esiintymänä. Jokainen näistä rakenteellisista elementeistä tai niiden yhdistelmästä heijastaa tietoa jostakin tosiasiasta tai tapahtumasta. Kunkin tietoobjektin rakenne koostuu rajallisesta joukosta yksityiskohtia, jotka kuvastavat tietyn aihealueen kohteiden tiedon pääasiallisia näkökohtia ja ominaisuuksia.

Dokumentaarisissa tietojärjestelmissä yksittäinen tietoelementti on dokumentti, jota ei jaeta pienempiin osiin ja tieto on syötettynä pääsääntöisesti jäsentämätöntä tai se on jäsennelty rajoitettuun muotoon. Syötetylle asiakirjalle voidaan asettaa joitakin virallisia paikkoja - valmistuspäivä, taiteilija, aihe. Tietyntyyppiset dokumenttitietojärjestelmät varmistavat loogisen suhteen luomisen syötettyjen asiakirjojen välille - semanttisen sisällön alisteisuus.

Paikkatietojärjestelmissä tiedot järjestetään erillisiksi tietoobjekteiksi, jotka on yhdistetty yhteiseen sähköiseen topografiseen perustaan. Paikkatietojärjestelmät käytetään tiedon tukena niillä aihealueilla, tietoobjektien rakenteessa ja prosesseissa, joissa on maantieteellinen komponentti.

Toinen hakukoneiden luokittelukriteeri on niiden ratkaisemat toiminnot tai tehtävät. Tämän perusteella viite-, haku- ja selvitysjärjestelmät eroavat toisistaan.

Tietojärjestelmät ovat yleisin tietojärjestelmien toimintotyyppi, ja ne sisältävät järjestelmän tilaajille mahdollisuuden hankkia asennustietoja tiettyjen objektiluokkien osalta.

Hakukoneet ovat yleisin tietojärjestelmien luokka. Yleisesti ottaen sitä voidaan pitää eräänlaisena informaatiotilana, joka määritellään informaationa - looginen kuvaus aihealue.

Laskennassa käsitellään järjestelmässä olevia tietoja tiettyjen laskenta-algoritmien mukaisesti eri tarkoituksiin.

Tietojärjestelmien teknologiset tehtävät ovat koko teknologian syklin tai sen yksittäisten komponenttien, tuotannon tai organisaatiorakenteen automatisointi.

Siten IPS:n päätoimintoihin kuuluvat:

suurten tietomäärien tallentaminen;

Etsi tarvittavat tiedot nopeasti;

Tallennettujen tietojen lisääminen, poistaminen ja muuttaminen;

Näytä tiedot ihmisystävällisessä muodossa.

On: - automatisoitu (tietokoneistettu);

Bibliografinen (viite);

Dialogi (online);

Dokumentaariset ja tosiasialliset tiedonhakujärjestelmät.

Tiedonhakujärjestelmät ovat viime aikoina alkaneet kehittyä nopeasti, uusia järjestelmiä ilmestyy, niitä mainostetaan ja myydään laajasti. Tämä johtuu yhteiskunnan merkittävästi lisääntyneestä tarpeesta tehokasta työtä oikeudellisten, lainsäädännöllisten ja teknisten tietojen sekä tietokoneiden tiedonhakujärjestelmien käyttö. Hakukoneiden laaja käyttö oli todellinen läpimurto tietotekniikan alalla Venäjällä ja mahdollisti yritysten teknisten asiantuntijoiden vapaan pääsyn oikeudellisiin, sääntelyyn ja teknisiin asiakirjoihin.

Asiantuntijan tekemien päätösten laatu riippuu käsiteltävän tiedon määrästä. SISÄÄN nykyaikaiset olosuhteet tehdä ilman voimakas ja kätevä työkalu, joka auttaa tiedon etsimisessä ja käsittelyssä, on mahdotonta. Hakukoneiden tehokas käyttö riippuu siitä, kuinka paljon teknikko tuntee näiden uusien tietojärjestelmien erityispiirteet, ominaisuudet ja laajuuden.

Nykyaikaisten tiedontallennusjärjestelmien luominen tapahtuu kahdella päätavalla: käyttämällä hierarkkisia ja hypertekstimalleja. Hierarkkinen malli käyttää monitasoista rubrikointia tietojen luokittelemiseen. Käytä asiakirjaa etsiäksesi asiakirjaa Lyhyt kuvaus, joka on koottu syötettäessä tietoja järjestelmään. Nykyaikainen hypertekstimalli mahdollistaa sähköisten asiakirjojen linkkien käyttämisen muihin asiakirjoihin.

Kokemus erilaisiin tällaisiin malleihin perustuvien tietojenkäsittely- ja hakujärjestelmien käytöstä osoittaa, että niissä ei ole haittoja. Molemmat järjestelmät vaativat merkittäviä materiaalikustannuksia kehittämiseen ja muodostamiseen, ja siksi ne ovat rajoitettuja tallennettavan tiedon määrässä. Rubrikaattoreiden ja linkkien muodostamisen tekevät asiantuntijat, ja heidän ymmärryksensä tiedosta ja käyttäjän ymmärrys voi vaihdella.

http://www. *****/dir/cat32/subj385/file16459/view156596/page2.html

Tiedonhakujärjestelmät. Kysymyksiä kokeeseen

1. Tiedon käsite. Tietotyypit. Ominaisuudet.

Tiedot(latinasta informatio - tietoisuus, selitys, esitys) - laajassa merkityksessä abstrakti käsite, jolla on monia merkityksiä kontekstista riippuen. Sanan suppeassa merkityksessä - tiedot (viestit, tiedot) niiden esitysmuodosta riippumatta. Tällä hetkellä tieto-termille ei ole yhtä määritelmää. Näkökulmasta eri alueita tieto, tämä käsite kuvataan sen erityisillä ominaisuuksilla. Tieto on kokoelma materiaalille tallennettua tietoa, joka on tallennettu ja jaettu ajassa ja tilassa.

Tiedot- tämä on tietoista tietoa ympäröivästä maailmasta, joka on varastoinnin, muuntamisen, siirron ja käytön kohde.

Perus tietotyyppejä esitysmuodonsa mukaan tietojenkäsittelytieteen kannalta tärkeimmät sen koodaus- ja tallennusmenetelmät ovat:

graafinen tai kuvallinen

ääni

teksti

numeerinen

videotiedot

On myös tietotyyppejä, joiden koodaamiseen ja tallentamiseen ei ole vielä keksitty menetelmiä - tämä on aistimien välittämää kosketustietoa, hajujen ja makujen välittämää aistinvaraista tietoa jne.

Tietojen ominaisuudet

Kuten kaikilla esineillä, tiedolla on ominaisuuksia. Ominaista erottuva piirre Tieto muista luonnon- ja yhteiskunnallisista kohteista on dualismia: tiedon ominaisuuksiin vaikuttavat sekä sen sisällön muodostavan lähdetiedon ominaisuudet että tätä tietoa tallentavien menetelmien ominaisuudet.
Tietojenkäsittelytieteen näkökulmasta seuraavat yleiset laadulliset ominaisuudet näyttävät olevan tärkeimpiä: objektiivisuus, luotettavuus, täydellisyys, tarkkuus, relevanssi, hyödyllisyys, arvo, ajantasaisuus, ymmärrettävyys, saavutettavuus, lyhyys jne.

Tiedon objektiivisuus . Tavoite – olemassa oleva ihmistietoisuuden ulkopuolella ja siitä riippumatta. Tieto on ulkoisen objektiivisen maailman heijastus. Tieto on objektiivista, jos se ei ole riippuvainen sen tallennusmenetelmistä, kenenkään mielipiteestä tai harkinnasta.
Esimerkki. Viesti "Ulkona on lämmin" sisältää subjektiivista tietoa, kun taas viesti "Ulkona on 22°C" objektiivista tietoa, mutta tarkkuudella, joka riippuu mittauslaitteen virheestä.
Objektiivista tietoa voidaan saada käyttämällä toimivia antureita ja mittalaitteita. Ihmisen tietoisuudessa heijastuva informaatio voi vääristyä (suuremmassa tai pienemmässä määrin) tietyn aiheen mielipiteen, arvostelun, kokemuksen, tiedon mukaan ja siten lakata olemasta objektiivista. Tietojen luotettavuus . Tieto on luotettavaa, jos se kuvastaa asioiden todellista tilaa. Objektiivinen tieto on aina luotettavaa, mutta luotettava tieto voi olla sekä objektiivista että subjektiivista. Luotettava tieto auttaa meitä tekemään oikean päätöksen. Tiedot voivat olla epätarkkoja seuraavista syistä:

subjektiivisen ominaisuuden tahallinen vääristäminen (väärätieto) tai tahaton vääristäminen; häiriöstä johtuva vääristymä ("vaurioitunut puhelin") ja riittämättömät korjauskeinot.Tietojen täydellisyys . Tietoa voidaan kutsua täydelliseksi, jos se riittää ymmärtämiseen ja päätöksentekoon. Puutteelliset tiedot voi johtaa virheelliseen päätelmään tai päätökseen. Tietojen tarkkuus määräytyy sen mukaan, kuinka lähellä se on kohteen, prosessin, ilmiön jne. todelliseen tilaan. Tiedon relevanssi – nykyajan tärkeys, ajankohtaisuus, kiireellisyys. Vain oikea-aikaisesta tiedosta voi olla hyötyä. Tiedon hyödyllisyys (arvo). . Hyödyllisyyttä voidaan arvioida suhteessa sen erityisten kuluttajien tarpeisiin ja sitä arvioidaan niiden tehtävien perusteella, jotka voidaan ratkaista sen avulla.

Arvokkain tieto on objektiivista, luotettavaa, täydellistä ja ajantasaista. On otettava huomioon, että puolueellisella, epäluotettavalla tiedolla (esim. fiktiolla) on suuri merkitys ihmiselle. Sosiaalisella (julkisella) tiedolla on myös muita ominaisuuksia:

matemaattiset kaavat

2. Tiedonhaun teorian perustermit: asiakirja, tiedon tarve, dokumentin pysyvyys, relevanssi.

Asiakirja(alkaen lat. asiakirja- näyte, todistus, todiste) - aineellinen esine, joka sisältää tietoa tallennetussa muodossa ja on erityisesti suunniteltu sen välittämiseksi ajassa ja tilassa.

Tiedon tarve- tarve, joka syntyy, kun käyttäjän ammatillisen toiminnan prosessissa tai hänen sosiaalisessa ja arkielämässään kohtaamaa tavoitetta ei voida saavuttaa ilman käyttäjän osallistumista lisäinformaatio.

Merkityksellisyys

Kutsutaan tekstin (asiakirjan, asiatietueen) vastaavuus todelliseen tiedontarpeeseen asianmukaisuutta, ja yhden tekstin vastaavuus toiseen on merkityksellistä. Haettaessa tehdään ero semanttisen ja muodollisen merkityksen välillä.

Asiakirjaa, jonka keskeinen aihe tai aihe yleensä vastaa tietopyynnön semanttista sisältöä, kutsutaan relevantiksi, ja kahden tai useamman tekstin (tässä tapauksessa asiakirjan ja tietopyynnön) välisen semanttisen läheisyyden ominaisuutta. - merkityksellisyys. Merkityksellisyys on peruskäsite tiedonhaun teoriassa. He puhuvat kahdesta tyypistä Relevanssi: semanttinen ja muodollinen. Asiakirjan vastaavuutta tietopyynnön sisältöön kutsutaan semanttiseksi relevanssiksi ja tämän asiakirjan hakukuvan vastaavuutta tiettyä tietopyyntöä ilmaisevaan formalisoituun hakumääräykseen kutsutaan muodolliseksi relevanssiksi. Muodollista relevanssia kutsutaan myös asiakirjan relevanssiksi ja semanttista relevanssia on tiedon relevanssi (tarkoittaa "asiakirjan sisältämää tietoa").

3. Tiedonhakujärjestelmä. Määritelmä. IPS-rakenne.

Tiedonhakujärjestelmä (IPS) on asiakirjojen (dokumenttien joukot) ja tietoteknologioiden järjestetty järjestys, joka on suunniteltu tietojen - tekstien (asiakirjojen) tai tietojen (faktien) - tallentamiseen ja hakemiseen. Tiedonhakujärjestelmät ovat mitä tahansa tietyllä tavalla järjestettyjä tietovarastoja. Lisäksi tiedonhakujärjestelmät voivat olla myös automatisoimattomia. Pääasia on kohdetoiminto: tiedon tallennus ja haku.

Tallennusobjektista ja pyynnön tyypistä riippuen erotetaan kaksi tiedonhakutyyppiä: dokumentti Ja tosiasiallinen- ja vastaavasti kaksi IPS-tyyppiä - dokumentaarinen ja tosiasiallinen. Jälkimmäisiä kutsutaan myös tiedon ja viitetiedon hakujärjestelmiksi.

Dokumentti Niitä kutsutaan tiedonhakujärjestelmiksi, jotka toteuttavat temaattisten kyselyiden haun asiakirjojen tai tekstien joukosta ja tarjoavat sitten käyttäjälle osajoukon näistä asiakirjoista tai niiden kopioista. Asiakirjan käsite voi vaihdella järjestelmästä toiseen. Yleisesti ottaen tämä on tietty tietoobjekti, joka on tallennettu (yleensä jonkin merkkijärjestelmän kautta) jollekin aineelliselle välineelle (paperi, valokuva ja filmi, magneettinen muisti jne.) ja tarkoitettu siirrettäväksi avaruudessa ja ajassa sosiaalisen järjestelmän järjestelmässä. viestintää.

Asiallista Tiedonhakujärjestelmät toteuttavat suoraan asiatietojen (esineiden, prosessien, ilmiöiden, osoitteiden, nimien, määrällisten tietojen tieteelliset, tekniset, taloudelliset ominaisuudet ja ominaisuudet, jne.) tallentamisen, etsimisen ja julkaisemisen.

Faktajärjestelmiin kuuluu kerääminen ja haku tiukasti säädellyn rakenteen omaavien asiakirjojen joukosta. Tällainen rakenne on joko tulosta asiakirjojen alustavasta älyllisestä käsittelystä, kun tietoja syötetään järjestelmään, tai tällaisten asiakirjojen saatavuudesta valmiissa muodossa tietyillä ihmisen toiminnan alueilla, esimerkiksi kirjanpitolomakkeet, lomakkeet, hakuteokset, aikataulut jne. On olemassa faktatietojärjestelmiä, jotka tarjoavat keräämistietoja ja hakevat vain yhden tyyppisiä kohteita ja vain yhden tyyppisiä kyselyitä. On myös kehittyneempiä faktografisia järjestelmiä, jotka mahdollistavat sisällöltään ja rakenteeltaan erilaisten tietojen tallennuksen ja haun, mutta tämä monimuotoisuus on aina rajallinen.

On myös kolmannen tyyppisiä järjestelmiä, joita kutsutaan informaatioloogisiksi. Nämä ovat järjestelmiä, jotka vastaavat kyselyihin, joihin tietokannassa ei vastata suoraan. Extralingvistinen tietokanta ja jo saatavilla olevasta (dokumentaarisesta tai asiallisesta) algoritmisesti generoitu tieto auttavat saamaan vastauksen. Nämä uudet tiedot joko toimitetaan vastauksena kyselyyn tai niitä käytetään lisäksi hakuun.

Dokumenttityyppinen tiedonhakujärjestelmä on asiakirjojen tilattu kokoelma sekä joukko työkaluja ja menetelmiä, jotka on suunniteltu dokumenttitietojen tallentamiseen, etsimiseen ja pyynnöstä luovuttamiseen. Dokumentaarinen IPS julkaisee asiakirjoja, jotka vastaavat aihetta tai aihetta koskevaa pyyntöä. Kutsutaan asiakirja, jonka keskeinen aihe tai aihe yleensä vastaa tietopyynnön semanttista sisältöä asiaankuuluvaa , A semanttisen läheisyyden ominaisuus kahden tai useamman tekstin välillä (tässä tapauksessa asiakirjan ja tietopyynnön välillä) - merkityksellisyys . Relevanssi on peruskäsite tiedonhakuteoriassa. He puhuvat kahdesta merkityksestä: semanttisesta ja muodollisesta. Asiakirjan vastaavuutta tietopyynnön sisältöön kutsutaan semanttiseksi relevanssiksi ja tämän asiakirjan hakukuvan vastaavuutta tiettyä tietopyyntöä ilmaisevaan formalisoituun hakumääräykseen kutsutaan muodolliseksi relevanssiksi. Muodollista relevanssia kutsutaan myös asiakirjan relevanssiksi ja semanttista relevanssia on tiedon relevanssi (tarkoittaa "asiakirjan sisältämää tietoa").

Erilaisia IPS-toimintoja toteuttavia työkaluja kutsutaan tukevia alajärjestelmiä tai "määräyksiä". Seuraavat alajärjestelmät erotetaan: kielellinen tuki, tiedon tuki, laitteisto, ohjelmisto

Järjestelmän käsite kattaa yhdistelmän toisiinsa liittyviä elementtejä, jotka toimivat yhtenä kokonaisuutena. Järjestelmä sisältää seuraavat komponentit:

Rakenne on monet järjestelmän elementit ja niiden väliset suhteet.

Tulokset ja lähdöt ovat materiaalivirtoja tai viestivirtoja, jotka saapuvat järjestelmään tai poistuvat sieltä. Tulevaa tietoa tarkastellaan joukkona symboleja (x(i)), jonka arvon muodostaa vektori X. Nämä viestit käsitellään järjestelmässä ja ovat suoraan riippuvaisia ajasta. Vastaavasti tulosten joukko - (y(i, t)) muodostaa vektorin Y.

Tarkoitus ja rajoitukset. Järjestelmän toimintajärjestystä kuvataan useilla muuttujilla: U1, U2..., Un. Jotkut näistä muuttujista on aina säilytettävä ääriasennossa - max U1 jne. U1 = f (X, t, Y, ...), silloin U1 kutsutaan kohdetoiminto järjestelmät. Tämä toiminto määrittää järjestelmän tavoitteiden yhteensopivuuden sen toiminnan tulosten kanssa.

Järjestelmän toteutuksen laki. Tämä on funktio f(x), joka liittyy järjestelmän tulon ja lähdön muutoksiin.

Järjestelmän tunnettujen ominaisuuksien joukossa ovat seuraavat: suhteellisuusteoria, jaevuus ja eheys.

IS on järjestelmä, jonka toiminnassa ajan mittaan kerätään, tallennetaan, käsitellään ja jaetaan tietoja minkä tahansa taloudellisen yksikön toiminnasta todellisessa maailmassa.

4. Tiedonhakujärjestelmien tyypit toimitettavien tietojen luonteesta riippuen.

5. Tiedonhakujärjestelmän toiminnot.

Tiedonhakujärjestelmä on järjestelmä, joka suorittaa seuraavat toiminnot:
- suurten tietomäärien tallentaminen;
- Etsi nopeasti tarvittavat tiedot;
- tallennetun tiedon lisääminen, poistaminen ja muuttaminen;
- tietojen näyttäminen ihmisystävällisessä muodossa.

On:
- automatisoitu (tietokoneistettu);
- bibliografinen (viite);
- interaktiivinen (online);
- dokumentaariset ja faktografiset tiedonhakujärjestelmät.

6. Hakukoneiden kehityksen historiallinen tausta.

Siirrytään Internetin syntyhistoriaan, joka syntyi nousevan tarpeen yhteydessä jakaminen tietoresurssit jaetaan eri tietokonejärjestelmien välillä. Useimmat varhaiset sovellukset, mukaan lukien FTP ja sähköposti, oli suunniteltu yksinomaan tiedonvaihtoon Internet-isäntätietokoneiden välillä.
Muut sovellukset, kuten Telnet, luotiin, jotta käyttäjä voi käyttää paitsi tietoja myös etäjärjestelmän työresursseja. Internetin kehittyessä (käyttäjien ja isäntätietokoneiden lisääntyessä) aiemmat tiedonvaihtomenetelmät eivät enää vastanneet käyttäjien lisääntyneitä tarpeita. On tarpeen kehittää uusia tapoja etsiä ja käyttää verkkoresursseja, jotka mahdollistaisivat tiedon käytön sen muodosta ja sijainnista riippumatta.

Tällaisten tarpeiden täyttämiseksi luotiin ensin Archie-hakukone, ongelmanratkaisu resurssien lokalisointi FTP-palvelimelle ja Gopher-järjestelmä, joka yksinkertaistaa pääsyä useisiin verkon resursseja. Sitten kehitettiin verkkotietojärjestelmät WWW ja WAIS, jotka tarjoavat täysin uusia tiedonhankintamenetelmiä. Näiden järjestelmien toimintaperiaatteet tekevät navigoinnista helppoa valtava määrä tietoresurssit ilman tarvetta tarjota mekanismeja itse Internetin toimintaa varten. Tämä lähestymistapa antaa meille mahdollisuuden puhua paitsi yhteenliitetyistä resursseista tietokonejärjestelmät, ja erikoisista tietotilat verkkoja.

Archie-järjestelmä on monimutkainen ohjelmisto työskennellä erityisten tietokantojen kanssa. Nämä tietokannat sisältävät jatkuvasti päivittyvää tietoa tiedostoista, joihin pääsee käsiksi FTP-palvelun kautta. Archie-järjestelmän palveluita käyttämällä voit etsiä tiedostoa sen nimimallin perusteella. Tässä tapauksessa käyttäjä saa luettelon tiedostoista, jossa on tarkat tiedot siitä, missä ne on tallennettu verkossa, sekä tiedot tiedostojen tyypistä, luomisajasta ja koosta. Archie Information Retrieval System -järjestelmää voidaan käyttää useilla tavoilla, kyselyistä sähköposti ja Telnet-palvelun käyttäminen ja päättyen graafisten Archie-asiakkaiden käyttöön.
Gopher-järjestelmä kehitettiin yksinkertaistamaan Internetin FTP-resurssien lokalisointia ja esittämään kätevämmin tietoa FTP-palvelimille tallennettujen tiedostojen sisällöstä. Gopher-järjestelmän avulla on mahdollista esittää käyttäjille tietoa saatavilla olevista tiedostoista ja niiden sisällöstä kätevässä muodossa (valikon muodossa). Gopher-palvelinvalikot voivat sisältää linkkejä muihin Gopher- ja FTP-palvelimiin. Siten käyttäjä saa mahdollisuuden "matkustaa" Internetiä kiinnittämättä huomiota häntä kiinnostavien resurssien sijaintiin ja päästä käsiksi näihin resursseihin.
Veronica-järjestelmää käytetään tiedon etsimiseen Gopher-avaruudesta valikon nimikkeiden avulla. Avainsanan syöttämisen jälkeen Veronica-järjestelmä selvittää, näkyykö se minkä tahansa Gopher-palvelimen valikossa, ja tuottaa hakutuloksina luettelon avainsanan sisältävistä valikon otsikoista. Koska Veronica-järjestelmä ei ole itsenäinen hakuohjelma, vaan liittyy läheisesti Gopher-järjestelmään, siinä on sama haitta kuin Gopher-järjestelmässä: aina ei ole mahdollista päätellä otsikon perusteella, mikä tietolähde on. Järjestelmän etuna on, että ei tarvitse selvittää, missä löydetyt tiedot sijaitsevat, riittää, kun valitset haluamasi merkinnän luettelosta.

7. Automaattisten dokumentaaristen tiedonhakujärjestelmien kehityksen historia, kehitysvaiheet. Modernin näyttämön piirteet.

2000-luvun tietoyhteiskuntaan siirtyminen on aiheuttanut ennennäkemättömän lisääntyneen tiedon määrän ja keskittymisen maailmanlaajuisissa tietokoneverkoissa. Tämä on pahentanut jyrkästi tiedonhakujärjestelmien (IRS) luomisen ja niiden tehokkaan käytön ongelmaa.

Resurssien etsimisen ongelma Internetistä havaittiin melko pian, ja vastauksena hakuun ilmestyi erilaisia järjestelmiä ja ohjelmistotyökaluja, joiden joukossa ovat järjestelmät Gopher, Archie, Veronica, WAIS, WHOIS jne. Viime aikoina näitä työkaluja on käytetty korvataan sanoilla "asiakkaat" ja "palvelimet" World Wide Web WWW:ssä.

Viimeisen vuosikymmenen aikana saavutetut tulokset tietotekniikan kehittämisessä,ä ja eritasoisille ja -tarkoituksisille automaatiojärjestelmien tietotuelle ovat osaltaan vaikuttaneet aiemmin omaksuttujen tietojärjestelmien luomista koskevien lähestymistapojen merkittävään uudistamiseen ja ennen kaikkea , uuden tietotekniikan luomiseen, jonka pääperiaatteet ovat:

Loppukäyttäjän (tutkija, suunnittelija, rakentaja, teknikko, IPC- ja GAP-operaattori, suunnittelija) välisen viestinnän varmistaminen automaatiojärjestelmän kanssa ammattimaisesti rajoitetulla luonnollisella kielellä, syötteiden ja tuloksena olevien tietojen esittäminen tutussa ja käyttäjäystävällisessä muodossa.

Tarjoaa kyvyn ratkaista suunnittelun, hallinnan, suunnittelun, tuotannon valmistelun ja tieteellisen tutkimuksen ongelmia niiden formulaatioiden ja lähtötietojen perusteella riippumatta näiden ongelmien muodollisten matemaattisten mallien monimutkaisuudesta ja saatavuudesta.

Luodaan loppukäyttäjälle sellaiset työolosuhteet, joissa hän suorittaa johtamis-, suunnittelu-, suunnittelu- ja uusien ratkaisujen etsimisprosesseja aktiivisen, laajenevan vuoropuhelun muodossa tietokoneen kanssa, käyttämällä aihealueensa käsitteitä, ammatillista kokemusta hyödyntäen. ja taidot ja päätösten tekeminen samanaikaisesti useiden kriteerien mukaan, joista osaa ei ole muodollisesti kuvattu eikä sillä ole määrällistä ilmaisua.

8. IPS-ominaisuudet

9. Hakulauseke. Johtava. Hakukyselyjen tyypit.

10. Kielellinen tuki.

11. Faktatietojen hakujärjestelmät. Bibliografinen haku eräänlaisena asiatutkimuksen tyyppinä.

Tosiasiallinen verohallinto toteuttaa faktojen, tekstien ja asiakirjojen haku ja näyttö, jotka sisältävät tietoja, jotka voivat tyydyttää käyttäjän pyynnön. Tässä tapauksessa hakua ei suoriteta millekään tietylle asiakirjalle, vaan koko tätä pyyntöä koskevalle tietojoukolle, joka on tallennettu IPS:n tai ISS:n tietokokoelmaan. Huomaa, että suurin ero asiatietojen hakujärjestelmien ja dokumentaaristen järjestelmien välillä on se, mitä nämä järjestelmät antavat käyttäjälle. ei mitään aiemmin syötettyä asiakirjaa, vaan jo käsiteltyä tietoa tavalla tai toisella.

Riippuen siitä, kuinka tällainen tietojenkäsittely on toteutettu tosiasiatietojärjestelmässä, tällaisista järjestelmistä erotetaan kolme sukupolvea.

Ensimmäisen sukupolven IS:t tarjoavat tietojen keräämisen ja hakemisen yhden tyyppisistä objekteista ja toteuttavat yhden tyyppisiä kyselyjä, kun niitä käytetään kiinteämuotoisten tietojen tosiasialliseen kuvaamiseen.

Toisen sukupolven tosiasiajärjestelmissä on jo mahdollista valita pyynnön tyyppi esitetystä joukosta. Näytettävät objektit voivat kuulua eri luokkiin, objektiluokalle on määritetty tosiasiallinen kuvausmuoto.

Kolmannen sukupolven tosiasiallisissa tietojärjestelmissä, jotka ovat itse asiassa älykkäiden dialogijärjestelmien tyyppi, tiedonhaku toteutetaan sääntelemättömällä kyselyluettelolla, käyttäjä määrittää hakukuvan missä tahansa muodossa, tiedon synteesitoiminnot tarjotaan. käyttäjien toiveiden tyydyttämiseksi on olemassa erityinen laitteisto, jolla analysoidaan juuri syötettyä tietoa tietorahastoon tallennetun tiedon semanttisesta ja muodollisesta merkityksestä.

13. Älykkäät tiedonhakujärjestelmät.

14. IPS:n sanaston standardointi.

15. Indeksointi IPS:ssä.

Indeksointi on prosessi, joka koostuu kahdesta vaiheesta:

tässä asiakirjassa käsiteltyjen aiheiden tunnistaminen;

näiden aiheiden ilmaiseminen tiedonhakujärjestelmän omaksumalla kielellä ja tallentaminen asiakirjaan liittyvien hakukuvien muodossa.

Jotta IRS:n avulla voidaan löytää tiettyä tietopyyntöä vastaavia asiakirjoja, myös itse pyyntö on indeksoitava. Hakuprosessi suoritetaan vertaamalla asiakirjojen hakukuvia pyynnön hakukuvaan. Jos kuvat täsmäävät kokonaan tai osittain, asiakirjaa pidetään pyynnön mukaisena ja se annetaan käyttäjälle.

16. Hae malleja. Kieli esitys ja jäsentäminen sähköisiä asiakirjoja. Metatietojen kielet.

Metadata HTML-dokumenteissa

Konstantin A. Rybakov

Tiedetään, että metatiedot sisältävät viite- ja ohjaustietoja, joita eri agentit käyttävät ( asiakassovelluksia, hakurobotteja) eri tarkoituksiin.

Tässä artikkelissa käsitellään sisällönkuvauskenttiä, joiden sisällyttämisellä dokumenttiin on pääsääntöisesti seuraavat päätavoitteet: dokumentin (tai koko sivuston kokonaisuutena) indeksointiprosessin hallinta hakurobottien toimesta ja tämän sisällön kuvaaminen asiakirja (jälleen hakuroboteille) ja tiettyjen toimintojen hallinta selaimissa. Olisi tarpeetonta kuvata kaikkia sisällönkuvauskenttiä, koska monet niistä ovat melko abstrakteja, eli niissä ei ole yhtään hyödyllistä tietoa agenttien näkökulmasta ja he yksinkertaisesti jättävät ne huomiotta.

Sisällönkuvauskentät on jaettu kahteen ryhmään: HTTP-otsikon vastineet ja tieto- ja ohjausosio, joka ei sisälly HTTP-otsikkoon. Tämä jako johtuu pääasiassa syntaksista ( Ja vastaavasti) ja standardi. Jos puhumme itse metatiedoista, niin tällainen jako on jossain määrin ehdollinen, eli emme puhu siitä tosiasiasta, että NAME-tunnisteet voivat toimia HTTP-otsikoina, vaan HTTP-otsikko on myös viittauksen kantaja. ja ohjaustiedot. Yleensä HTTP-vastineilla on alhaisempi prioriteetti kuin "true"-otsikolla, jonka WEB-palvelin luo. On myös syytä huomata yleinen muoto sisällönkuvauskenttien ilmoittamiselle HTML-dokumentissa, kuten alla on esitetty:

...<TITLE><META HTTP-EQUIV="..." CONTENT="..."><META NAME="..." CONTENT="..."> HTTP-EQUIV-ryhmä 1. EXPIRES (asiakirjan viimeinen voimassaolopäivä) Vanhenemisen jälkeen <a href="https://battlecase.ru/fi/skupayut-li-ploho-rabotayushchie-planshety-sroki-vypolneniya/">määrätty aika</a> asiakirja ladataan joka kerta uudelleen, eikä sitä oteta välimuistista. Päivämäärämuoto: RFC850 2. PRAGMA (välimuistin hallinta) Yksi mahdollinen arvo on NO-CACHE, eli selain ei tallenna tätä asiakirjaa välimuistiin. Esimerkki: <META HTTP-EQUIV="PRAGMA" CONTENT="NO-CACHE"> 3. SISÄLTÖTYYPPI (Asiakirjan tyyppi ja sen koodaus) Tästä tunnisteesta on ollut paljon kiistaa... Sitä tarvitaan pääasiassa <a href="https://battlecase.ru/fi/kakie-byvayut-chipsety-chipset-intel-arhitektura-pravilnyi/">oikea valinta</a> selaimen koodausta, mutta tällä on merkitystä vain silloin, kun WEB-palvelin ei tue automaattista asiakirjojen transkoodausta (esimerkiksi ulkomaisille palvelimille, jotka tarjoavat <a href="https://battlecase.ru/fi/prilozhenie-pokemon-go-skachat-na-ios-kak-ustanovit-pokemon-go-na-iphone-i/">vapaa paikka</a> sivustollesi tätä vaihtoehtoa ei ole), muuten CONTENT-TYPE voi johtaa vain sekaannukseen. Esimerkki: <META HTTP-EQUIV="CONTENT-TYPE" CONTENT="text/html; charset=koi8-r"> 4. SISÄLTÖ-KIELI Selkeä osoitus asiakirjan kielestä. Tämän tunnisteen tietoja voivat käyttää sekä hakurobotit että WEB-palvelimet. Muoto:<Язык>-<Диалект> Esimerkki: <META HTTP-EQUIV="CONTENT-LANGUAGE" CONTENT="en-GB"> Aika (sekunteina), jonka jälkeen se tapahtuu <a href="https://battlecase.ru/fi/kak-otklyuchit-avtomaticheskuyu-perezagruzku-posle-ustanovki-obnovlenii-windows/">automaattinen uudelleenkäynnistys</a> asiakirja tai siirtyminen toiseen asiakirjaan, jolla on annettu URL-osoite. Muoto:<ВРЕМЯ>tai<ВРЕМЯ>; <URL> Esimerkki: <META HTTP-EQUIV="REFRESH" CONTENT="5; http://algo. /"> 6. CACHE-CONTROL (välimuistin ohjaus) Mahdolliset tapaukset: välimuisti julkisessa (JULKINEN) / yksityisessä (PRIVATE) välimuistissa. Asiakirjaa ei ole välimuistissa ollenkaan (NO-CACHE) tai välimuistissa, mutta sitä ei tallenneta (NO-STORE). Esimerkki: <META HTTP-EQUIV="CACHE-CONTROL" CONTENT="NO-STORE"> Ryhmän nimi 1. DESCRIPTION (asiakirjan kuvaus) Avainsanojen kuvauksen ohella tämä tunniste on mielestämme tärkein. Sen sisältämät tiedot näkyvät hakutuloksissa, jotka on antanut <a href="https://battlecase.ru/fi/poiskovaya-stranica-proksi-server-hameleon-chetyre-sposoba-kak/">hakupalvelimia</a> käyttäjän pyynnöstä. Yleensä hakutulokset näyttävät yleensä tältä: a) Asiakirjan URL-osoite b) Asiakirjan otsikko (sisältö <TITLE>...)
c) Dokumentin kuvaus, eli KUVAUS tai useita satoja tavuja dokumentin alusta (sis. ALT-attribuutit, TITLE kuville), jos KUVAUS puuttuu. Ensimmäisessä tapauksessa käyttäjä saa melko lyhyen, mutta samalla ytimekkään kuvauksen dokumentista, vaikka tämä tietysti riippuu dokumentin kirjoittajasta, ja toisessa tapauksessa tiedot asiakirjasta ovat melko niukka, nimittäin se voi olla merkityksetön sanajoukko tai muutama ensimmäinen ehdotus, jotka eivät välttämättä liity asiakirjan yleiseen aiheeseen eivätkä siten kuvaa sitä millään tavalla.
d) Luokitus (kerroin, vastaako asiakirja käyttäjän pyyntöä).

Esimerkki:

2. AVAINSANAT (avainsanat)

Sana "avain" tarkoittaa joukkoa sanoja ja lauseita, jotka parhaiten luonnehtivat tätä asiakirjaa. Hakurobotit käyttävät niitä aktiivisesti indeksoinnin aikana. Viime kädessä nämä sanat otetaan huomioon hakutuloksissa ja edistävät korkeampaa sijoitusta.

Esimerkki:

Kuten kuvauksesta voidaan nähdä, DESCRIPTION- ja KEYWORDS-sanojen käyttö ei ole koskaan tarpeetonta, edellyttäen, että asiantunteva kuvaus ja oikea avainsanavalinta on asetettu, lisäävät asiakirjan sijoitusta hakukoneiden hakutuloksissa.

3. DOCUMENT-STATE (asiakirjan tila)

Tämä tunniste ohjaa indeksointitiheyttä ja voi saada kaksi arvoa: STATIC (asiakirja on staattinen, eli se ei muutu, joten se on indeksoitava vain kerran) ja DYNAMIC (usein muuttuville asiakirjoille, jotka on indeksoitava uudelleen)

Esimerkki:

4. ROBOTIT (indeksointiprosessin hallinta)

Mahdolliset vaihtoehdot:
a) INDEX - kyky indeksoida tämä asiakirja (muuten NOINDEX)
b) FOLLOW - kyky indeksoida kaikki asiakirjat, joihin tässä viitataan HTML-tiedosto(alias NOFOLLOW)
c) KAIKKI - INDEX- ja FOLLOW-ehtojen samanaikainen täyttyminen
d) EI MITÄÄN - ehtojen NOINDEX ja NOFOLLOW samanaikainen täyttyminen

Esimerkki:

5. RESURSSITYYPPI (resurssityyppi)

Tavallisissa HTML-asiakirjoissa tämän sisällönkuvauskentän arvoksi on asetettu "DOCUMENT".

Esimerkki:

6. URL (pääsivuston sijainti)

Perus-URL-osoite (jota ei pidä sekoittaa BASE-osoitteeseen) määrittää, mikä asiakirja indeksoidaan (jotta ei käsitellä "peilejä")

Esimerkki:

On hyväksyttävää lisätä LANG-attribuutti metatunnisteisiin, jotka osoittavat tietojen kielen, mutta tämä ei ole pakollista.

17. Tietoresurssit ja niiden esittäminen tiedonhakujärjestelmässä.

Tietoresurssit ja niiden esittäminen tiedonhakujärjestelmässä

Kuten kaaviosta (Kuva 3.41) voidaan nähdä, Internet IPS -dokumenttiryhmä on kuuden päätyypin dokumenttien koko joukko: WWW-sivut, Gopher-tiedostot, Wais-asiakirjat, FTP-arkistotietueet, Usenet-uutiset, postituslistan artikkelit. Kaikki tämä on melko heterogeenista tietoa, joka esitetään erilaisten tietomuotojen muodossa, jotka eivät ole millään tavalla yhdenmukaisia keskenään. Siellä on tekstitietoja, graafisia tietoja, äänitietoja ja yleensä kaikkea, mitä yllä olevissa arkistoissa on. Luonnollisesti herää kysymys, miten tiedonhakujärjestelmän pitäisi toimia kaiken tämän kanssa. Perinteisissä järjestelmissä on käsite asiakirjan hakukuva - POD (Search Image of Document) on jotain, joka korvaa asiakirjan ja jota käytetään hauissa todellisen asiakirjan sijaan Jokin dokumenttien tietojoukon malli todelliseen taulukkoon Suosituin malli on vektorimalli, jossa jokaiselle asiakirjalle on määritetty luettelo termeistä, jotka kuvastavat sen merkitystä tarkemmin jonka ulottuvuus on yhtä suuri kuin haussa käytettävien termien määrä Boolen vektorimallissa vektorielementti on yhtä suuri kuin 1. tai 0 riippuen termin läsnäolosta AML-dokumentissa tai sen puuttumisesta. Monimutkaisemmissa malleissa termit ovat painotettuja, eli vektorin elementti ei ole 1 tai 0, vaan jokin luku, joka kuvastaa vastaavuutta Tämä termi asiakirja. Tarkalleen Viimeisin malli suosituin Internetin tiedonhakujärjestelmissä. Yleisesti ottaen asiakirjojen kuvaamiseen on muitakin malleja: todennäköisyyspohjainen tiedonkulku- ja hakumalli sekä haun malli sumeissa joukoissa. Erikoistutkimuksen aiheena on näiden mallien käytön etujen ja haittojen analyysi Internetin tiedonhakujärjestelmiä toteutettaessa. Tässä on vain järkevää kiinnittää lukijan huomio siihen, että toistaiseksi Lycos, WebCrawler, AltaVista, OpenText, AliWeb ja monissa muissa järjestelmissä on käytetty lineaarista mallia. Myös muiden mallien käyttöä tutkitaan esimerkiksi AltaVista-projektissa tai tieteellisissä ryhmissä. Näin ollen ensimmäinen tehtävä, joka tiedonhakujärjestelmän on ratkaistava, on avainsanaluettelon määrittäminen asiakirjalle tai tietoresurssille. Tätä menettelyä kutsutaan indeksoimiseksi. Usein indeksointi viittaa kuitenkin käänteisen luettelotiedoston kokoamiseen, jossa jokainen indeksointitermi liittyy luetteloon asiakirjoista, joissa se esiintyy. Tämä menettely on vain erikoistapaus tai pikemminkin tekninen näkökohta hakukoneen luomisessa tiedonhakujärjestelmää varten.

Arvio tietojärjestelmien ja teknologioiden toiminnasta yksittäisissä yrittäjissä Ivankovich Vladimir Zinovievich

harjoitusraportti

5. Työskentely tiedonhakujärjestelmien kanssa (yleiset tiedot, toimintatapa, löydettyjen tietojen tallentaminen ja muokkaaminen)

Tiedonhakujärjestelmä - joukko tietoja hakusäännöt kääntäminen luonnollisesta kielestä tiedonhakuun ja käänteiseen kääntämiseen sekä tiedonhakuun tarkoitetut vaatimustenmukaisuuskriteerit. Tietyn tiedonhakujärjestelmän (IRS) osat sisältävät tiedonhakukielen, käännössääntöjen ja vaatimustenmukaisuuskriteerien lisäksi myös sen keinot tekninen toteutus, joukko tekstejä (asiakirjoja), joissa tiedonhaku suoritetaan, ja tähän hakuun suoraan osallistuvat ihmiset.

Tiedonhaku on prosessi, jossa tietystä tekstijoukosta (asiakirjoista) löydetään kaikki ne, jotka on omistettu pyynnössä mainittuun aiheeseen (aiheeseen) tai sisältävät kuluttajalle tarpeellisia faktoja ja tietoja. IP suoritetaan tiedonhakujärjestelmän kautta ja se suoritetaan manuaalisesti tai mekanisointi- tai automaatiotyökaluilla. Yksittäisen yrittäjän välttämätön osallistuja on henkilö. Tiedonhakujärjestelmän (IRS) tuottamien tekstien sisältämän tiedon luonteesta riippuen IP voi olla dokumentaarinen, mukaan lukien bibliografinen, ja faktatieto. IP on erotettava loogisesta tiedonkäsittelystä, jota ilman on mahdotonta antaa henkilölle suoraan vastauksia hänen esittämiinsä kysymyksiin. IP:ssä etsitään sellaisia ja vain sellaisia tosiasioita tai tietoja – ja niitä voidaan löytää –, jotka on kirjattu IPS:ään. Ennen kuin teksti (asiakirja) syötetään IRS:ään, määritetään sen semanttinen pääsisältö (aihe tai aihe), joka sitten käännetään ja kirjoitetaan jollakin tiedonhakukielistä. Tätä merkintää kutsutaan tekstin hakukuvaksi. Samoin tehdään, kun tietyllä tavalla tallennetut tosiasiat ja tiedot syötetään IPS:ään. Vastaanotettu pyyntö käännetään myös tiedonhakukielelle muodostaen hakuohjeen. Koska tekstien hakukuvat ja hakuohjeet on kirjoitettu samalla kielellä, joissa ilmaisut sallivat vain yhden tulkinnan, niitä on mahdollista verrata muodollisesti ilman merkitystä syventymättä. Tätä varten asetetaan tietyt säännöt (vaatimustenmukaisuuskriteerit), jotka määrittelevät, missä määrin hakukuvan muodollinen yhteensopivuus hakumääräyksen kanssa tulee katsoa tietopyyntöön vastaamisen ja palautettavana.

IP:n tekniselle tehokkuudelle on ominaista kaksi suhteellista indikaattoria - tarkkuuskerroin (tietopyyntöön vastanneiden tekstien lukumäärän suhde tietyn numeron tekstien kokonaismäärään) ja täydellisyyskerroin (luvun suhde). tietopyyntöön vastaavien tekstien kokonaismäärä tietyssä IPS:ssä). Näiden indikaattoreiden vaaditut arvot riippuvat erityisistä tietotarpeista. Esimerkiksi haettaessa patenttikuvauksia patenttihakemuksen uutuuden tutkimista varten, vaaditaan asian 100 % täydellisyys; tavalliselle tutkijalle tai insinöörille suunnatussa haussa hakutulosten tarkkuuden katsotaan olevan noin 80 % ja täydellisyydeksi noin 50 %.

Kuva 1 - Hakuprosessi

IP voi olla kahta tyyppiä - valikoiva (tai kohdennettu) tiedon levitys ja retrospektiivinen haku. Tietojen valikoivalla levityksellä IP suoritetaan tietyn määrän kuluttajia (tilaajia) jatkuvan pyynnön mukaisesti, se suoritetaan säännöllisesti (yleensä kerran viikossa tai joka toinen viikko) ja se suoritetaan vain joukossa tekstejä, jotka vastaanottaja verottajalle tänä aikana.

IPS:n ja kuluttajien (tilaajien) välille perustetaan tehokas viestintäjärjestelmä. Palaute(tilaaja ilmoittaa, missä määrin tämä teksti vastaa pyyntöä ja tarvitseeko hän kopion koko tekstistä, missä määrin tämä teksti vastaa hänen tietotarpeitaan), jonka avulla voit selventää tilaajien tarpeita, vastata ajoissa näiden tarpeiden muutoksiin ja optimoida järjestelmän toiminta.

Takautuvan haun aikana tiedonhakujärjestelmä löytää tarvittavat tiedot sisältävät tekstit koko kertyneestä tekstijoukosta kertapyyntöjä varten.

Nykyaikaisten WWW-tiedonhakujärjestelmien arkkitehtuuri.

Tarkastellaan tyypillistä kaaviota tällaisesta järjestelmästä. Erilaisissa julkaisuissa, jotka on omistettu erityisiä järjestelmiä, esitetään kaavioita, jotka eroavat toisistaan vain tiettyjen ohjelmistoratkaisujen käytössä, mutta eivät järjestelmän eri komponenttien organisoinnin periaatteessa. Siksi tarkastellaan tätä kaaviota esitetyllä esimerkillä:

Kuva 2 - Internetin IPS-rakenne

Tämä kaavio näyttää:

client on ohjelma tietyn tietoresurssin katseluun. Tällä hetkellä suosituimpia ovat moniprotokollaohjelmat, kuten Netscape Navigator. Tällainen ohjelma tarjoaa World Wide Web -asiakirjojen, Gopherin, Waisin, FTP-arkistojen, postituslistojen ja Usenet-uutisryhmien katselun. Kaikki nämä vuorostaan tietoresurssit ovat tiedonhakujärjestelmän hakuobjekteja.

käyttöliittymä - käyttöliittymä ei ole vain katsoja. Tiedonhakujärjestelmän tapauksessa tämä lause tarkoittaa myös käyttäjän tapaa kommunikoida järjestelmän hakukoneen kanssa, ts. järjestelmällä kyselyjen luomista ja hakutulosten katselua varten. Hakutulosten ja verkkotietoresurssien katseleminen ovat täysin eri asioita, joista keskustelemme hieman myöhemmin.

hakukone - hakukone palvelee kääntämään käyttäjän tiedonhakukielellä (IRL) laaditun pyynnön muodolliseksi järjestelmäpyynnöksi, etsimään linkkejä verkon tietoresursseihin ja toimittamaan tämän haun tulokset käyttäjälle.

indeksitietokanta - indeksi on tiedonhakujärjestelmän päätietojärjestelmä. Sitä käytetään tietoresurssin osoitteen etsimiseen. Indeksin arkkitehtuuri on suunniteltu siten, että haku tapahtuu mahdollisimman nopeasti ja samalla olisi mahdollista arvioida jokaisen verkosta löydetyn tietoresurssin arvo.

kyselyt - käyttäjän kyselyt tallennetaan hänen henkilökohtaiseen tietokantaan. Jokaisen kyselyn virheenkorjaus vie paljon aikaa, ja siksi on erittäin tärkeää tallentaa kyselyt, joihin järjestelmä antaa hyviä vastauksia.

indeksirobotti - indeksointirobottia käytetään Internetin indeksointiin ja hakemistotietokannan pitämiseen ajan tasalla. Tämä ohjelma on tärkein tietolähde verkon tietoresurssien tilasta.

www-sivustot ovat koko Internet. Tarkemmin sanottuna nämä ovat niitä tietoresursseja, joita tarkastellaan katseluohjelmien kautta.

Hakukoneet koostuvat yleensä kolmesta osasta:

1. agentti (hämähäkki tai indeksoija), joka navigoi Internetissä ja kerää tietoja;

2. tietokanta, joka sisältää kaikki hämähäkkien keräämät tiedot;

3. hakukone, jota ihmiset käyttävät käyttöliittymänä tietokannan kanssa vuorovaikutuksessa.

Tilaushallinnan tietojärjestelmän automatisointi LLC Service-TV -yrityksessä

Yleiset määräykset 1. Näissä säännöissä määrätään yhtiön työntekijöiden työskentelytavasta, jonka työpaikalle on asennettu automaatiolaitteita. Yrityksen työntekijöiden on tutustuttava näihin sääntöihin allekirjoitusta vastaan...

Tieto- ja tietoliikennetekniikan korkeakoulun automatisointi

Elokuussa 2000 Dushanbessa pidettiin perustamiskokous, jossa opiskelukoulu tietokone teknologia. Tämän koulun perustajat ovat Mirzo Tursun-Zaden mukaan nimetty lastensäätiö "Oshyoni Baland".

Tietokanta "Philatelist"

Muokataan esimerkiksi keräilijä Kirill Petrenkoa koskevaa merkintää. Anna keräilijän vaihtaa puhelinnumeron "12-36-98" numeroon "11-22-33". Jos haluat muuttaa merkintää, avaa "KERÄÄJÄ"-lomake. Voit tehdä tämän napsauttamalla Pääpainike-lomakkeella LOMAKKEET-painiketta...

Graafiset tiedot ja sen käsittelytavat

Tietojen esittäminen tietokoneen näytöllä graafisessa muodossa otettiin ensimmäisen kerran käyttöön 50-luvun puolivälissä Keskustietokoneet, jota käytetään tieteellisessä ja sotilaallisessa tutkimuksessa...

Tietokonegrafiikan tyypit Tietojen esittäminen tietokonenäytöllä graafisessa muodossa otettiin ensimmäisen kerran käyttöön 50-luvun puolivälissä suuriin tietokoneisiin, joita käytetään tieteellisessä ja sotilaallisessa tutkimuksessa...

Graafinen tieto ja sen käsittelykeinot

Menetelmät hakuheuristiikan automaattiseen luomiseen

Harkitsemme vertailu Taulukko hakutulokset eri hakukoneiden osuvuuden suhteen: Luokka Google-näytteen tekstien lukumäärä Yandex Virtual...

Tieto- ja oikeusjärjestelmien muodostamisen tarkoitus ja menettely

Elinkaari tietojärjestelmät - joukko vaiheita ja vaiheita, jotka tietojärjestelmä käy läpi kehityksessään siitä hetkestä, kun parannuspäätös on tehty siihen hetkeen, jolloin se keskeyttää olemassaolonsa...

Agrometeorologisten tietojen käsittely

AMFD-tieto- ja ohjelmistokokonaisuus on suunniteltu luomaan agrometeorologisten havaintojen tietokanta peltokirjoihin KSH-1M, KSH-2M, taulukoihin TSH-6M ja agrometeorologisen vuosikirjan vastaavien taulukoiden muodostamiseen...

Arvio tietojärjestelmien ja teknologioiden toiminnasta yksittäisissä yrittäjissä Ivankovich Vladimir Zinovievich

Virustentorjunta on ohjelma, jonka tarkoituksena on löytää ja neutraloida viruksia käyttäjän tietokoneelta. Ensinnäkin haluaisin sanoa, että virusten manuaalinen etsiminen ja neutralointi on täysin hyödytöntä. Ensinnäkin...

Tietoturvajärjestelmien rakentaminen yksinoikeuteen käytettäville ohjelmistopaketteille

Yhä enemmän huomiota kiinnitetään koulutuksen uuteen suuntaan - etäopiskelu. Etäopetus toisaalta avaa uusia mahdollisuuksia, toisaalta asettaa uusia haasteita...

Mallinnusjärjestelmän kehittäminen Hakukoneoptimointi verkkosivusto

Hakemiston kehittäminen yrityksen työntekijöiden tietojen seurantaa varten

Päällä olevalla painikkeella editoriin soitetaan oikaista tietoa jo tietokannassa olevista työntekijöistä päämuoto"Muokkaa" valitsemalla ensin muokattavan elementin vieressä oleva valintaruutu...

Graafisten objektien muokkaaminen GIMPissä

Tehtävä 1. Tee valokuvatiedostosta Työ 4.jpg hiilikuitukupu auton konepellistä. Edistyminen 1. Avaa valokuva autosta siten, että sen kanssa on mukava työskennellä, esimerkiksi kuvassa 30. Kuva 30...

Web-ohjelmointikieli - PHP

Ensin luodaan tietokanta ja taulukko. Kirjaudu sisään phpMyAdminiin (phpMyAdmin on verkkosovellus, jossa avoin lähdekoodi, kirjoitettu PHP:llä ja edustaa verkkokäyttöliittymää MySQL DBMS:n hallintaan) (katso liite 5)...

Tiedonhakujärjestelmien tiedonhaku. Ensimmäinen tutustuminen tiedonhakujärjestelmiin. Modernin PS:n luomisen ja kehityksen historia. Tiedontarve on tarve, joka syntyy, kun tavoite on käyttäjän edessä prosessissa

Automaattiset tiedonhakujärjestelmät

Diplomityön aihe: "Tiedonhakujärjestelmän tietoagentin (robotin) kehittäminen tiedon keräämiseen Internetistä"

Tiedon tarve- tarve, joka syntyy, kun käyttäjän ammatillisen toiminnan prosessissa tai hänen sosiaalisessa ja arkielämässään kohtaamaa tavoitetta ei voida saavuttaa ilman käyttäjän osallistumista lisäinformaatio.

Tiedonhakujärjestelmä on järjestelmä, joka suorittaa seuraavat toiminnot: - suurten tietomäärien tallentaminen; - Etsi nopeasti tarvittavat tiedot; - tallennetun tiedon lisääminen, poistaminen ja muuttaminen; - tietojen näyttäminen ihmisystävällisessä muodossa.

On: - automatisoitu (tietokoneistettu); - bibliografinen (viite); - interaktiivinen (online); - dokumentaariset ja faktografiset tiedonhakujärjestelmät.

Metadata HTML-dokumenteissa

Arvio tietojärjestelmien ja teknologioiden toiminnasta yksittäisissä yrittäjissä Ivankovich Vladimir Zinovievich

5. Työskentely tiedonhakujärjestelmien kanssa (yleiset tiedot, toimintatapa, löydettyjen tietojen tallentaminen ja muokkaaminen)

Lisää tästä aiheesta:

Muut artikkelit:

Tiedonhakujärjestelmä on järjestelmä, joka suorittaa seuraavat toiminnot:
- suurten tietomäärien tallentaminen;
- Etsi nopeasti tarvittavat tiedot;
- tallennetun tiedon lisääminen, poistaminen ja muuttaminen;
- tietojen näyttäminen ihmisystävällisessä muodossa.

On:
- automatisoitu (tietokoneistettu);
- bibliografinen (viite);
- interaktiivinen (online);
- dokumentaariset ja faktografiset tiedonhakujärjestelmät.