Tietojen hakukone. Kuinka Internetin hakukoneet toimivat. Mistä hakukone koostuu?

Miten hakukoneet toimivat? Yksi Internetin hienoista puolista on se, että siellä on satoja miljoonia verkkoresursseja odottamassa ja valmiina esitettäväksi meille. Mutta huono asia on, että siellä on samoja miljoonia sivuja, jotka, vaikka tarvitsisimme niitä, eivät ilmesty meille, koska... meille yksinkertaisesti tuntematon. Kuinka selvittää, mitä ja mistä voit löytää Internetistä? Tätä varten käännymme yleensä hakukoneiden puoleen.

Internetin hakukoneet ovat maailmanlaajuisen verkon erityisiä sivustoja, jotka on suunniteltu auttamaan ihmisiä löytämään asioita. maailman laajuinen verkko tarvitsemansa tiedot. On eroja tavoissa, joilla hakukoneet suorittavat tehtävänsä, mutta yleensä on kolme päätehtävää ja identtisiä:

Kaikki he "hakevat" Internetistä (tai jostain Internetin sektorista) - annettujen avainsanojen perusteella;
- kaikki hakukoneet indeksoivat etsimänsä sanat ja paikat, joista he löytävät ne;
- Kaikki hakukoneet antavat käyttäjien etsiä sanoja tai avainsanayhdistelmiä jo indeksoitujen ja heidän tietokantoihinsa sisältyvien verkkosivujen perusteella.

Ensimmäiset hakukoneet indeksoivat useita satojatuhansia sivuja ja saivat 1 000 - 2 000 pyyntöä päivässä. Nykyään suosituimmat hakukoneet ovat indeksoineet ja indeksoivat jatkuvasti satoja miljoonia sivuja ja käsittelevät kymmeniä miljoonia pyyntöjä päivässä. Alla puhumme siitä, kuinka hakukoneet toimivat ja kuinka ne "kokoavat" kaikki löydetyt tiedot voidakseen vastata kaikkiin meitä kiinnostaviin kysymyksiin.

Katsotaanpa verkkoa

Kun ihmiset puhuvat Internetin hakukoneista, he todella tarkoittavat hakukoneita Maailman Laaja verkko . Ennen kuin Webistä tuli eniten näkyvä osa Internetissä oli jo hakukoneita, jotka auttoivat ihmisiä löytämään tietoa Internetistä. Ohjelmat nimeltä "gopher" ja "Archie" pystyivät indeksoimaan tiedostoja, jotka sijaitsevat eri palvelimia, yhdistetty Internet Internet ja lyhensi huomattavasti etsimiseen käytettyä aikaa tarvittavat ohjelmat tai asiakirjoja. Viime vuosisadan 80-luvun lopulla synonyymi "kyvylle työskennellä Internetissä" oli kyky käyttää gopheria, Archieta, Veronicaa jne. hakuohjelmia. Nykyään useimmat Internetin käyttäjät rajoittavat hakunsa vain maailmanlaajuinen verkko, tai WWW.

Pieni aloitus

Ennen kuin kerron mistä löytää vaadittu asiakirja tai tiedosto, tämän tiedoston tai asiakirjan on täytynyt olla jo löydetty jossain vaiheessa. Etsiäkseen tietoa sadoilta miljoonilta olemassa olevilta WEB-sivuilta hakukone käyttää erityistä robottiohjelmaa. Tätä ohjelmaa kutsutaan myös spideriksi ("hämähäkki"), ja sitä käytetään luomaan luettelo sivulta löytyvistä sanoista. Tällaisen luettelon muodostamisprosessia kutsutaan verkkoindeksointia(Verkon indeksointi). "hyödyllisen" (merkittävän) sanaluettelon rakentamiseksi ja tallentamiseksi edelleen, etsi hämähäkki täytyy "katsoa läpi" paljon muita sivuja.

Miten joku aloittaa? hämähäkki(hämähäkki) matkasi verkossa? Yleensä lähtökohtana ovat maailman suurimmat palvelimet ja erittäin suositut web-sivut. Hämähäkki aloittaa matkansa sellaiselta sivustolta, indeksoi kaikki löydetyt sanat ja jatkaa liikkumistaan eteenpäin seuraamalla linkkejä muille sivustoille. Näin hämähäkkirobotti alkaa peittää yhä suurempia "palasia" verkkotilasta. Google.com aloitti akateemisena hakukoneena. Artikkelissa, jossa kuvataan tämän hakukoneen luomista, Sergey Brin ja Lawrence Page (Googlen perustajat ja omistajat) antoivat esimerkin siitä, kuinka nopeasti Googlen hämähäkit toimivat. Niitä on useita ja yleensä haku alkaa käyttämällä 3 hämähäkkiä. Jokainen hämähäkki tukee jopa 300:aa samanaikaisesti avoimia yhteyksiä web-sivujen kanssa. Huippukuormituksessa, käyttämällä neljää hämähäkkiä, Google-järjestelmä pystyy käsittelemään 100 sivua sekunnissa ja tuottaa noin 600 kilotavua sekunnissa liikennettä.

Antaakseen hämähäkkeille niiden käsittelyyn tarvittavat tiedot Googlella oli aiemmin palvelin, joka ei tehnyt muuta kuin syöttänyt hämähäkkeille yhä useampia URL-osoitteita. Jotta URL-osoitteet IP-osoitteiksi muuntavien verkkotunnuspalvelimien (DNS) suhteen ei olisi riippuvainen Internet-palveluntarjoajista, Google on hankkinut oma palvelin DNS, joka vähentää kaiken sivun indeksointiin käytetyn ajan minimiin.

Kun Google robotti vierailee HTML-sivulla, se ottaa huomioon kaksi asiaa:

Sanat (teksti) per sivu;
- niiden sijainti (missä sivun rungon osassa).

Palveluosien yhteydessä sijaitsevat sanat, kuten otsikko, tekstitykset, sisällönkuvauskentät ja muut merkittiin erityisen tärkeiksi käyttäjien hakukyselyille. Google Spider luotiin indeksoimaan kaikki samankaltaiset sanat sivulla lukuun ottamatta välimerkkejä, kuten "a", "an" ja "the". Muilla hakukoneilla on hieman erilainen lähestymistapa indeksointiin.

Kaikki hakukonelähestymistavat ja algoritmit tähtäävät viime kädessä saamaan hämähäkkirobotit toimimaan nopeammin ja tehokkaammin. Esimerkiksi jotkut hakurobotteja Ne jäljittävät sanoja otsikossa, linkeissä ja jopa 100 useimmin käytettyä sanaa sivulla indeksoinnin aikana ja jopa kaikkia sanoja sivun tekstisisällön ensimmäisellä 20 rivillä. Tämä on erityisesti Lycosin indeksointialgoritmi.

Muut hakukoneet, kuten AltaVista, menevät eri suuntaan ja indeksoivat jokaisen erillinen sana sivuja, mukaan lukien "a", "an", "the" ja muita merkityksettömiä sanoja.

Sisällönkuvauskentät

Sisällönkuvauskenttien avulla verkkosivun omistaja voi määrittää avainsanoja ja käsitteitä, jotka määrittelevät sen sisällön olemuksen. Tämä on erittäin hyödyllinen työkalu, varsinkin kun nämä avainsanat voivat toistua jopa 2-3 kertaa sivun tekstissä. Tässä tapauksessa sisällönkuvauskentät voivat "ohjata" hakurobotin oikea valinta avainsanoja sivujen indeksointiin. On mahdollista "huijata" sisällönkuvauskenttiä suosituilla hakukyselyillä ja käsitteillä, jotka eivät liity millään tavalla itse sivun sisältöön. Hakurobotit pystyvät taistelemaan tätä vastaan esimerkiksi analysoimalla sisällönkuvauskenttien ja verkkosivun sisällön korrelaatiota, ”heittämällä” huomiosta ne metatagit (vastaavasti avainsanat), jotka eivät vastaa sivujen sisältöä.

Kaikki tämä koskee niitä tapauksia, joissa verkkoresurssin omistaja todella haluaa tulla mukaan Hakutulokset käyttämällä vaadittuja hakusanoja. Mutta usein käy niin, että omistaja ei halua robotin indeksoida häntä ollenkaan. Mutta tällaiset tapaukset eivät ole artikkelimme aihe.

Indeksin rakentaminen

Kun hämähäkit ovat saaneet työnsä valmiiksi uusien verkkosivujen etsimisessä, hakukoneiden on sijoitettava kaikki löydetyt tiedot niin, että niitä on mukava käyttää jatkossa. Tässä on kaksi avainkomponenttia, joilla on merkitystä:

Tietojen kanssa tallennetut tiedot;
- menetelmä, jolla nämä tiedot indeksoidaan.

Yksinkertaisimmassa tapauksessa hakukone voisi yksinkertaisesti sijoittaa sanan ja URL-osoite, missä se sijaitsee. Mutta tämä tekisi hakukoneesta täysin primitiivisen työkalun, koska ei ole tietoa siitä, missä osassa asiakirjaa tämä sana on (sisällönkuvauskentissä vai pelkässä tekstissä), käytetäänkö sanaa kerran vai toistuvasti ja onko se joka sisältyy linkkiin toiseen tärkeään ja asiaan liittyvään resurssiin. Toisin sanoen tämä menetelmä ei salli sivustojen sijoittelua, ei tarjoa osuvia tuloksia käyttäjille jne.

Tarjotakseen meille hyödyllisiä tietoja, hakukoneet eivät tallenna vain tietoa sanasta ja sen URL-osoitteesta. Hakukone voi tallentaa tietoja sivulla olevan sanan mainintojen määrästä (tiheydestä), antaa sanalle "painon", mikä auttaa tuottamaan hakuluetteloita (tuloksia) tämän sanan painotetun sijoituksen perusteella. ottaa huomioon sen sijainnin (linkkeissä, sisällönkuvauskentissä, sivun otsikossa ja niin edelleen). Jokaisella kaupallisella hakukoneella on oma kaavansa avainsanojen "painon" laskemiseksi indeksoinnin aikana. Tämä on yksi syy siihen, miksi hakukoneet tuottavat täysin erilaisia tuloksia samalle hakukyselylle.

Seuraava tärkeä kohta löydettyjen tietojen käsittelyssä on sen koodaus äänenvoimakkuuden vähentämiseksi levytila pelastaaksesi sen. Esimerkiksi alkuperäisessä Google-artikkelissa kuvataan, että sanojen painotietojen tallentamiseen käytetään 2 tavua (8 bittiä kukin) - tämä ottaa huomioon sanatyypin (iso tai isoilla kirjaimilla), itse kirjainten koko (Font-Size) ja muut tiedot, jotka auttavat määrittämään sivuston paremmuusjärjestyksen. Jokainen tällainen "informaatio" vaatii 2-3 bittiä dataa täydellisessä 2-tavuisessa sarjassa. Tämän seurauksena valtava määrä tietoa voidaan tallentaa erittäin kompaktissa muodossa. Kun tiedot on "pakattu", on aika aloittaa indeksointi.

Indeksoinnilla on yksi tavoite: varmistaa maksimaalinen Pikahaku tarvittavat tiedot. On olemassa useita tapoja luoda indeksejä, mutta tehokkain on rakentaa hash-taulukoita(tiivistetaulukko). Hashing käyttää erityistä kaavaa määrittääkseen jokaiselle sanalle numeerisen arvon.

Jokaisella kielellä on kirjaimia, joilla paljon enemmän sanoja alkaa kuin muilla aakkosten kirjaimilla. Esimerkiksi M-kirjaimella alkavat sanat osiossa Englannin sanakirja huomattavasti enemmän kuin kirjain "X". Tämä tarkoittaa, että suosituimmalla kirjaimella alkavan sanan etsiminen kestää kauemmin kuin minkään muun sanan. Hashing(Hashing) tasoittaa tämän eron ja lyhentää keskimääräistä hakuaikaa sekä erottaa itse indeksin todellisista tiedoista. Hash-taulukko sisältää hash-arvoja sekä osoittimen sitä arvoa vastaaviin tietoihin. Tehokas indeksointi + tehokas sijoittelu yhdessä tarjoavat suuri nopeus haku, vaikka käyttäjä kysyisi erittäin monimutkaista hakulauseke.

Hakukoneiden tulevaisuus

Boolen operaattoreihin ("ja", "tai", "ei") perustuva haku on kirjaimellinen haku - hakukone vastaanottaa hakusanat täsmälleen sellaisina kuin ne on syötetty. Tämä voi aiheuttaa ongelmia esimerkiksi silloin, kun syötetyllä sanalla on useita merkityksiä. "Avain" voi esimerkiksi tarkoittaa "keinoa oven avaamiseen" tai se voi tarkoittaa "salasanaa" palvelimelle kirjautumiseen. Jos olet kiinnostunut vain yhdestä sanan merkityksestä, et ilmeisesti tarvitse tietoja sen toisesta merkityksestä. Voit tietysti rakentaa kirjaimellisen kyselyn, joka sulkee pois tietojen tulostuksen sanan tarpeettoman merkityksen perusteella, mutta olisi mukavaa, jos hakukone itse voisi auttaa sinua.

Yksi tulevaisuuden hakukonealgoritmien tutkimusalue on käsitteellinen tiedonhaku. Nämä ovat algoritmeja, joita käytetään Tilastollinen analyysi sivut, jotka sisältävät tietyn hakusanan tai -lauseen. On selvää, että tällainen "käsitteellinen hakukone" vaatisi paljon enemmän tallennustilaa jokaiselle sivulle ja enemmän aikaa kunkin pyynnön käsittelemiseen. Tällä hetkellä monet tutkijat työskentelevät tämän ongelman parissa.

Kehitystyötä tehdään yhtä intensiivisesti. hakualgoritmit pyyntöjen perusteella luonnollinen kieli(Luonnollinen kielikysely).

Luonnollisten kyselyiden taustalla on ajatus, että voit kirjoittaa kyselysi ikään kuin kysyisit sinua vastapäätä istuvalta kollegalta. Sinun ei tarvitse huolehtia Boolen operaattoreista tai vaikeuttaa monimutkaisen kyselyn kirjoittamista. Tämän päivän suosituin luonnollisen kielen hakusivusto on AskJeeves.com. Se muuntaa kyselyn avainsanoiksi, joita se sitten käyttää indeksoidessaan sivustoja. Tämä lähestymistapa toimii vain, jos yksinkertaiset kyselyt. Edistys ei kuitenkaan pysähdy, on mahdollista, että pian "puhumme" hakukoneiden kanssa omalla "ihmiskielellämme".

Tohtoriopiskelija löytää Internetistä tieteellisiä artikkeleita lääketieteen kandidaatin väitöskirjan kirjallisuuskatsauksen kirjoittamiseen, vieraan kielen artikkeleita vähimmäiskandidaatin kokeeseen valmistautumiseen, kuvauksia nykyaikaisista tutkimusmenetelmistä ja paljon muuta...

Tässä artikkelissa käsitellään tietojen etsimistä Internetistä hakukoneiden avulla.

Niille, jotka eivät vielä ole kovin perehtyneet sellaisiin käsitteisiin kuin verkkosivusto, palvelin, annan perustiedot Internetistä.

Internet on joukko sivustoja, joita isännöidään viestintäkanavien (puhelin-, valokuitu- ja satelliittilinjojen) kautta yhdistetyillä palvelimilla.

Web-sivusto on kokoelma html-muotoisia asiakirjoja (verkkosivustosivuja), jotka on yhdistetty toisiinsa hyperlinkeillä.

Suuri verkkosivusto (esimerkiksi "Medlink" - lääketieteen temaattinen luettelo http://www.medlinks.ru - koostuu 30 000 sivusta, ja sen viemä levytila palvelimella on noin 400 Mt).
Pieni sivusto koostuu useista kymmenistä - sadaista sivuista ja vie 1 - 10 MB (esimerkiksi sivustoni "Postgraduate Doctor" 25. heinäkuuta 2004 koostui 280 .htm sivusta ja palvelimella oli 6 Mt).

Palvelin on tietokone, joka on yhteydessä Internetiin ja toimii kellon ympäri. Palvelin voi isännöidä useista sadaista useisiin tuhansiin sivustoihin samanaikaisesti.

Internetin käyttäjät voivat katsella ja kopioida palvelintietokoneella isännöityjä verkkosivustoja.

Keskeytymättömän pääsyn varmistamiseksi sivustoille virransyöttö palvelimelle tapahtuu keskeytymättömien virtalähteiden kautta ja palvelinten toimintatila (tietokeskus) on varustettu automaattisella sammutusjärjestelmällä ja ympärivuorokautisella teknisellä päivystyksellä. henkilöstö on järjestetty.

Yli 10 vuoden olemassaolonsa ajan Runet ( Venäjänkielinen Internet) on muodostunut järjestyväksi rakenteeksi ja tiedon etsimisestä verkosta on tullut ennakoitavampaa.

Pääasiallinen työkalu tiedonhakuun Internetistä on hakukoneet.

Hakukone koostuu hämähäkkiohjelmasta, joka indeksoi Internet-sivustoja, ja tietokannasta (hakemistosta), joka sisältää tietoja vierailluista sivustoista.

Verkkovastaavan pyynnöstä hämähäkkirobotti saapuu sivustolle ja katselee sivuston sivuja syöttäen tietoja sivuston sivuista hakukoneen hakemistoon. Hakukone voi löytää sivuston itse, vaikka sen verkkovastaava ei olisi hakenut rekisteröintiä. Jos linkki sivustoon tulee jossain hakukoneen polussa (esimerkiksi toisella sivustolla), se indeksoi sivuston välittömästi.

Hämähäkki ei kopioi sivuston sivuja hakukoneen hakemistoon, vaan tallentaa tietoja kunkin sivuston sivun rakenteesta - esimerkiksi mitkä sanat näkyvät asiakirjassa ja missä järjestyksessä, sivuston sivun hyperlinkkien osoitteet, asiakirjan koon kilotavuina, sen luomispäivä ja paljon muuta. Siksi hakukoneen indeksi on useita kertoja pienempi kuin indeksoidun tiedon määrä.

Mitä ja miten hakukone etsii Internetistä?

Ihmiset keksivät hakukoneen auttamaan heitä löytämään tietoa. Mitä on informaatio ihmisen ymmärryksessämme ja visuaalisessa esityksessämme? Nämä eivät ole hajuja tai ääniä, eivät aistimuksia tai kuvia. Nämä ovat vain sanoja, tekstiä. Kun etsimme jotain Internetistä, pyydämme sanoja - hakukyselyä, ja vastauksena toivomme saavamme tekstin, joka sisältää juuri nämä sanat. Koska me tiedämme sen hakujärjestelmä etsii tietojoukosta juuri niitä sanoja, joita pyysimme. Koska niin hänet oli suunniteltu etsimään sanoja.

Hakukone ei etsi sanoja Internetistä, vaan hakemistostaan. Hakukoneen hakemisto sisältää tietoja vain pienestä määrästä Internet-sivustoja. On hakukoneita, jotka indeksoivat vain sivustoja Englannin kieli ja on hakukoneita, jotka sisällyttävät hakemistoonsa vain venäjänkieliset sivustot.

(hakemisto sisältää sivustoja englanniksi, saksaksi ja muilla eurooppalaisilla kielillä)

Runet hakukoneet(hakemisto sisältää venäjänkielisiä sivustoja)

Joidenkin Runet-hakukoneiden ominaisuudet

Google-hakukone ei ota huomioon venäjän kielen morfologiaa. Esimerkiksi Google pitää sanoja "väitöskirja" ja "väitöskirja" erilaisina.

Hakukyselyn tuloksen ensimmäisen sivun lisäksi on tarkasteltava myös loput.

Koska usein sivustot, jotka sisältävät käyttäjän todella tarvitsemaa tietoa, sijaitsevat hakutuloksen sivuilla 4-10.

Miksi tämä tapahtuu? Ensinnäkin monet verkkosivustojen luojat eivät optimoi verkkosivujaan hakukoneita varten, he eivät esimerkiksi sisällytä sisällönkuvauskenttiä verkkosivuillaan.

Sisällönkuvauskentät ovat verkkodokumentin palveluelementtejä, jotka eivät näy näytöllä, mutta ovat tärkeitä, kun hakukoneet löytävät sivustosi. Sisällönkuvauskentät helpottavat hakukoneiden löytämistä, joten heidän ei tarvitse mennä dokumenttiin syvälle ja analysoida koko sivuston tekstiä luodakseen siitä tietyn kuvan. Tärkein sisällönkuvauskenttä on meta NAME="avainsanat" - sivuston sivun avainsanat. Jos sanaa asiakirjan päätekstistä ei pidetä " etsi roskapostia" ja on "avainsanoissa" ensimmäisten 50 joukossa, silloin tämän sanan paino kyselyssä kasvaa, eli asiakirja saa suuremman merkityksen.

Toiseksi verkkosivustojen ylläpitäjien välillä on kova kilpailu ensimmäisistä sijoituksista hakukyselyn seurauksena.

Tilastojen mukaan 80 % verkkosivuston kävijöistä tulee hakukoneista. Ennemmin tai myöhemmin verkkovastaavat ymmärtävät tämän ja alkavat mukauttaa sivustojaan hakukoneiden lakien mukaan.

Valitettavasti jotkut sivuston luojista käyttävät epärehellistä tapaa mainostaa sivustoaan hakukoneiden kautta - niin sanottua "hakuroskapostia" luodakseen näennäisen vastaavuuden sisällönkuvauskenttien sisällön ja sivuston muun tekstin välille - he sijoittavat piilosanoja. sivuston sivuilla kirjoitettuna taustavärillä, jotta ne eivät häiritse sivuston vierailijoita. Hakukoneiden luojat kuitenkin seuraavat tällaisia temppuja ja "hakuroskapostittajan" sivusto putoaa saavutetuista korkeuksistaan aivan pohjaan.

Metaforista ja kuvaannollisista vertailuista on vähän hyötyä Internetissä. Ne vääristävät totuutta ja johdattavat Internetin käyttäjät pois tarkasta ja yksiselitteisestä tiedosta. Mitä vähemmän taiteellista ja tarkempaa sivuston tekijän tyyliä, sitä korkeammalle sijoitukselle sivusto on hakukyselyn tuloksissa.

Jos taas haluat hakukoneen löytävän sinulle artikkeleita Internetistä, ajattele kuin kone, ryhdy koneeksi. Ainakin hetkeksi. Etsinnän aikana.

Hakukone tai yksinkertaisesti "hakukone" on sellainen, joka tekee hakuja Internet-sivuilta käyttäjän pyynnöstä. Maailman tunnetuin hakukone on Google, Venäjällä suosituin Yandex ja yksi vanhimmista hakukoneista on Yahoo. Hakukonearkkitehtuurissa voimme erottaa hakukone– järjestelmän ydin, jota edustaa joukko ohjelmistomoduuleja; tietokanta tai indeksi, joka tallentaa tiedot kaikista hakukoneen tuntemista Internet-resursseista; ja joukko sivustoja, jotka ovat sisääntulopisteitä käyttäjät järjestelmään (www.google.com, www.yandex.ru, ru.yahoo.com jne.). Kaikki tämä vastaa klassikkoa kolmikerroksinen arkkitehtuuri tietojärjestelmät: kyllä käyttöliittymä, liiketoimintalogiikkaa, mikä on tässä tapauksessa Sitä edustaa hakualgoritmien ja tietokannan toteutus.

Internet-haun erityispiirteet

Ensi silmäyksellä Internet-haku ei eroa paljon tavallisista hauista. tiedonhaku esimerkiksi käsittelystä tietokantaan tai tiedostohakutehtävästä . Myös ensimmäisten Internet-hakukoneiden kehittäjät ajattelivat niin, mutta ajan myötä he huomasivat erehtyneensä...

Ensimmäinen ero Internet-haun ja tavallisen haun välillä on se, että saman tietokannan hakualgoritmi olettaa, että sen rakenne on hakukoneen ja kyselyn tekijän tiedossa etukäteen. Internetissä näin ei ole ilmeisistä syistä. Internet-sivut eivät muodosta hakemistorakennetta, vaan verkkoa, joka vaikuttaa myös hakualgoritmeihin, eikä Internet-resursseihin lähetettävien tietojen muotoa valvo kukaan.

Toinen ero, yhtenä ensimmäisen seurauksista, on, että pyyntöä ei esitetä parametriarvojen joukkona (hakukriteerit), vaan tekstinä, jonka henkilö on kirjoittanut hänen luonnollisella kielellään. Ennen kuin aloitat haun, sinun on silti ymmärrettävä, mitä pyynnön kirjoittaja tarkalleen haluaa. Haluan huomauttaa, että se ei ole toisen ihmisen, vaan tietokoneen tehtävä.

Kolmas ero on vähemmän ilmeinen, mutta ei vähemmän perustavanlaatuinen: luettelossa tai tietokannassa kaikilla elementeillä on samat oikeudet. Internetissä on kilpailua, ja sen seurauksena se jakautuu "luotettavampiin tiedontarjoajiin" ja lähteisiin, jotka ovat tilaltaan samanlaisia kuin "tietoroska". Näin ihmiset luokittelevat resursseja, ja tämä koskee myös hakukoneita.

Ja lopuksi on lisättävä, että hakualue on miljardeja sivuja, useita kilotavuja tai enemmän kukin. Päivittäin lisätään noin kymmenen miljoonaa sivua ja saman verran päivitetään. Kaikkea tätä edustaa erilaisia digitaalisia formaatteja. Valitettavasti jopa nykyaikaiset teknologiat ja resurssit ovat markkinajohtajien käytettävissä hakupalvelut Internetissä eivät anna heidän käsitellä kaikkea tätä monimuotoisuutta "lennossa" ja kokonaan.

Mistä hakukone koostuu?

Ensinnäkin on tärkeää ymmärtää vielä yksi ja luultavasti merkittävin ero Internetin hakukoneen työn ja minkä tahansa muun työn välillä. tietojärjestelmä, joka tekee hakuja erilaisista luetteloista ja tietokannoista. Internetin hakukone kone ei etsi tietoa Internetistä pyynnön vastaanottamishetkellä, vaan yrittää tuottaa vastauksen oman tietovarastonsa perusteella - tietokannan, jota kutsutaan indeksiksi, johon se tallentaa aineiston kaikesta tiedossa olevasta ja päivittää sitä säännöllisesti. Toisin sanoen hakukone ei toimi alkuperäisen, vaan hyväksyttävien hakuarvojen alueen projektiossa. Kaikki viimeiset muutokset Internetissä voi näkyä hakutuloksissa vasta, kun vastaavat sivut on avattu indeksoitu- lisätty hakukonehakemistoon. Joten hakujärjestelmä koostuu ensimmäisen likiarvon mukaan hakukoneesta, tietokannasta tai hakemistosta (indeksistä) ja järjestelmän sisääntulopisteistä.

Nyt lyhyesti siitä, mistä hakukone koostuu:

Hämähäkki tai hämähäkki. Sovellus, joka lataa Internet-resurssien sivuja. Hämähäkki ei "indeksoi" minnekään - se vain pyytää sivujen sisältöä samalla tavalla kuin tavallinen Internet-selain lähettää sen palvelimelle HTTP-pyyntö ja saa häneltä vastauksen. Kun sivun sisältö on ladattu, se lähetetään indeksoijalle ja indeksointirobotille, joita käsitellään alla.

Indeksoija. Indeksoija suorittaa alustavan analyysin ladatun sivun sisällöstä, valitsee pääosat (sivun otsikko, kuvaus, linkit, otsikot jne.) ja järjestää kaiken osiin hakukanta tiedot – sijoitettu hakukoneen hakemistoon. Tätä prosessia kutsutaan Internet-resurssien indeksointi, josta tulee itse alijärjestelmän nimi. Alustavan analyysin tulosten perusteella indeksoija voi myös päättää, että sivu ei ole ollenkaan "arvoinen" olla hakemistossa. Syyt tähän päätökseen voivat olla erilaisia: sivulla ei ole nimeä, se on tarkka kopio toiselle hakemistossa jo olevalle sivulle tai se sisältää linkkejä laissa kiellettyihin resursseihin.

Indeksoija. Tämä "eläin" on suunniteltu "ryömimään" hämähäkin lataamalla sivulla olevia linkkejä pitkin. Indeksointirobotti analysoi polut, jotka johtavat tämänhetkinen sivu sivuston muihin osiin tai sivuille ulkoinen internet resurssit ja määrittää lisäjärjestyksen, jossa hämähäkki kulkee World Wide Webin säikeiden läpi. Se on indeksointirobotti, joka löytää hakukoneelle uusia sivuja ja lähettää ne hämähäkille. Indeksoijan työ perustuu hakualgoritmeihin leveys- ja syvyyskuvaajille.

Alijärjestelmä tulosten käsittelyä ja antamista varten (Search Engine and Results Engine). Minkä tahansa hakukoneen tärkein osa. Yrityksen kehittäjät pitävät tämän osajärjestelmän toiminta-algoritmit tiukasti salassa, koska ne ovat liikesalaisuus. Tämä hakukoneen osa on vastuussa hakukoneen vastauksen riittävyydestä käyttäjän pyyntöön. Tässä on kaksi pääkomponenttia:
- Ranking-alijärjestelmä. Rangeissa– Nämä ovat Internet-sivustojen sivuja sen mukaan, miten ne liittyvät tiettyyn pyyntöön. Sivun osuvuus- tämä puolestaan on se, missä määrin sivun sisältö vastaa pyynnön tarkoitusta, ja hakukone määrittää tämän arvon itsenäisesti suuri määrä parametrit. Ranking on salaperäisin ja kiistanalaisin osa hakukoneen "tekoälyä". Sivun sijoitukseen vaikuttavat sen rakenteen ja sisällön (sisällön) lisäksi myös: sivuille johtavien linkkien määrä ja laatu tämä sivu muilta sivustoilta; itse sivuston verkkotunnuksen ikä; sivua katselevien käyttäjien käyttäytymisen luonne ja monet muut tekijät.
- Tulosten antamisen alajärjestelmä. Tämän alijärjestelmän tehtäviin kuuluu käyttäjän pyynnön tulkinta ja sen kääntäminen kielelle jäsennellyt kyselyt hakutulossivujen hakemistoon ja luomiseen. Itse kyselytekstin jäsentämisen lisäksi hakukone voi myös ottaa huomioon:
  - Pyydä kontekstia, muodostettu käyttäjän aiemmin tekemien pyyntöjen merkityksen perusteella. Esimerkiksi, jos käyttäjä vierailee usein autoaiheisia sivustoja, niin kysyttäessä sanaa "Volga" tai "Oka", hän todennäköisesti haluaa saada tietoa näiden merkkien autoista, ei siitä, mistä samannimiset venäläiset alkavat. ja missä ne virtaavat jokia. Sitä kutsutaan henkilökohtainen haku, kun lähetät saman pyynnön eri käyttäjiä merkittävästi erilainen.
  - Käyttäjäasetukset, josta se (hakukone) voi "arvata", analysoimalla käyttäjien valitsemia linkkejä hakutulossivuilla. Tämä on toinen tapa säätää pyynnön kontekstia: käyttäjä näyttää toimillaan kertovan koneelle, mitä hän tarkalleen halusi löytää. Yleensä hakukoneet yrittävät lisätä hakutuloksiin sivuja, jotka ovat oleellisia kyselyn kannalta, mutta liittyvät melko eri alueita elämää. Oletetaan, että käyttäjä on kiinnostunut elokuvista ja valitsee siksi usein linkkejä sivuille, joilla on elokuvatiedotteita, vaikka nämä sivut eivät täysin liity alkuperäiseen pyyntöön. Luodessaan vastausta hänen seuraavaan pyyntöönsä järjestelmä voi antaa etusijalle sivut, joilla on kuvauksia elokuvista, joiden nimet sisältävät sanoja pyynnön tekstistä.
  - Alue, mikä on erittäin tärkeää käsittelyssä kaupalliset tiedustelut liittyvät tavaroiden ja palvelujen ostamiseen paikallisilta toimittajilta. Jos olet kiinnostunut myynnistä ja alennuksista ja olet Moskovassa, et todennäköisesti ole ollenkaan kiinnostunut siitä, mitä tarjouksia tästä aiheesta järjestetään Pietarissa, ellet ilmoita tätä nimenomaisesti pyynnön tekstissä. Ensinnäkin hakutuloksissa pitäisi näkyä tietoja Moskovan myynnistä. Siten nykyaikaiset hakukoneet jakavat kyselyt maantieteellisesti riippuvainen Ja maantieteellisesti riippumaton. Todennäköisesti, jos hakukone päättää, että kyselysi on maantieteellisesti riippuvainen, se lisää siihen automaattisesti alueilmaisimen, jonka se yrittää määrittää Internet-palveluntarjoajasi tiedoista.
  - Aika. Hakukoneiden on joskus analysoitava, milloin sivulla kuvatut tapahtumat tapahtuivat. Tietohan vanhenee jatkuvasti ja käyttäjä tarvitsee ennen kaikkea linkkejä viimeiset uutiset, nykyiset ennusteet ja ilmoitukset tapahtumista, jotka eivät ole vielä päättyneet tai joiden on määrä tapahtua tulevaisuudessa. Sen ymmärtäminen, että sivun relevanssi riippuu ajasta, ja sen vertaaminen pyynnön suoritushetkeen vaatii myös melkoista älykkyyttä hakukoneelta.
  Seuraavaksi hakukone etsii lähimmän merkityksen avainkysely hakemistossa ja tuottaa tuloksia lajittelemalla linkit niiden merkityksen mukaiseen laskevaan järjestykseen. Jokaisella hakemiston avainkyselyllä on erillinen sijoitus sille merkityksellisille sivuille. Järjestelmä ei luo uutta avainkyselyä jokaiselle kirjain- ja numeroyhdistelmälle, vaan tekee tämän tiettyjen käyttäjien kyselyiden tiheyden analyysin perusteella. Hakukone voi myös sekoittaa eri avainsanojen sijoituksia hakutuloksissa, jos se uskoo, että käyttäjä etsii sitä.

Yleiset hakukoneiden toiminnan periaatteet

Sinun on ymmärrettävä, että Internet-hakupalvelut ovat erittäin, hyvin kannattavaa liiketoimintaa. Sinun ei tarvitse mennä yksityiskohtiin siitä, miten yritykset, kuten Google ja Yandex, elävät, koska suurin osa niiden voitosta on kontekstuaalista mainontaa. Ja koska Internetistä etsiminen on erittäin kannattavaa liiketoimintaa, kilpailu tällaisten yritysten välillä on erittäin vakavaa. Mikä määrittää kilpailukyvyn Internet-hakumarkkinoilla? Vastaus on hakukoneiden tulosten laatu. On loogista, että mitä korkeampi se on, sitä enemmän järjestelmä saa uusia käyttäjiä ja sitä arvokkaampi se sijoittuu samojen hakutulosten sivuille. kontekstuaalista mainontaa. Hakukonekehittäjät kuluttavat suurta vaivaa, jonka tarkoituksena on "puhdistaa" hakutulostesi tulokset monenlaisia tieto roskaa, jota kutsutaan yleisesti roskapostiksi. Kuinka tämä tehdään, kuvataan yksityiskohtaisemmin erillisessä artikkelissa, mutta annan tässä yleiset periaatteet hakukoneen käyttäytyminen, joka on muotoiltu kaiken yllä olevan perusteella tehtyjen johtopäätösten muodossa.

Hakukone, jota edustavat sen hämähäkit ja indeksointirobotit, etsii jatkuvasti Internetistä uusia ja päivityksiä. olemassa oleville sivuille, koska merkityksetöntä tietoa arvostetaan alhaisemmaksi.

Hakukone päivittää ajoittain resurssien sijoitusta niiden osuvuuden perusteella. tärkeimmät kyselyt, koska hakemistoon tulee jatkuvasti uusia sivuja. Tätä prosessia kutsutaan hakutulosten päivittämiseksi.

World Wide Webiin lähetettyjen valtavien tietomäärien ja itse hakukoneen rajallisten resurssien vuoksi hakukone yrittää aina ladata vain sen, mikä on (sen mielestä) välttämätöntä. Sen arsenaali sisältää kaikenlaisia suodattimia, jotka leikkaavat pois paljon turhaa jo indeksointivaiheessa tai heittävät roskapostia pois hakemistosta hakutulosten päivitystulosten perusteella.

Analysoidessaan pyyntöä nykyaikaiset hakukoneet yrittävät ottaa huomioon paitsi itse pyynnön tekstin, myös sen ympäristön: käyttäjän kontekstin ja mieltymykset, jotka mainittiin aiemmin, sekä pyynnön ajankohta, alue , ja paljon enemmän.

Relevanssin vuoksi tietty sivu ei vaikuta pelkästään sen sisäisiin parametreihin (rakenne, sisältö), vaan myös ulkoiset parametrit, kuten linkit sivulle muilta sivustoilta ja käyttäjien käyttäytyminen sen katselun aikana.

Hakukoneiden työtä parannetaan jatkuvasti. Hakukoneen ihanteellinen toiminta (ihmisille) on mahdollista vain, jos kaikki indeksointia ja sijoitusta koskevat päätökset tekee komissio, joka koostuu suuri numero asiantuntijoita kaikilta inhimillisen toiminnan aloilta ja aloilta. Koska tämä on epärealistista, tällainen palkkio korvataan asiantuntijajärjestelmillä, heuristisilla hakualgoritmeilla ja muilla tekoälyn elementeillä. Todennäköisesti kaikkien näiden osajärjestelmien työ voisi antaa myös riittävämpiä tuloksia, jos olisi mahdollista käsitellä täysin kaikki saatavilla oleva tieto. avoin pääsy Internetissä, mutta tämä on lähes mahdotonta. Epätäydellinen tekoäly ja rajalliset resurssit ovat kaksi tärkeintä syytä, miksi hakutulokset eivät aina miellytä käyttäjiä, mutta kaikki tämä voidaan parantaa ajan myötä. Nykyään mielestäni tunnetuimpien ja suurten hakukoneiden työ vastaa täysin heidän käyttäjiensä tarpeita ja odotuksia.

Mikä tämä on

DuckDuckGo on melko tunnettu avoimen lähdekoodin hakukone. lähdekoodi. Palvelimet sijaitsevat Yhdysvalloissa. Oman robotin lisäksi hakukone käyttää tuloksia muista lähteistä: Yahoo, Bing, Wikipedia.

Parempi

DuckDuckGo asettuu hakukoneeksi, joka tarjoaa maksimaalisen yksityisyyden ja luottamuksellisuuden. Järjestelmä ei kerää tietoja käyttäjästä, ei tallenna lokeja (ei hakuhistoriaa), käyttöä keksit mahdollisimman rajoitetusti.

DuckDuckGo ei kerää henkilökohtaisia tietoja käyttäjille eikä jaa sitä. Tämä on tietosuojakäytäntömme.
Gabriel Weinberg, DuckDuckGon perustaja

Miksi tarvitset tätä

Kaikki suuret hakukoneet yrittävät personoida näytön edessä olevaa henkilöä koskevien tietojen perusteella. Tätä ilmiötä kutsutaan "suodatinkuplaksi": käyttäjä näkee vain ne tulokset, jotka vastaavat hänen mieltymyksiään tai jotka järjestelmä pitää sellaisina.

DuckDuckGo luo objektiivisen kuvan, joka ei riipu aiemmasta käyttäytymisestäsi Internetissä, ja eliminoi temaattisen Google-mainonta ja Yandex pyyntöjesi perusteella. DuckDuckGon avulla on helppo etsiä tietoa vieraat kielet: Google ja Yandex antavat oletuksena etusijalle venäjänkieliset sivustot, vaikka pyyntö olisi annettu toisella kielellä.

Mikä tämä on

ei Evil - järjestelmä, joka etsii anonyymi verkko Tor. Jotta voit käyttää sitä, sinun on mentävä tähän verkkoon esimerkiksi käynnistämällä erikoistunut samanniminen.

not Evil ei ole ainoa hakukone laatuaan. Siellä on LOOK (oletushaku Tor-selaimessa, pääsee osoitteesta tavallinen internet) tai TORCH (yksi Tor-verkon vanhimmista hakukoneista) ja muut. Päädyimme ei Eviliin Googlen selkeän vihjeen vuoksi (katso vain aloitussivu).

Parempi

Se etsii paikkoja, joissa Google, Yandex ja muut hakukoneet ovat yleensä kiinni.

Miksi tarvitset tätä

Tor-verkko sisältää monia resursseja, joita ei löydy lainkuuliaisesta Internetistä. Ja heidän määränsä kasvaa, kun hallituksen valvonta Internetin sisällöstä kiristyy. Tor on eräänlainen verkosto Internetissä, jossa on omat sosiaaliset verkostonsa, torrent-seurantalaitteet, media, kauppapaikat, blogit, kirjastot ja niin edelleen.

3. YaCy

Mikä tämä on

YaCy on hajautettu hakukone, joka toimii P2P-verkkojen periaatteella. Jokainen tietokone, johon päätietokone on asennettu ohjelmistomoduuli, skannaa Internetiä itsenäisesti, eli se on hakurobotin analogi. Saadut tulokset kerätään yhteinen perusta, jota kaikki YaCy-jäsenet käyttävät.

Parempi

On vaikea sanoa, onko tämä parempi vai huonompi, koska YaCy on täysin erilainen lähestymistapa haun järjestämiseen. Yhden palvelimen ja omistajayhtiön puuttuminen tekee tuloksista täysin riippumattomia kenenkään mieltymyksistä. Jokaisen solmun autonomia eliminoi sensuurin. YaCy pystyy hakemaan sisään syvä verkko ja indeksoimattomat julkiset verkot.

Miksi tarvitset tätä

Jos olet avoimen lähdekoodin ohjelmistojen ja ilmainen internet, joka ei ole valtion virastojen ja suuryritysten vaikutuksen alainen, YaCy on valintasi. Sitä voidaan käyttää myös haun järjestämiseen yrityksen tai muun autonomisen verkon sisällä. Ja vaikka YaCy ei ole kovin hyödyllinen jokapäiväisessä elämässä, se on sen arvoinen vaihtoehto Googlelle hakuprosessin kannalta.

4. Pipl

Mikä tämä on

Pipl on järjestelmä, joka on suunniteltu etsimään tietoa tietystä henkilöstä.

Parempi

Piplin kirjoittajat väittävät, että heidän erikoistuneet algoritmit tehdä hakuja tehokkaammin kuin "tavalliset" hakukoneet. Erityisesti ensisijaisia tiedonlähteitä ovat profiilit sosiaaliset verkostot, kommentit, osallistujaluettelot ja erilaisia perustuksia tiedot, joissa julkaistaan tietoja ihmisistä, esimerkiksi tietokannat oikeuden päätökset. Lifehacker.comin, TechCrunchin ja muiden julkaisujen arvioinnit vahvistavat Piplin johtajuuden tällä alueella.

Miksi tarvitset tätä

Jos haluat löytää tietoja Yhdysvalloissa asuvasta henkilöstä, Pipl on paljon enemmän tehokkaampi kuin Google. Venäjän tuomioistuinten tietokannat eivät ilmeisesti ole hakukoneen käytettävissä. Siksi hän ei tule niin hyvin toimeen Venäjän kansalaisten kanssa.

Mikä tämä on

FindSounds on toinen erikoistunut hakukone. Etsii erilaisia ääniä(talo, luonto, autot, ihmiset ja niin edelleen) avoimissa lähteissä. Palvelu ei tue venäjänkielisiä kyselyjä, mutta siellä on vaikuttava luettelo venäjänkielisistä tunnisteista, joita voit etsiä.

Parempi

Lähtö sisältää vain äänet eikä mitään ylimääräistä. Hakuasetuksissa voit asettaa haluamasi muodon ja äänenlaadun. Kaikki löydetyt äänet ovat ladattavissa. Ääniä haetaan kuvion mukaan.

Miksi tarvitset tätä

Jos haluat nopeasti löytää musketin laukauksen äänen, imevän tikan iskuja tai Homer Simpsonin huudon, tämä palvelu on sinua varten. Ja valitsimme tämän vain saatavilla olevista venäjänkielisistä kyselyistä. Englanniksi kirjo on vielä laajempi.

Mutta vakavasti, erikoistunut palvelu vaatii erikoistuneen yleisön. Mutta entä jos se on hyödyllistä myös sinulle?

Mikä tämä on

Wolfram|Alpha on laskennallinen hakukone. Linkkien sijaan avainsanoja sisältäviin artikkeleihin se tarjoaa valmiin vastauksen käyttäjän pyyntöön. Jos esimerkiksi kirjoitat englanninkieliseen hakulomakkeeseen "vertaa New Yorkin ja San Franciscon populaatioita", Wolfram|Alpha näyttää välittömästi vertailun sisältävät taulukot ja kaaviot.

Parempi

Tämä palvelu on muita parempi faktojen etsimiseen ja tietojen laskemiseen. Wolfram|Alpha kerää ja systematisoi tietoa, joka on saatavilla verkossa eri alueita, mukaan lukien tiede, kulttuuri ja viihde. Jos tämä tietokanta sisältää valmiin vastauksen hakukyselyyn, järjestelmä näyttää sen, jos ei, se laskee ja näyttää tuloksen. Tässä tapauksessa käyttäjä näkee vain tarvittavat tiedot eikä mitään ylimääräistä.

Miksi tarvitset tätä

Jos olet esimerkiksi opiskelija, analyytikko, toimittaja tai tutkija, voit käyttää Wolfram|Alphaa työhösi liittyvien tietojen etsimiseen ja laskemiseen. Palvelu ei ymmärrä kaikkia pyyntöjä, mutta kehittyy ja fiksuutuu jatkuvasti.

Mikä tämä on

Metahakukone Dogpile näyttää yhdistetyn luettelon tuloksista Hakutulokset Google, Yahoo ja muut suositut järjestelmät.

Parempi

Ensinnäkin Dogpile näyttää vähemmän mainoksia. Toiseksi palvelu käyttää erityistä algoritmia löytääkseen ja näyttääkseen parhaat tulokset eri hakukoneista. Dogpilen kehittäjien mukaan heidän järjestelmänsä tuottavat täydellisimpiä hakutuloksia koko Internetissä.

Miksi tarvitset tätä

Jos et löydä tietoa Googlesta tai muusta tavallisesta hakukoneesta, etsi se useista hakukoneista kerralla Dogpilen avulla.

Mikä tämä on

BoardReader - järjestelmä tekstihaku foorumeilla, kysymys- ja vastauspalveluissa ja muissa yhteisöissä.

Parempi

Palvelun avulla voit rajata hakukentän sosiaalisiin alustoihin. Erikoissuodattimien ansiosta löydät nopeasti kriteereitäsi vastaavat viestit ja käyttäjien kommentit: kieli, julkaisupäivä ja sivuston nimi.

Miksi tarvitset tätä

BoardReader voi olla hyödyllinen PR-asiantuntijoille ja muille mediaasiantuntijoille, jotka ovat kiinnostuneita suuren yleisön mielipiteestä tietyistä asioista.

Lopulta

Vaihtoehtoisten hakukoneiden elämä on usein ohikiitävää. NOIN pitkän aikavälin näkymiä Lifehacker kysyi Yandexin Ukrainan sivuliikkeen entiseltä pääjohtajalta Sergei Petrenkolta vastaavista projekteista.

Sergei Petrenko

Entinen toimitusjohtaja"Yandex.Ukraina".

Mitä tulee vaihtoehtoisten hakukoneiden kohtaloon, se on yksinkertainen: olla erittäin kapealla projektilla pienellä yleisöllä, joten ilman selkeitä kaupallisia näkymiä tai päinvastoin täysin selkeästi niiden puuttumisesta.

Jos katsot artikkelin esimerkkejä, voit nähdä, että tällaiset hakukoneet joko erikoistuvat kapeaan mutta suosittuun markkinarakoon, joka ei ehkä ole vielä kasvanut tarpeeksi havaittavaksi Googlen tai Yandexin tutkissa, tai ne testaavat sijoituksen alkuperäinen hypoteesi, joka ei vielä sovellu tavalliseen hakuun.

Jos esimerkiksi Tor-haku yhtäkkiä osoittautuu kysytyksi, toisin sanoen vähintään prosenttiosuus Googlen yleisöstä tarvitsee sieltä saatuja tuloksia, tavalliset hakukoneet alkavat tietysti ratkaista ongelman. löytää ne ja näyttää ne käyttäjälle. Jos yleisön käyttäytyminen osoittaa, että merkittävälle osalle käyttäjiä huomattavassa määrässä kyselyitä tulokset, jotka on annettu ottamatta huomioon käyttäjästä riippuvia tekijöitä, näyttävät osuvammilta, Yandex tai Google alkaa tuottaa tällaisia tuloksia.

"Ole parempi" tämän artikkelin yhteydessä ei tarkoita "ole parempi kaikessa". Kyllä, sankarimme ovat monessa suhteessa kaukana Googlesta ja Yandexistä (jopa kaukana Bingistä). Mutta jokainen näistä palveluista antaa käyttäjälle jotain, mitä hakualan jättiläiset eivät voi tarjota. Tiedät varmasti myös vastaavia projekteja. Jaa kanssamme - keskustellaan.

Tietojen etsiminen Internetistä on yksi Internetin suosituimmista toiminnoista. Internetin kävijöiden on usein etsittävä asiakirjoja tietystä aiheesta. Jos sinulla on asiakirjan tarkka osoite Internetissä, tässä tapauksessa ei ole ongelmia haun kanssa: selaimessa osoitekenttä voit kirjoittaa tunnetun resurssiosoitteen, ja jos yhteys onnistuu, selain näyttää halutun sivun.

Jos asiakirjan tarkkaa osoitetta ei ole saatavilla, voit käyttää hakukoneen palveluita. Hakukone? Tämä " erikoistunut palvelin Internetissä, joka tarjoaa erilaisia asiakirjahakutyökaluja." Esimerkki hakupalvelimesta on Rambler-palvelin (Rambler.ru), joka sijaitsee osoitteessa http://rambler.ru. Palvelimen pääsivu näkyy kuvassa.

Riisi. 1.

Hakupalvelimet kokoavat yleensä omat hakemistonsa Internet-resursseista. Hakupalvelinluetteloita päivitetään säännöllisesti tiedoilla verkossa luoduista resursseista, jotka tulevat hakuroboteista. Hakurobotit tai hämähäkit ovat erityisiä verkko-ohjelmat, jotka käyttävät tällä hetkellä saatavilla olevia Internet-palvelimia, analysoivat asiakirjoja ja täydentävät hakukoneensa taulukoita. Hakurobotit suorittavat resurssien etsimisen ja systematisoinnin tausta kellon ympäri.

Toinen tulonlähde hakupalvelimia tiedot olemassa olevista sivustoista - verkkosivujen omistajien resurssien nimenomainen rekisteröinti. Palvelimella on lomakkeita, jotka resurssien omistajat täyttävät. Lomake määrittää resurssin osoitteen, lyhyt kuvaus, avainsanat, kohdeyleisöä jne. Nämä tiedot analysoidaan ja lisätään palvelinhakemistoihin automaattisesti erityisiä ohjelmia tai "manuaalisesti" asiantuntijoiden toimesta - resurssiluetteloiden muodostumista valvovat asiantuntijat.

Internetistä tiedonhakumekanismien ymmärtäminen antaa verkkosivujen kehittäjille mahdollisuuden valmistella asiakirjansa niin, että hakukoneet voivat myöhemmin löytää ne ja sijoittaa ne resurssihakemiston asianmukaisiin osiin.

Hae avainsanoilla Internetistä

Yksi suosittuja tapoja etsi asiakirjoja WWW:stä - etsi avainsanoja. Kun määrität hakulomakkeessa avainsanoja, hakukone etsii asiakirjoja, jotka sisältävät määritetyt avainsanat. Hakukone ei tietenkään suorita hakua tuhansien Internetissä toimivien tietokoneiden sisällöstä kyselyn täyttämiseksi - sinun on odotettava useita päiviä tällaisen haun tulosta. Haku tehdään niistä hakukoneen resursseista (luettelot, taulukot), jotka on aiemmin kerätty ja systematisoitu robottien ja asiantuntijoiden avulla.

Koska verkkoresurssien määrä muuttuu todella rajattomaksi, hakukone voi löytää asiakirjaa pyydettäessä useita tuhansia tietyn avainsanan sisältäviä asiakirjoja. On selvää, että niin monista asiakirjoista on vaikea löytää sitä, joka parhaiten vastaa tiettyä aihetta. Hakukoneet tarjoavat kuitenkin yleensä mahdollisuuden laatia tarkempi kysely.

Pyynnöllä voi olla monimutkainen muoto ja se voidaan laatia käyttämällä avainsanoja ja loogisia toimintoja JA (JA), TAI (OR), negaatio (EI). Tai hakupyyntö voidaan luoda käyttämällä erikoismerkit, jonka avulla voit asettaa (tai peruuttaa) avainsanojen sanamuotoja. Tällaiset mekanismit auttavat muotoilemaan tarkemmin asiakirjojen valintaa koskevat vaatimukset. Jokaisella hakukoneella on apujärjestelmä, joka auttaa vierailijaa luomaan hakukyselyn.