Teoria hakukoneiden luomisesta. Mikä on listaamieni koneiden luokitus käytännössä, mitä koneita käytetään enemmän, mitä vähemmän? Asiakirjojen nykyisen tilan seuranta hakukonehakemistossa

Johdanto……………………………………………………………………………………….2

1 Hakukoneet: koostumus, toiminnot, toimintaperiaate

1.1 Hakukoneiden kokoonpano………………………………….…………………3

1.2 Hakukoneiden ominaisuudet………………………………………………..4

1.3 Hakukoneiden periaatteet………………………………………..4

2 Yleiskuvaus hakukoneiden toiminnasta

2.1 Ulkomaiset hakukoneet: koostumus ja toimintaperiaatteet…………12

2.2 Venäjänkieliset hakukoneet: koostumus ja toimintaperiaatteet………..14

Johtopäätös…………………………………………………………………

Lista lähdeluettelosta………………………………..………….17

Johdanto

Hakukoneista on jo pitkään tullut olennainen osa venäläistä Internetiä, koska ne tarjoavat, vaikkakin eri keinoin, itsenäisesti kaikki tiedonkäsittelyn vaiheet sen vastaanottamisesta ensisijaisesta lähdesolmusta siihen, että ne tarjoavat käyttäjälle mahdollisuuden etsiä. kutsutaan usein autonomiset hakukoneet järjestelmät .

Hakukoneet ovat nykyään valtavia ja monimutkaisia ​​mekanismeja, jotka edustavat paitsi tiedonhakutyökalua myös houkuttelevia alueita yrityksille. Nämä järjestelmät voivat poiketa toisistaan ​​tiedon valintaperiaatteessa, joka on jossain määrin läsnä automaattisen indeksin algoritmissa. skannausohjelmassa ja rekisteröinnistä vastaavien luettelotyöntekijöiden menettelysäännöissä. Yleensä verrataan kahta pääindikaattoria:

Avaruusmittakaava, jolla IPS toimii, on

Ja hänen erikoisuutensa.

Suurin osa hakukoneiden käyttäjistä ei ole koskaan ajatellut (tai ajatellut sitä, mutta ei löytänyt vastausta) hakukoneiden toimintaperiaatteesta, käyttäjien pyyntöjen käsittelyjärjestelmästä, siitä, mistä nämä järjestelmät koostuvat ja miten ne toimivat. Hakukoneita voidaan verrata help deskiin, jonka agentit kiertävät yrityksiä ja keräävät tietoa tietokantaan. Kun otat yhteyttä palveluun, tiedot haetaan tästä tietokannasta. Tietokannan tiedot vanhentuvat, joten agentit päivittävät ne säännöllisesti. Jotkut yritykset lähettävät itse tietoja itsestään, eikä agenttien tarvitse tulla heidän luokseen. Toisin sanoen, tukipalvelu on kaksi tehtävää: luominen ja jatkuva päivitys tietokannan tiedot ja tiedon etsiminen tietokannasta asiakkaan pyynnöstä.

1 Hakukoneet: koostumus, toiminnot, toimintaperiaate

1.1 Hakukoneiden kokoonpano

Hakujärjestelmä on ohjelmisto- ja laitteistokompleksi, joka on suunniteltu etsimään Internetistä ja vastaamaan käyttäjän pyyntöön, joka on määritelty tekstilausekkeen muodossa (hakukysely), tuottamalla luettelo linkeistä tietolähteisiin merkityksellisyyden järjestyksessä ( pyynnön mukaisesti). Suurimmat kansainväliset hakukoneet: Google, Yahoo, MSN. Venäjän Internetissä nämä ovat Yandex, Rambler, Aport.

Samoin hakukone koostuu kahdesta osasta: niin sanotusta robotista (tai hämähäkistä), joka indeksoi Web-palvelimia ja luo hakukonetietokannan.

Robotin perusta muodostuu pääasiassa itsestään (robotti itse löytää linkkejä uusiin resursseihin) ja paljon vähemmässä määrin resurssien omistajat, jotka rekisteröivät sivustonsa hakukoneeseen. Tietokannan muodostavan robotin (verkkoagentti, hämähäkki, mato) lisäksi löytyy ohjelma, joka määrittää löydettyjen linkkien luokituksen.

Hakukoneen toimintaperiaate on, että se kysyy sisäisestä luettelostaan ​​(tietokannasta) käyttäjän kyselykenttään määrittämiä avainsanoja ja tuottaa listan linkeistä, jotka on järjestetty osuvuuden mukaan.

On syytä huomata, että kun harjoittelet erityinen pyyntö Käyttäjä, hakukone toimii täsmälleen sisäisillä resursseilla (eikä lähde matkalle Webissä, kuten kokemattomat käyttäjät usein olettavat), ja sisäiset resurssit ovat luonnollisesti rajalliset. Huolimatta siitä, että hakukoneen tietokanta päivitetään jatkuvasti, hakukone ei voi indeksoida kaikkia Web-asiakirjoja: niiden määrä on liian suuri. Siksi on aina mahdollista, että etsimäsi resurssi on yksinkertaisesti tuntematon tietylle hakukoneelle.

1.2 Hakukoneiden ominaisuudet

Työssä hakuprosessi esitetään neljässä vaiheessa: muotoilu (tapahtuu ennen haun alkamista); toiminta (haun aloittaminen); yleiskatsaus tuloksista (tulos, jonka käyttäjä näkee haun jälkeen); ja tarkennus (tulosten tarkastelun jälkeen ja ennen kuin palaat hakuun saman tarpeen eri muotoilulla). Kätevämpi epälineaarinen tiedonhakujärjestelmä koostuu seuraavista vaiheista:

Tiedontarpeiden korjaaminen luonnollisella kielellä;

Valitaan tarvittava hakupalvelut verkot ja tietojen tallennustarpeiden tarkka formalisointi tietyillä tiedonhakukielillä (IRL);

Luotujen kyselyjen suorittaminen;

Vastaanotettujen asiakirjojen linkkiluetteloiden esikäsittely ja valinta;

Yhteydenotto valittuihin osoitteisiin tarvittavia asiakirjoja varten;

Esikatsele löydettyjen asiakirjojen sisältöä;

Tarvittavien asiakirjojen tallentaminen myöhempää tutkimusta varten;

Linkkien poimiminen asiaankuuluvista asiakirjoista kyselyn laajentamiseksi;

Koko tallennettujen asiakirjojen joukon tutkiminen;

Jos tiedontarve ei täysin täyty, palaa ensimmäiseen vaiheeseen.

1.3 Miten hakukoneet toimivat

Minkä tahansa hakukoneen tavoitteena on toimittaa ihmisille heidän etsimäänsä tietoa. Opeta ihmisiä tekemään "oikeita" pyyntöjä, ts. hakukoneiden toimintaperiaatteiden mukaiset kyselyt ovat mahdottomia. Siksi kehittäjät luovat hakukoneille algoritmeja ja toimintaperiaatteita, joiden avulla käyttäjät löytävät juuri ne tiedot, joita he etsivät. Tämä tarkoittaa, että hakukoneen täytyy "ajatella" samalla tavalla kuin käyttäjä ajattelee etsiessään tietoa.

Useimmat hakukoneet toimivat esiindeksoinnin periaatteella. Useimpien hakukoneiden tietokanta toimii samalla periaatteella.

Rakentamisessa on toinenkin periaate. Suora haku. Se koostuu kirjan kääntämisestä sivu sivulta hakusanan etsimiseksi. Tietenkin tämä menetelmä on paljon vähemmän tehokas.

Käänteisellä indeksillä varustetussa versiossa hakukoneet kohtaavat tiedostokoon ongelman. Yleensä ne ovat huomattavan suuria. Tämä ongelma ratkaistaan ​​yleensä kahdella tavalla. Ensimmäinen on, että kaikki tarpeeton poistetaan tiedostoista ja vain se, mikä todella tarvitaan hakuun, jää jäljelle. Toinen tapa on, että jokaisesta sijainnista ei muisteta absoluuttista osoitetta, vaan suhteellista osoitetta, ts. osoiteero nykyisen ja edellisen sijainnin välillä.

Näin ollen kaksi hakukoneen suorittamaa pääprosessia ovat sivustojen, sivujen indeksointi ja haku. Yleensä indeksointiprosessi ei aiheuta ongelmia hakukoneille. Ongelmana on miljoonan pyynnön käsittely päivässä. Tämä johtuu suurista tietomääristä, joita suuret tietokonejärjestelmät käsittelevät. Päätekijä, joka määrittää hakuun osallistuvien palvelimien määrän, on haun kuormitus. Tämä selittää joitain omituisuuksia, joita syntyy, kun tietoa etsitään.

Hakukoneet koostuvat viidestä erillisestä ohjelmistokomponentista:

hämähäkki: selainmainen ohjelma, joka lataa verkkosivuja.

indeksointirobotti:"matkustava" hämähäkki, joka seuraa automaattisesti kaikkia sivulta löytyviä linkkejä.

indeksoija:"sokea" ohjelma, joka analysoi hämähäkkien lataamia verkkosivuja.

tietokanta: ladattujen ja käsiteltyjen sivujen tallennus.

hakukoneen tuloskone (tulosten toimitusjärjestelmä): hakee hakutulokset tietokannasta.

Hämähäkki: Hämähäkki on ohjelma, joka lataa verkkosivuja. Se toimii aivan kuten selaimesi, kun muodostat yhteyden verkkosivustoon ja lataat sivun. Hämähäkillä ei ole visuaalisia osia. Voit havaita saman toiminnon (latauksen), kun tarkastelet tiettyä sivua ja valitset selaimessasi "näytä HTML-koodi".

Indeksointirobotti: Aivan kuten hämähäkki lataa sivuja, se voi poistaa sivun ja löytää kaikki linkit. Sen tehtävänä on määrittää, minne hämähäkin pitäisi seuraavaksi mennä linkkien tai ennalta määrätyn osoiteluettelon perusteella.

Indeksoija: Indeksoija jäsentää sivun eri osiin ja analysoi ne. Elementit, kuten sivun otsikot, otsikot, linkit, teksti, rakenneelementit, LIVOITAT elementit, KURSIVOITTEET ja muut sivun tyyliosat eristetään ja analysoidaan.

Tietokanta: Tietokanta on kaikkien hakukoneen lataamien ja analysoimien tietojen arkisto. Tämä vaatii usein valtavia resursseja.

Hae Moottori Tulokset: Tulosjärjestelmä vastaa sivujen sijoituksesta. Se päättää, mitkä sivut täyttävät käyttäjän pyynnön ja missä järjestyksessä ne pitäisi lajitella. Tämä tapahtuu hakukoneen sijoitusalgoritmien mukaan. Nämä tiedot ovat meille arvokkaimmat ja mielenkiintoisimmat - optimoija on vuorovaikutuksessa tämän hakukoneen komponentin kanssa yrittäen parantaa sivuston asemaa hakutuloksissa, joten tulevaisuudessa harkitsemme yksityiskohtaisesti kaikkia tekijöitä, jotka vaikuttavat tulosten ranking.

Hakuhakemisto toimii kolmessa vaiheessa, joista kaksi ensimmäistä ovat valmistavia ja käyttäjälle näkymättömiä. Ensin hakuhakemisto kerää tietoja Maailman Leveä Web . Käytä tätä varten erityisiä ohjelmia, jotka ovat samanlaisia ​​​​kuin selaimet. He pystyvät kopioimaan tietyn Web-sivun hakuhakemistopalvelimelle, katsomaan sitä, löytämään kaikki hyperlinkit, joissa kyseiset resurssit löytyvät, etsimään uudelleen niiden sisältämiä hyperlinkkejä jne. Tällaisia ​​ohjelmia kutsutaan ns. madot, hämähäkit, toukat, telakoneet, hämähäkit ja muita vastaavia nimiä. Jokainen hakuhakemisto käyttää omaansa tähän tarkoitukseen. ainutlaatuinen ohjelma, jota hän usein kehittää itse. Monet nykyaikaiset hakukoneet syntyivät kokeellisista projekteista, jotka liittyivät verkkoa valvovien automaattisten ohjelmien kehittämiseen ja käyttöönottoon. Teoriassa onnistuneella osallistumisella hämähäkki pystyy kammatamaan koko verkkotilan yhdellä sukelluksella, mutta tämä vie paljon aikaa, ja hänen on silti palattava aika ajoin aiemmin vierailtuihin resursseihin seuratakseen siellä tapahtuvia muutoksia ja tunnistaakseen "kuollut" linkit, eli ne jotka ovat menettäneet merkityksensä.

Yksi tärkeimmistä tavoista löytää tietoa Internetistä on hakukoneet. Hakukoneet indeksoivat Internetiä päivittäin: he vierailevat verkkosivuilla ja syöttävät ne jättimäisiin tietokantoihin. Tämä antaa käyttäjälle mahdollisuuden kirjoittaa joitakin avainsanoja, napsauta "lähetä" ja katso, mitkä sivut täyttävät hänen pyyntönsä.

Hakukoneiden toiminnan ymmärtäminen on välttämätöntä verkkovastaaville. Heille asiakirjojen ja koko palvelimen tai sivuston oikea rakenne hakukoneiden kannalta on elintärkeää. Ilman tätä asiakirjat eivät näy tarpeeksi usein vastauksena käyttäjien hakukoneelle esittämiin pyyntöihin tai niitä ei välttämättä edes indeksoida ollenkaan.

Verkkovastaavat haluavat parantaa sivujensa sijoitusta, ja tämä on ymmärrettävää: jokainen pyyntö hakukoneelle voi tuottaa satoja ja tuhansia vastaavia linkkejä asiakirjoihin. Useimmissa tapauksissa vain ensimmäiset 10 linkkiä ovat riittävän osuvia kyselyn kannalta.

Tietenkin haluat dokumentin olevan kymmenen parhaan joukossa, koska useimmat käyttäjät harvoin näkevät kymmenen parhaan joukossa olevia linkkejä. Toisin sanoen, jos linkki asiakirjaan on yhdestoista, se on yhtä huono kuin jos sitä ei olisi ollenkaan.

Tärkeimmät hakukoneet

Mitkä sadoista hakukoneista ovat todella tärkeitä verkkovastaavalle? No, tietysti laajalti tunnettu ja usein käytetty. Mutta samalla sinun tulee ottaa huomioon yleisö, jolle palvelimesi on suunniteltu. Jos palvelimesi sisältää esimerkiksi erittäin erikoistuneita tietoja uusimmat menetelmät lypsylehmiä, sinun ei luultavasti kannata luottaa hakukoneisiin yleinen tarkoitus. Tässä tapauksessa suosittelen vaihtamaan linkkejä kollegoidesi kanssa, jotka käsittelevät samanlaisia ​​asioita :) Joten ensin määritellään terminologia.

Niitä on kahta tyyppiä tietokannat tiedot verkkosivuista: hakukoneet ja hakemistot.

Hakukoneet: (hämähäkit, indeksointirobotit) tutkivat jatkuvasti Internetiä täydentääkseen asiakirjatietokantojaan. Yleensä tämä ei vaadi ihmiseltä mitään vaivaa. Esimerkkinä voisi olla Altavista-hakukone.

Jokaisen asiakirjan suunnittelu on melko tärkeä hakukoneille. Otsikko, sisällönkuvauskentät ja sivun sisältö ovat erittäin tärkeitä.

Luettelot: toisin kuin hakukoneet, tiedot syötetään luetteloon henkilön aloitteesta. Lisätyn sivun tulee olla tiukasti linkitetty luettelossa hyväksyttyihin luokkiin. Esimerkki hakemistosta on Yahoo. Sivujen suunnittelulla ei ole väliä. Alla puhumme pääasiassa hakukoneista.

Altavista

Järjestelmä avattiin joulukuussa 1995. Omistaja DEC. Vuodesta 1996 hän on tehnyt yhteistyötä Yahoon kanssa.

Excite Search

Vuoden 1995 lopulla käyttöön otettu järjestelmä kehittyi nopeasti. Heinäkuussa 1996 ostettiin Magellan ja syyskuussa 1996 WebCrawler. Molemmat kuitenkin käyttävät sitä erillään toisistaan. Ehkä tulevaisuudessa he työskentelevät yhdessä.

Tässä järjestelmässä on myös hakemisto - Excite Reviews. Pääsy tähän hakemistoon on onnea, koska kaikki sivustot eivät sisälly siihen. Hakukone ei kuitenkaan käytä tämän hakemiston tietoja oletusarvoisesti, mutta se on mahdollista tarkistaa hakutulosten tarkastelun jälkeen.

HotBot

Otettiin käyttöön toukokuussa 1996. Wiredin omistuksessa. Perustuu Berkeley Inktomi -hakukoneteknologiaan.

InfoSeek

Hieman aikaisemmin kuin 1995 lanseerattu se on laajalti tunnettu, erittäin haettavissa ja helposti saatavilla. Tällä hetkellä "Ultrasmart/Ultraseek" sisältää noin 50 miljoonaa URL-osoitetta.

Oletushakuvaihtoehto on Ultrasmart. Tässä tapauksessa haku suoritetaan molemmista hakemistoista. Ultraseek-vaihtoehdolla kyselytulokset palautetaan ilman lisäinformaatio. Todella uusi hakutekniikka mahdollistaa myös helpomman haun ja monia muita ominaisuuksia, joita voit lukea InfoSeekistä. Hakukoneesta löytyy erillinen hakemisto: InfoSeek Select.

Lycos

Yksi vanhimmista hakukoneista, Lycos, on toiminut noin toukokuusta 1994 lähtien. Laajalti tunnettu ja käytetty. Se sisältää Point-hakukoneen (toiminut vuodesta 1995) ja A2Z-luettelon (toiminut helmikuusta 1996).

OpenText

OpenText-järjestelmä ilmestyi hieman aikaisemmin kuin vuonna 1995. Kesäkuusta 1996 lähtien se aloitti yhteistyön Yahoon kanssa. Se on vähitellen menettämässä asemaansa ja lakkaa pian olemasta tärkeimpien hakukoneiden joukossa.

WebCrawler

Avattiin 20. huhtikuuta 1994 tutkimusprojektina Washingtonin yliopistossa. Maaliskuussa 1995 sen osti America Online. Siellä on WebCrawler Select -hakemisto.

Yahoo

Yahoon vanhin hakemisto julkaistiin vuoden 1994 alussa. Laajalti tunnettu, usein käytetty ja arvostetuin. Maaliskuussa 1996 julkaistiin toinen Yahoo-luettelo - Yahooligans lapsille. Yhä enemmän alueellisia ja parhaita Yahoo-hakemistoja ilmestyy.

Koska Yahoo on tilauspohjainen, jotkin sivustot eivät välttämättä sisälly. Jos Yahoo-haku ei tuota sopivia tuloksia, käyttäjät voivat käyttää hakukonetta. Tämä tehdään hyvin yksinkertaisesti. Kun Yahoolle tehdään kysely, hakemisto välittää sen mille tahansa suurelle hakukoneelle. Osoiteluettelon ensimmäiset linkit, jotka täyttävät pyynnön, ovat osoitteita hakemistosta ja sitten hakukoneista, erityisesti Altavistasta, saatuja osoitteita.

Hakukoneiden ominaisuudet

Jokaisella hakukoneella on useita ominaisuuksia. Nämä ominaisuudet tulee ottaa huomioon sivujasi tehdessä.

Hakukoneen tyyppi

"Koko teksti" -hakukoneet indeksoivat verkkosivun jokaisen sanan, jättäen pois vain osan lopetussanoista. "Abstraktit" hakukoneet luovat eräänlaisen otteen jokaisesta sivusta.

Verkkovastaaville kokotekstimoottorit ovat hyödyllisempiä, koska kaikki verkkosivulta löydetyt sanat analysoidaan sen merkityksen määrittämiseksi käyttäjien kyselyille. Abstrakteilla hakukoneilla saattaa kuitenkin käydä niin, että sivut indeksoidaan paremmin kuin kokotekstisivut. Tämä voi johtua poiminta-algoritmista, esimerkiksi sillä, kuinka usein samoja sanoja käytetään sivulla.

Koko

Hakukoneen koko määräytyy indeksoitujen sivujen lukumäärän mukaan. Esimerkiksi suurikokoinen hakukone saattaa indeksoida melkein kaikki sivusi, keskikokoinen hakukone saattaa indeksoida palvelimesi vain osittain ja pienikokoinen hakukone ei välttämättä sisällytä sivujasi hakukoneiden hakemistoihin ollenkaan.

Päivitysjakso

  • Jotkut hakukoneet indeksoivat sivun välittömästi käyttäjän pyynnöstä ja jatkavat sitten indeksoimattomien sivujen indeksointia
  • toiset voivat useammin "ryömii" pitkin suosittuja sivuja verkoissa kuin muut

Asiakirjahakemiston päivämäärä

Jotkut hakukoneet näyttävät päivämäärän, jolloin tietty asiakirja indeksoitiin. Tämä auttaa käyttäjää ymmärtämään, kuinka "tuoreena" hakukone palauttaa linkin. Toiset jättävät käyttäjien arvattavaksi.

Lähetetyt sivut

Ihannetapauksessa hakukoneiden pitäisi löytää minkä tahansa sivun miltä tahansa palvelimelta seuraavien linkkien seurauksena. Todellinen kuva näyttää erilaiselta. Palvelinsivut näkyvät hakukoneiden hakemistoissa paljon aikaisemmin, jos ne on määritetty suoraan (Lisää URL-osoite).

Lähettämättömät sivut

Jos vähintään yksi palvelinsivu on määritetty, hakukoneet löytävät varmasti seuraavat sivut määritetyn sivun linkkien avulla. Tämä vie kuitenkin enemmän aikaa. Jotkut koneet indeksoivat välittömästi koko palvelimen, mutta useimmat kuitenkin jättävät palvelimen indeksoinnin tulevaisuutta varten, kun määritetyn sivun hakemistoon on tallennettu.

Indeksoinnin syvyys

Tämä asetus koskee vain määrittelemättömiä sivuja. Se näyttää kuinka monta sivua määritetyn sivun jälkeen hakukone indeksoi.

Useimmilla suurilla koneilla ei ole rajoituksia indeksointisyvyydelle. Käytännössä tämä ei ole täysin totta. Tässä on muutamia syitä, miksi kaikkia sivuja ei välttämättä indeksoida:

  • ei kovin huolellinen kehysrakenteiden käyttö (ilman linkkien monistamista ohjaustiedostossa (frameset))
  • käyttämällä kuvakarttoja kopioimatta niitä tavallisilla linkeillä

Kehyksen tuki

Jos hakurobotti ei osaa työskennellä runkorakenteita, niin monet kehyksiset rakenteet jäävät huomaamatta indeksoinnin aikana.

ImageMap-tuki

Tämä on suunnilleen sama ongelma kuin palvelinkehysrakenteissa.

Salasanalla suojatut hakemistot ja palvelimet

Jotkut hakukoneet voivat indeksoida tällaiset palvelimet, jos annat niille käyttäjätunnuksen ja salasanan. Miksi tämä on välttämätöntä? Jotta käyttäjät voivat nähdä, mitä palvelimellasi on. Näin voit ainakin saada selville, että tällaisia ​​tietoja on olemassa, ja ehkä he sitten tilaavat tietosi.

Linkin taajuus

Tärkeimmät hakukoneet voivat määrittää asiakirjan suosion sen perusteella, kuinka usein siihen linkitetään muista paikoista verkossa. Jotkut koneet tällaisten tietojen perusteella "päättelevät", kannattaako tällaisen asiakirjan indeksointiin käyttää aikaa vai ei.

Oppimiskyky

Jos palvelinta päivitetään usein, hakukone indeksoi sen uudelleen useammin, jos se päivitetään harvoin, se indeksoidaan uudelleen harvemmin.

Indeksoinnin hallinta

Näyttää, mitä työkaluja voidaan käyttää tietyn hakukoneen hallintaan. Kaikki suuret hakukoneet noudattavat robots.txt-tiedoston ohjeita. Jotkut tukevat myös ohjausta käyttämällä META-tunnisteita itse indeksoiduista asiakirjoista.

Uudelleenohjaus

Jotkut sivustot ohjaavat vierailijat palvelimelta toiselle, ja tämä parametri osoittaa, mikä URL-osoite liitetään asiakirjoihin. Tämä on tärkeää, koska jos hakukone ei käsittele uudelleenohjausta, voi syntyä ongelmia olemattomien tiedostojen kanssa.

Turvallisia sanoja

Jotkut hakukoneet eivät sisällytä tiettyjä sanoja hakemistoihinsa tai eivät välttämättä sisällytä niitä käyttäjien kyselyihin. Näitä sanoja pidetään yleensä prepositioina tai yksinkertaisesti hyvin usein käytettyinä sanoina. Mutta ne eivät sisälly mediatilan säästämiseksi. Esimerkiksi Altavista jättää huomioimatta sanan web kyselyissä, kuten Web-kehittäjä Linkit tarjotaan vain toiselle sanalle. On olemassa tapoja välttää tämä.

Vaikutus osuvuuden määritysalgoritmiin

Hakukoneet käyttävät välttämättä asiakirjassa olevien avainsanojen sijaintia ja toistotiheyttä. Lisämekanismit merkityksellisyyden lisäämiseksi ovat kuitenkin erilaisia ​​jokaiselle koneelle. Tämä parametri näyttää tarkalleen, mitkä mekanismit ovat olemassa tietylle koneelle.

Roskaposti sakot

Kaikki suuret hakukoneet eivät pidä siitä, kun sivusto yrittää parantaa sijoitustaan ​​esimerkiksi ilmoittamalla itsensä useita kertoja Lisää URL -osoitteella tai mainitsemalla saman avainsanan useita kertoja jne. Useimmissa tapauksissa tällaiset toimet (roskapostitus, pinoaminen) ovat rangaistaan, ja sivuston luokitus päinvastoin laskee.

Hakukone tai yksinkertaisesti "hakukone" on sellainen, joka tekee hakuja Internet-sivuilta käyttäjän pyynnöstä. Maailman tunnetuin hakukone on Google, Venäjällä suosituin Yandex ja yksi vanhimmista hakukoneista on Yahoo. Hakukonearkkitehtuurissa voimme erottaa hakukone– järjestelmän ydin, jota edustaa joukko ohjelmistomoduuleja; tietokanta tai indeksi, joka tallentaa tiedot kaikista hakukoneen tuntemista Internet-resursseista; ja joukko sivustoja, jotka ovat sisääntulopisteitä käyttäjät järjestelmään (www.google.com, www.yandex.ru, ru.yahoo.com jne.). Kaikki tämä vastaa klassikkoa kolmikerroksinen arkkitehtuuri tietojärjestelmät: on käyttöliittymä, liiketoimintalogiikka, joka tässä tapauksessa Sitä edustaa hakualgoritmien ja tietokannan toteutus.

Internet-haun erityispiirteet

Ensi silmäyksellä Internet-haku ei eroa paljon tavallisista hauista. tiedonhaku esimerkiksi käsittelystä tietokantaan tai tiedostohakutehtävästä . Myös ensimmäisten Internet-hakukoneiden kehittäjät ajattelivat niin, mutta ajan myötä he huomasivat erehtyneensä...

Ensimmäinen ero Internet-haun ja tavallisen haun välillä on se, että saman tietokannan hakualgoritmi olettaa, että sen rakenne on hakukoneen ja kyselyn tekijän tiedossa etukäteen. Internetissä näin ei ole ilmeisistä syistä. Internet-sivut eivät muodosta hakemistorakennetta, vaan verkkoa, joka vaikuttaa myös hakualgoritmeihin, eikä Internet-resursseihin lähetettävien tietojen muotoa valvo kukaan.

Toinen ero, yhtenä ensimmäisen seurauksista, on, että pyyntöä ei esitetä parametriarvojen joukkona (hakukriteerit), vaan tekstinä, jonka henkilö on kirjoittanut hänen luonnollisella kielellään. Ennen kuin aloitat haun, sinun on silti ymmärrettävä, mitä pyynnön kirjoittaja tarkalleen haluaa. Haluan huomauttaa, että se ei ole toisen ihmisen, vaan tietokoneen tehtävä.

Kolmas ero on vähemmän ilmeinen, mutta ei vähemmän perustavanlaatuinen: luettelossa tai tietokannassa kaikilla elementeillä on samat oikeudet. Internetissä on kilpailua, ja sen seurauksena se jakautuu "luotettavampiin tiedontarjoajiin" ja lähteisiin, jotka ovat tilaltaan samanlaisia ​​kuin "tietoroska". Näin ihmiset luokittelevat resursseja, ja tämä koskee myös hakukoneita.

Ja lopuksi on lisättävä, että hakualue on miljardeja sivuja, useita kilotavuja tai enemmän kukin. Päivittäin lisätään noin kymmenen miljoonaa sivua ja saman verran päivitetään. Kaikki tämä esitetään erilaisissa digitaalisissa muodoissa. Valitettavasti jopa nykyaikaiset teknologiat ja resurssit ovat markkinajohtajien käytettävissä hakupalvelut Internetissä eivät anna heidän käsitellä kaikkea tätä monimuotoisuutta "lennossa" ja kokonaan.

Mistä hakukone koostuu?

Ensinnäkin on tärkeää ymmärtää vielä yksi ja luultavasti merkittävin ero Internetin hakukoneen työn ja minkä tahansa muun tietojärjestelmän työn välillä, joka tekee hakuja erilaisista luetteloista ja tietokannoista. Internetin hakukone kone ei etsi tietoa Internetistä pyynnön vastaanottamishetkellä, vaan yrittää tuottaa vastauksen oman tietovarastonsa perusteella - tietokannan, jota kutsutaan indeksiksi, johon se tallentaa aineiston kaikesta tiedossa olevasta ja päivittää sitä säännöllisesti. Toisin sanoen hakukone ei toimi alkuperäisen, vaan alueen projektion kanssa hyväksyttäviä arvoja Hae. Kaikki viimeiset muutokset Internetissä voi näkyä hakutuloksissa vasta, kun vastaavat sivut on avattu indeksoitu- lisätty hakukonehakemistoon. Joten hakujärjestelmä koostuu ensimmäisen likiarvon mukaan hakukoneesta, tietokannasta tai hakemistosta (indeksistä) ja järjestelmän sisääntulopisteistä.

Nyt lyhyesti siitä, mistä hakukone koostuu:

  • Hämähäkki tai hämähäkki. Sovellus, joka lataa Internet-resurssien sivuja. Hämähäkki ei "ryömi" minnekään - se vain pyytää sivujen sisältöä samalla tavalla kuin tavallinen Internet-selain lähettää pyynnön HTTP-palvelimelle ja saa sieltä vastauksen. Kun sivun sisältö on ladattu, se lähetetään indeksoijalle ja indeksointirobotille, joita käsitellään alla.

  • Indeksoija. Indeksoija suorittaa alustavan analyysin ladatun sivun sisällöstä, valitsee pääosat (sivun otsikko, kuvaus, linkit, otsikot jne.) ja järjestää sen kaiken hakutietokannan osiin - sijoittaa sen hakukoneen hakemistoon. Tätä prosessia kutsutaan Internet-resurssien indeksointi, josta tulee itse alijärjestelmän nimi. Alustavan analyysin tulosten perusteella indeksoija voi myös päättää, että sivu ei ole ollenkaan "arvoinen" olla hakemistossa. Syyt tähän päätökseen voivat olla erilaisia: sivulla ei ole nimeä, se on tarkka kopio toiselle hakemistossa jo olevalle sivulle tai se sisältää linkkejä laissa kiellettyihin resursseihin.

  • Indeksoija. Tämä "eläin" on suunniteltu "ryömimään" hämähäkin lataamalla sivulla olevia linkkejä pitkin. Indeksointirobotti analysoi polut, jotka johtavat tämänhetkinen sivu sivuston muihin osiin tai sivuille ulkoinen internet resurssit ja määrittää lisäjärjestyksen, jossa hämähäkki kulkee World Wide Webin säikeiden läpi. Se on indeksointirobotti, joka löytää hakukoneelle uusia sivuja ja lähettää ne hämähäkille. Indeksoijan työ perustuu hakualgoritmeihin leveys- ja syvyyskuvaajille.

  • Tulosten käsittelyn ja antamisen osajärjestelmä ( Hakukone ja tulosmoottori). Minkä tahansa hakukoneen tärkein osa. Yrityksen kehittäjät pitävät tämän osajärjestelmän toiminta-algoritmit tiukasti salassa, koska ne ovat liikesalaisuus. Tämä hakukoneen osa on vastuussa hakukoneen vastauksen riittävyydestä käyttäjän pyyntöön. Tässä on kaksi pääkomponenttia:
    • Ranking-alijärjestelmä. Rangeissa– Nämä ovat Internet-sivustojen sivuja sen mukaan, miten ne liittyvät tiettyyn pyyntöön. Sivun osuvuus- tämä puolestaan ​​on se, missä määrin sivun sisältö vastaa pyynnön tarkoitusta, ja hakukone määrittää tämän arvon itsenäisesti suuri määrä parametrit. Ranking on salaperäisin ja kiistanalaisin osa." tekoäly" hakukone. Sivun sijoitukseen sen rakenteen ja sisällön (sisällön) lisäksi vaikuttavat myös: muille sivustoille tälle sivulle johtavien linkkien määrä ja laatu; itse sivuston verkkotunnuksen ikä; sivua katselevien käyttäjien käyttäytymisen luonne ja monet muut tekijät.

    • Tulosten antamisen alajärjestelmä. Tämän alijärjestelmän tehtäviin kuuluu käyttäjän pyynnön tulkinta, sen kääntäminen hakemistoon strukturoitujen kyselyiden kielelle ja hakutulossivujen luominen. Itse kyselytekstin jäsentämisen lisäksi hakukone voi myös ottaa huomioon:
      • Pyydä kontekstia, muodostettu käyttäjän aiemmin tekemien pyyntöjen merkityksen perusteella. Esimerkiksi, jos käyttäjä vierailee usein autoaiheisia sivustoja, niin kysyttäessä sanaa "Volga" tai "Oka", hän todennäköisesti haluaa saada tietoa näiden merkkien autoista, ei siitä, mistä samannimiset venäläiset alkavat. ja missä ne virtaavat jokia. Sitä kutsutaan henkilökohtainen haku, kun lähetät saman pyynnön eri käyttäjiä merkittävästi erilainen.

      • Käyttäjäasetukset, josta se (hakukone) voi "arvata", analysoimalla käyttäjien valitsemia linkkejä hakutulossivuilla. Tämä on toinen tapa säätää pyynnön kontekstia: käyttäjä näyttää toimillaan kertovan koneelle, mitä hän tarkalleen halusi löytää. Pääsääntöisesti hakukoneet yrittävät lisätä hakutuloksiin sivuja, jotka ovat haun kannalta oleellisia, mutta liittyvät varsin eri elämänalueisiin. Oletetaan, että käyttäjä on kiinnostunut elokuvista ja valitsee siksi usein linkkejä sivuille, joilla on elokuvatiedotteita, vaikka nämä sivut eivät täysin liity alkuperäiseen pyyntöön. Luodessaan vastausta hänen seuraavaan pyyntöönsä järjestelmä voi antaa etusijalle sivut, joilla on kuvauksia elokuvista, joiden nimet sisältävät sanoja pyynnön tekstistä.

      • Alue, mikä on erittäin tärkeää käsittelyssä kaupalliset tiedustelut liittyvät tavaroiden ja palvelujen ostamiseen paikallisilta toimittajilta. Jos olet kiinnostunut myynnistä ja alennuksista ja olet Moskovassa, et todennäköisesti ole ollenkaan kiinnostunut siitä, mitä tarjouksia tästä aiheesta järjestetään Pietarissa, ellet ilmoita tätä nimenomaisesti pyynnön tekstissä. Ensinnäkin hakutuloksissa pitäisi näkyä tietoja Moskovan myynnistä. Siten nykyaikaiset hakukoneet jakavat kyselyt maantieteellisesti riippuvainen Ja maantieteellisesti riippumaton. Todennäköisesti, jos hakukone päättää, että kyselysi on maantieteellisesti riippuvainen, se lisää siihen automaattisesti alueilmaisimen, jonka se yrittää määrittää Internet-palveluntarjoajasi tiedoista.

      • Aika. Hakukoneiden on joskus analysoitava, milloin sivulla kuvatut tapahtumat tapahtuivat. Tietohan vanhenee jatkuvasti ja käyttäjä tarvitsee ennen kaikkea linkkejä viimeiset uutiset, nykyiset ennusteet ja ilmoitukset tapahtumista, jotka eivät ole vielä päättyneet tai joiden on määrä tapahtua tulevaisuudessa. Sen ymmärtäminen, että sivun relevanssi riippuu ajasta, ja sen vertaaminen pyynnön suoritushetkeen vaatii myös melkoista älykkyyttä hakukoneelta.

      Seuraavaksi hakukone etsii lähimmän merkityksen avainkysely hakemistossa ja tuottaa tuloksia lajittelemalla linkit niiden merkityksen mukaiseen laskevaan järjestykseen. Jokaisella hakemiston avainkyselyllä on erillinen sijoitus sille merkityksellisille sivuille. Järjestelmä ei luo uutta avainkyselyä jokaiselle kirjain- ja numeroyhdistelmälle, vaan tekee tämän tiettyjen käyttäjien kyselyiden tiheyden analyysin perusteella. Hakukone voi myös sekoittaa eri avainsanojen sijoituksia hakutuloksissa, jos se uskoo, että käyttäjä etsii sitä.

Yleiset hakukoneiden toiminnan periaatteet

Sinun on ymmärrettävä, että Internet-hakupalvelut ovat erittäin, hyvin kannattavaa liiketoimintaa. Sinun ei tarvitse mennä yksityiskohtiin siitä, miten yritykset, kuten Google ja Yandex, elävät, koska suurin osa niiden voitosta on kontekstuaalista mainontaa. Ja koska Internetistä etsiminen on erittäin kannattavaa liiketoimintaa, kilpailu tällaisten yritysten välillä on erittäin vakavaa. Mikä määrittää kilpailukyvyn Internet-hakumarkkinoilla? Vastaus on hakukoneiden tulosten laatu. On loogista, että mitä korkeampi se on, sitä enemmän järjestelmä saa uusia käyttäjiä ja sitä arvokkaampi se sijoittuu samojen hakutulosten sivuille. kontekstuaalista mainontaa. Hakukonekehittäjät käyttävät paljon vaivaa "puhdistaakseen" hakutuloksensa erilaisista tietojätteistä, joita kutsutaan yleisesti roskapostiksi. Kuinka tämä tehdään, kuvataan yksityiskohtaisemmin erillisessä artikkelissa, mutta annan tässä yleiset periaatteet hakukoneen käyttäytyminen, joka on muotoiltu kaiken yllä olevan perusteella tehtyjen johtopäätösten muodossa.

  1. Hakukone, jota edustavat sen hämähäkit ja indeksointirobotit, etsii jatkuvasti Internetistä uusia sivuja ja päivityksiä olemassa oleville sivuille, koska merkityksetöntä tietoa arvostetaan vähemmän.

  2. Hakukone päivittää ajoittain resurssien sijoitusta niiden osuvuuden perusteella. tärkeimmät kyselyt, koska hakemistoon tulee jatkuvasti uusia sivuja. Tätä prosessia kutsutaan hakutulosten päivittämiseksi.

  3. World Wide Webiin lähetettyjen valtavien tietomäärien ja itse hakukoneen rajallisten resurssien vuoksi hakukone yrittää aina ladata vain sen, mikä on (sen mielestä) välttämätöntä. Sen arsenaali sisältää kaikenlaisia ​​suodattimia, jotka leikkaavat pois paljon turhaa jo indeksointivaiheessa tai heittävät roskapostia pois hakemistosta hakutulosten päivitystulosten perusteella.

  4. Analysoidessaan pyyntöä nykyaikaiset hakukoneet yrittävät ottaa huomioon paitsi itse pyynnön tekstin, myös sen ympäristön: käyttäjän kontekstin ja mieltymykset, jotka mainittiin aiemmin, sekä pyynnön ajankohta, alue , ja paljon enemmän.

  5. Tietyn sivun merkityksellisyyteen eivät vaikuta pelkästään sen sisäiset parametrit (rakenne, sisältö), vaan myös ulkoiset parametrit, kuten linkit sivulle muilta sivustoilta ja käyttäjien käyttäytyminen sen katselun aikana.

Hakukoneiden työtä parannetaan jatkuvasti. Täydellinen työ hakukone (ihmisille) on mahdollista vain, jos kaikki indeksointia ja sijoitusta koskevat päätökset tekee komissio, joka koostuu suuri numero asiantuntijoita kaikilta inhimillisen toiminnan aloilta ja aloilta. Koska tämä on epärealistista, tällainen palkkio korvataan asiantuntijajärjestelmillä, heuristisilla hakualgoritmeilla ja muilla tekoälyn elementeillä. Todennäköisesti kaikkien näiden osajärjestelmien työ voisi antaa myös riittävämpiä tuloksia, jos olisi mahdollista käsitellä täysin kaikki saatavilla oleva tieto. avoin pääsy Internetissä, mutta tämä on lähes mahdotonta. Epätäydellinen tekoäly ja rajalliset resurssit ovat kaksi tärkeintä syytä, miksi hakutulokset eivät aina miellytä käyttäjiä, mutta kaikki tämä voidaan parantaa ajan myötä. Nykyään mielestäni tunnetuimpien ja suurten hakukoneiden työ vastaa täysin heidän käyttäjiensä tarpeita ja odotuksia.

Mikä tämä on

DuckDuckGo on melko tunnettu avoimen lähdekoodin hakukone. lähdekoodi. Palvelimet sijaitsevat Yhdysvalloissa. Oman robotin lisäksi hakukone käyttää tuloksia muista lähteistä: Yahoo, Bing, Wikipedia.

Parempi

DuckDuckGo asettuu hakukoneeksi, joka tarjoaa maksimaalisen yksityisyyden ja luottamuksellisuuden. Järjestelmä ei kerää tietoja käyttäjästä, ei tallenna lokeja (ei hakuhistoriaa), käyttöä keksit mahdollisimman rajoitetusti.

DuckDuckGo ei kerää henkilökohtaisia ​​tietoja käyttäjille eikä jaa sitä. Tämä on tietosuojakäytäntömme.

Gabriel Weinberg, DuckDuckGon perustaja

Miksi tarvitset tätä

Kaikki suuret hakukoneet yrittävät personoida näytön edessä olevaa henkilöä koskevien tietojen perusteella. Tätä ilmiötä kutsutaan "suodatinkuplaksi": käyttäjä näkee vain ne tulokset, jotka vastaavat hänen mieltymyksiään tai jotka järjestelmä pitää sellaisina.

DuckDuckGo luo objektiivisen kuvan, joka ei riipu aiemmasta käyttäytymisestäsi Internetissä, ja eliminoi temaattisen mainonnan Googlesta ja Yandexistä kyselyjesi perusteella. DuckDuckGon avulla on helppo etsiä tietoa vierailla kielillä: Google ja Yandex suosivat oletusarvoisesti venäjänkielisiä sivustoja, vaikka kysely annettaisiin toisella kielellä.


Mikä tämä on

not Evil on järjestelmä, joka etsii anonyymiä Tor-verkkoa. Jotta voit käyttää sitä, sinun on mentävä tähän verkkoon esimerkiksi käynnistämällä erikoistunut samanniminen.

not Evil ei ole ainoa hakukone laatuaan. Siellä on LOOK (oletushaku Tor-selaimessa, pääsee osoitteesta tavallinen internet) tai TORCH (yksi Tor-verkon vanhimmista hakukoneista) ja muut. Päädyimme ei Eviliin Googlen selkeän vihjeen vuoksi (katso vain aloitussivu).

Parempi

Se etsii paikkoja, joissa Google, Yandex ja muut hakukoneet ovat yleensä kiinni.

Miksi tarvitset tätä

Tor-verkko sisältää monia resursseja, joita ei löydy lainkuuliaisesta Internetistä. Ja heidän määränsä kasvaa, kun hallituksen valvonta Internetin sisällöstä kiristyy. Tor on eräänlainen verkosto Internetissä, jossa on omat sosiaaliset verkostonsa, torrent-seurantaohjelmat, media, kauppaympäristöt, blogit, kirjastot ja niin edelleen.

3. YaCy

Mikä tämä on

YaCy on hajautettu hakukone, joka toimii P2P-verkkojen periaatteella. Jokainen tietokone, johon päätietokone on asennettu ohjelmistomoduuli, skannaa Internetiä itsenäisesti, eli se on hakurobotin analogi. Saadut tulokset kerätään yhteinen perusta, jota kaikki YaCy-jäsenet käyttävät.

Parempi

On vaikea sanoa, onko tämä parempi vai huonompi, koska YaCy on täysin erilainen lähestymistapa haun järjestämiseen. Yhden palvelimen ja omistajayhtiön puuttuminen tekee tuloksista täysin riippumattomia kenenkään mieltymyksistä. Jokaisen solmun autonomia eliminoi sensuurin. YaCy pystyy hakemaan sisään syvä verkko ja indeksoimattomat julkiset verkot.

Miksi tarvitset tätä

Jos olet avoimen lähdekoodin ohjelmistojen ja ilmainen internet, joka ei ole valtion virastojen ja suuryritysten vaikutuksen alainen, YaCy on valintasi. Sitä voidaan käyttää myös haun järjestämiseen yrityksen tai muun autonomisen verkon sisällä. Ja vaikka YaCy ei ole kovin hyödyllinen jokapäiväisessä elämässä, se on sen arvoinen vaihtoehto Googlelle hakuprosessin kannalta.

4. Pipl

Mikä tämä on

Pipl on järjestelmä, joka on suunniteltu etsimään tietoa tietystä henkilöstä.

Parempi

Piplin kirjoittajat väittävät, että heidän erikoistuneet algoritmit tehdä hakuja tehokkaammin kuin "tavalliset" hakukoneet. Erityisesti ensisijaisia ​​tiedonlähteitä ovat profiilit sosiaaliset verkostot, kommentit, osallistujaluettelot ja erilaisia ​​perustuksia tiedot, joissa julkaistaan ​​tietoja ihmisistä, esimerkiksi tietokannat oikeuden päätökset. Lifehacker.comin, TechCrunchin ja muiden julkaisujen arviot vahvistavat Piplin johtajuuden tällä alueella.

Miksi tarvitset tätä

Jos haluat löytää tietoja Yhdysvalloissa asuvasta henkilöstä, Pipl on paljon enemmän tehokkaampi kuin Google. Venäjän tuomioistuinten tietokannat eivät ilmeisesti ole hakukoneen käytettävissä. Siksi hän ei tule niin hyvin toimeen Venäjän kansalaisten kanssa.

Mikä tämä on

FindSounds on toinen erikoistunut hakukone. Etsii erilaisia ​​ääniä(talo, luonto, autot, ihmiset jne.) sisään avoimet lähteet. Palvelu ei tue venäjänkielisiä kyselyjä, mutta siellä on vaikuttava luettelo venäjänkielisistä tunnisteista, joita voit etsiä.

Parempi

Lähtö sisältää vain äänet, ei mitään ylimääräistä. Hakuasetuksissa voit asettaa haluamasi muodon ja äänenlaadun. Kaikki löydetyt äänet ovat ladattavissa. Ääniä haetaan kuvion mukaan.

Miksi tarvitset tätä

Jos haluat nopeasti löytää musketin laukauksen äänen, imevän tikan iskuja tai Homer Simpsonin huudon, tämä palvelu on sinua varten. Ja valitsimme tämän vain saatavilla olevista venäjänkielisistä kyselyistä. Englanniksi kirjo on vielä laajempi.

Mutta vakavasti, erikoistunut palvelu olettaa erikoistuneen yleisön. Mutta entä jos se on hyödyllistä myös sinulle?

Mikä tämä on

Wolfram|Alpha on laskennallinen hakukone. Linkkien sijaan avainsanoja sisältäviin artikkeleihin se tarjoaa valmiin vastauksen käyttäjän pyyntöön. Jos esimerkiksi kirjoitat englanninkieliseen hakulomakkeeseen "vertaa New Yorkin ja San Franciscon populaatioita", Wolfram|Alpha näyttää välittömästi vertailun sisältävät taulukot ja kaaviot.

Parempi

Tämä palvelu on muita parempi faktojen etsimiseen ja tietojen laskemiseen. Wolfram|Alpha kerää ja systematisoi tietoa, joka on saatavilla verkossa eri alueita, mukaan lukien tiede, kulttuuri ja viihde. Jos tämä tietokanta sisältää valmiin vastauksen hakukyselyyn, järjestelmä näyttää sen, jos ei, se laskee ja näyttää tuloksen. Tässä tapauksessa käyttäjä näkee vain tarvittavat tiedot eikä mitään ylimääräistä.

Miksi tarvitset tätä

Jos olet esimerkiksi opiskelija, analyytikko, toimittaja tai tutkija, voit käyttää Wolfram|Alphaa työhösi liittyvien tietojen etsimiseen ja laskemiseen. Palvelu ei ymmärrä kaikkia pyyntöjä, mutta kehittyy ja fiksuutuu jatkuvasti.

Mikä tämä on

Metahakukone Dogpile näyttää yhdistetyn luettelon tuloksista Hakutulokset Google, Yahoo ja muut suositut järjestelmät.

Parempi

Ensinnäkin Dogpile näyttää vähemmän mainoksia. Toiseksi palvelu käyttää erityistä algoritmia löytääkseen ja näyttääkseen parhaat tulokset eri hakukoneilla. Dogpilen kehittäjien mukaan heidän järjestelmänsä tuottavat täydellisimpiä hakutuloksia koko Internetissä.

Miksi tarvitset tätä

Jos et löydä tietoa Googlesta tai muusta tavallisesta hakukoneesta, etsi se useista hakukoneista kerralla Dogpilen avulla.

Mikä tämä on

BoardReader - järjestelmä tekstihaku foorumeilla, kysymys- ja vastauspalveluissa ja muissa yhteisöissä.

Parempi

Palvelun avulla voit rajata hakukentän sosiaalisiin alustoihin. Erikoissuodattimien ansiosta löydät nopeasti kriteereitäsi vastaavat viestit ja käyttäjien kommentit: kieli, julkaisupäivä ja sivuston nimi.

Miksi tarvitset tätä

BoardReader voi olla hyödyllinen PR-asiantuntijoille ja muille mediaasiantuntijoille, jotka ovat kiinnostuneita suuren yleisön mielipiteestä tietyistä asioista.

Lopulta

Vaihtoehtoisten hakukoneiden elämä on usein ohikiitävää. NOIN pitkän aikavälin näkymiä Lifehacker kysyi Yandexin Ukrainan sivuliikkeen entiseltä pääjohtajalta Sergei Petrenkolta vastaavista projekteista.


Sergei Petrenko

Yandex.Ukrainan entinen pääjohtaja.

Mitä tulee vaihtoehtoisten hakukoneiden kohtaloon, se on yksinkertainen: olla erittäin kapealla projektilla pienellä yleisöllä, joten ilman selkeitä kaupallisia näkymiä tai päinvastoin täysin selkeästi niiden puuttumisesta.

Jos katsot artikkelin esimerkkejä, voit nähdä, että tällaiset hakukoneet joko erikoistuvat kapeaan mutta suosittuun markkinarakoon, joka ei ehkä ole vielä kasvanut tarpeeksi havaittavaksi Googlen tai Yandexin tutkissa, tai ne testaavat sijoituksen alkuperäinen hypoteesi, joka ei vielä sovellu tavalliseen hakuun.

Jos esimerkiksi Tor-haku yhtäkkiä osoittautuu kysytyksi, toisin sanoen vähintään prosenttiosuus Googlen yleisöstä tarvitsee sieltä saatuja tuloksia, tavalliset hakukoneet alkavat tietysti ratkaista ongelman. löytää ne ja näyttää ne käyttäjälle. Jos yleisön käyttäytyminen osoittaa, että merkittävälle osalle käyttäjiä huomattavassa määrässä kyselyitä tulokset, jotka on annettu ottamatta huomioon käyttäjästä riippuvia tekijöitä, näyttävät osuvammilta, Yandex tai Google alkaa tuottaa tällaisia ​​tuloksia.

"Ole parempi" tämän artikkelin yhteydessä ei tarkoita "ole parempi kaikessa". Kyllä, sankarimme ovat monessa suhteessa kaukana Googlesta ja Yandexistä (jopa kaukana Bingistä). Mutta jokainen näistä palveluista antaa käyttäjälle jotain, mitä hakualan jättiläiset eivät voi tarjota. Tiedät varmasti myös vastaavia projekteja. Jaa kanssamme - keskustellaan.

Johdanto……………………………………………………………………………………….2

1 Hakukoneet: koostumus, toiminnot, toimintaperiaate

1.1 Hakukoneiden kokoonpano………………………………….…………………3

1.2 Hakukoneiden ominaisuudet………………………………………………..4

1.3 Hakukoneiden periaatteet………………………………………..4

2 Yleiskuvaus hakukoneiden toiminnasta

2.1 Ulkomaiset hakukoneet: koostumus ja toimintaperiaatteet…………12

2.2 Venäjänkieliset hakukoneet: koostumus ja toimintaperiaatteet………..14

Johtopäätös…………………………………………………………………

Lista lähdeluettelosta………………………………..………….17

Johdanto

Hakukoneista on jo pitkään tullut olennainen osa venäläistä Internetiä, koska ne tarjoavat, vaikkakin eri keinoin, itsenäisesti kaikki tiedonkäsittelyn vaiheet sen vastaanottamisesta ensisijaisesta lähdesolmusta siihen, että ne tarjoavat käyttäjälle mahdollisuuden etsiä. kutsutaan usein autonomiset hakukoneet järjestelmät .

Hakukoneet ovat nykyään valtavia ja monimutkaisia ​​mekanismeja, jotka edustavat paitsi tiedonhakutyökalua myös houkuttelevia alueita yrityksille. Nämä järjestelmät voivat poiketa toisistaan ​​tiedon valintaperiaatteessa, joka on jossain määrin läsnä automaattisen indeksin algoritmissa. skannausohjelmassa ja rekisteröinnistä vastaavien luettelotyöntekijöiden menettelysäännöissä. Yleensä verrataan kahta pääindikaattoria:

Avaruusmittakaava, jolla IPS toimii, on

Ja hänen erikoisuutensa.

Suurin osa hakukoneiden käyttäjistä ei ole koskaan ajatellut (tai ajatellut sitä, mutta ei löytänyt vastausta) hakukoneiden toimintaperiaatteesta, käyttäjien pyyntöjen käsittelyjärjestelmästä, siitä, mistä nämä järjestelmät koostuvat ja miten ne toimivat. Hakukoneita voidaan verrata help deskiin, jonka agentit kiertävät yrityksiä ja keräävät tietoa tietokantaan. Kun otat yhteyttä palveluun, tiedot haetaan tästä tietokannasta. Tietokannan tiedot vanhentuvat, joten agentit päivittävät ne säännöllisesti. Jotkut yritykset lähettävät itse tietoja itsestään, eikä agenttien tarvitse tulla heidän luokseen. Toisin sanoen help deskillä on kaksi tehtävää: tietokannan tietojen luominen ja jatkuva päivittäminen sekä tiedon hakeminen tietokannasta asiakkaan pyynnöstä.

1 Hakukoneet: koostumus, toiminnot, toimintaperiaate

1.1 Hakukoneiden kokoonpano

Hakujärjestelmä on ohjelmisto- ja laitteistokompleksi, joka on suunniteltu etsimään Internetistä ja vastaamaan käyttäjän pyyntöön, joka on määritelty tekstilausekkeen muodossa (hakukysely), tuottamalla luettelo linkeistä tietolähteisiin merkityksellisyyden järjestyksessä ( pyynnön mukaisesti). Suurimmat kansainväliset hakukoneet: Google, Yahoo, MSN. Venäjän Internetissä nämä ovat Yandex, Rambler, Aport.

Samoin hakukone koostuu kahdesta osasta: niin sanotusta robotista (tai hämähäkistä), joka indeksoi Web-palvelimia ja luo hakukonetietokannan.

Robotin perusta muodostuu pääasiassa itsestään (robotti itse löytää linkkejä uusiin resursseihin) ja paljon vähemmässä määrin resurssien omistajat, jotka rekisteröivät sivustonsa hakukoneeseen. Tietokannan muodostavan robotin (verkkoagentti, hämähäkki, mato) lisäksi löytyy ohjelma, joka määrittää löydettyjen linkkien luokituksen.

Hakukoneen toimintaperiaate on, että se kysyy sisäisestä luettelostaan ​​(tietokannasta) käyttäjän kyselykenttään määrittämiä avainsanoja ja tuottaa listan linkeistä, jotka on järjestetty osuvuuden mukaan.

On huomattava, että tietyn käyttäjän pyyntöä käsitellessään hakukone toimii täsmälleen sisäisillä resursseilla (eikä lähde matkalle Webissä, kuten kokemattomat käyttäjät usein uskovat), ja sisäiset resurssit ovat luonnollisesti rajalliset. Huolimatta siitä, että hakukoneen tietokanta päivitetään jatkuvasti, hakukone ei voi indeksoida kaikkia Web-asiakirjoja: niiden määrä on liian suuri. Siksi on aina mahdollista, että etsimäsi resurssi on yksinkertaisesti tuntematon tietylle hakukoneelle.

1.2 Hakukoneiden ominaisuudet

Työssä hakuprosessi esitetään neljässä vaiheessa: muotoilu (tapahtuu ennen haun alkamista); toiminta (haun aloittaminen); yleiskatsaus tuloksista (tulos, jonka käyttäjä näkee haun jälkeen); ja tarkennus (tulosten tarkastelun jälkeen ja ennen kuin palaat hakuun saman tarpeen eri muotoilulla). Kätevämpi epälineaarinen tiedonhakujärjestelmä koostuu seuraavista vaiheista:

Tiedontarpeiden korjaaminen luonnollisella kielellä;

Tarvittavien verkkohakupalvelujen valinta ja tietotarpeiden tarkka formalisointi tietyillä tiedonhakukielillä (IRL);

Luotujen kyselyjen suorittaminen;

Vastaanotettujen asiakirjojen linkkiluetteloiden esikäsittely ja valinta;

Yhteydenotto valittuihin osoitteisiin tarvittavia asiakirjoja varten;

Esikatsele löydettyjen asiakirjojen sisältöä;

Tarvittavien asiakirjojen tallentaminen myöhempää tutkimusta varten;

Linkkien poimiminen asiaankuuluvista asiakirjoista kyselyn laajentamiseksi;

Koko tallennettujen asiakirjojen joukon tutkiminen;

Jos tiedontarve ei täysin täyty, palaa ensimmäiseen vaiheeseen.

1.3 Miten hakukoneet toimivat

Minkä tahansa hakukoneen tavoitteena on toimittaa ihmisille heidän etsimäänsä tietoa. Opeta ihmisiä tekemään "oikeita" pyyntöjä, ts. hakukoneiden toimintaperiaatteiden mukaiset kyselyt ovat mahdottomia. Siksi kehittäjät luovat hakukoneille algoritmeja ja toimintaperiaatteita, joiden avulla käyttäjät löytävät juuri ne tiedot, joita he etsivät. Tämä tarkoittaa, että hakukoneen täytyy "ajatella" samalla tavalla kuin käyttäjä ajattelee etsiessään tietoa.

Useimmat hakukoneet toimivat esiindeksoinnin periaatteella. Useimpien hakukoneiden tietokanta toimii samalla periaatteella.

Rakentamisessa on toinenkin periaate. Suora haku. Se koostuu kirjan kääntämisestä sivu sivulta hakusanan etsimiseksi. Tietenkin tämä menetelmä on paljon vähemmän tehokas.

Käänteisellä indeksillä varustetussa versiossa hakukoneet kohtaavat tiedostokoon ongelman. Yleensä ne ovat huomattavan suuria. Tämä ongelma ratkaistaan ​​yleensä kahdella tavalla. Ensimmäinen on, että kaikki tarpeeton poistetaan tiedostoista ja vain se, mikä todella tarvitaan hakuun, jää jäljelle. Toinen tapa on, että jokaisesta sijainnista ei muisteta absoluuttista osoitetta, vaan suhteellista osoitetta, ts. osoiteero nykyisen ja edellisen sijainnin välillä.

Näin ollen kaksi hakukoneen suorittamaa pääprosessia ovat sivustojen, sivujen indeksointi ja haku. Yleensä indeksointiprosessi ei aiheuta ongelmia hakukoneille. Ongelmana on miljoonan pyynnön käsittely päivässä. Tämä johtuu suurista tietomääristä, joita suuret tietokonejärjestelmät käsittelevät. Tärkein tekijä, joka määrittää hakuun osallistuvien palvelimien lukumäärän, on hakukuormitus. Tämä selittää joitain omituisuuksia, joita syntyy, kun tietoa etsitään.

Hakukoneet koostuvat viidestä erillisestä ohjelmistokomponentista:

hämähäkki: selainmainen ohjelma, joka lataa verkkosivuja.

indeksointirobotti:"matkustava" hämähäkki, joka seuraa automaattisesti kaikkia sivulta löytyviä linkkejä.

indeksoija:"sokea" ohjelma, joka analysoi hämähäkkien lataamia verkkosivuja.

tietokanta: ladattujen ja käsiteltyjen sivujen tallennus.

hakukoneen tuloskone (tulosten toimitusjärjestelmä): hakee hakutulokset tietokannasta.

Hämähäkki: Hämähäkki on ohjelma, joka lataa verkkosivuja. Se toimii aivan kuten selaimesi, kun muodostat yhteyden verkkosivustoon ja lataat sivun. Hämähäkillä ei ole visuaalisia osia. Voit havaita saman toiminnon (latauksen), kun tarkastelet tiettyä sivua ja valitset selaimessasi "näytä HTML-koodi".

Indeksointirobotti: Aivan kuten hämähäkki lataa sivuja, se voi poistaa sivun ja löytää kaikki linkit. Sen tehtävänä on määrittää, minne hämähäkin pitäisi seuraavaksi mennä linkkien tai ennalta määrätyn osoiteluettelon perusteella.

Indeksoija: Indeksoija jäsentää sivun eri osiin ja analysoi ne. Elementit, kuten sivun otsikot, otsikot, linkit, teksti, rakenneelementit, LIVOITAT elementit, KURSIVOITTEET ja muut sivun tyyliosat eristetään ja analysoidaan.

Tietokanta: Tietokanta on kaikkien hakukoneen lataamien ja analysoimien tietojen arkisto. Tämä vaatii usein valtavia resursseja.

Hae Moottori Tulokset: Tulosjärjestelmä vastaa sivujen sijoituksesta. Se päättää, mitkä sivut täyttävät käyttäjän pyynnön ja missä järjestyksessä ne pitäisi lajitella. Tämä tapahtuu hakukoneen sijoitusalgoritmien mukaan. Nämä tiedot ovat meille arvokkaimmat ja mielenkiintoisimmat - optimoija on vuorovaikutuksessa tämän hakukoneen komponentin kanssa yrittäen parantaa sivuston asemaa hakutuloksissa, joten tulevaisuudessa harkitsemme yksityiskohtaisesti kaikkia tekijöitä, jotka vaikuttavat tulosten ranking.

Hakuhakemisto toimii kolmessa vaiheessa, joista kaksi ensimmäistä ovat valmistavia ja käyttäjälle näkymättömiä. Ensin hakuhakemisto kerää tietoja Maailman Leveä Web . Käytä tätä varten erityisiä ohjelmia, jotka ovat samanlaisia ​​​​kuin selaimet. He pystyvät kopioimaan tietyn Web-sivun hakuhakemistopalvelimelle, katsomaan sitä, löytämään kaikki hyperlinkit, joissa kyseiset resurssit löytyvät, etsimään uudelleen niiden sisältämiä hyperlinkkejä jne. Tällaisia ​​ohjelmia kutsutaan ns. madot, hämähäkit, toukat, telakoneet, hämähäkit ja muita vastaavia nimiä. Jokainen hakuhakemisto käyttää tähän tarkoitukseen omaa ainutlaatuista ohjelmaa, jonka se usein kehittää itse. Monet nykyaikaiset hakukoneet syntyivät kokeellisista projekteista, jotka liittyivät verkkoa valvovien automaattisten ohjelmien kehittämiseen ja käyttöönottoon. Teoriassa onnistuneella osallistumisella hämähäkki pystyy kammatamaan koko verkkotilan yhdellä sukelluksella, mutta tämä vie paljon aikaa, ja hänen on silti palattava aika ajoin aiemmin vierailtuihin resursseihin seuratakseen siellä tapahtuvia muutoksia ja tunnistaakseen "kuollut" linkit, eli ne jotka ovat menettäneet merkityksensä.

Kun etsityt verkkoresurssit on kopioitu hakukonepalvelimelle, alkaa työn toinen vaihe - indeksointi. Sivut indeksoidaan erikoisohjelmalla, jota kutsutaan robotiksi. Jokaisessa hakukoneessa on paljon tällaisia ​​robotteja. Kaikki tämä palvelee asiakirjojen rinnakkaista lataamista verkon eri paikoista. Asiakirjoja ei kannata ladata yksitellen, se on niin tehotonta. Kuvittele puu, joka kasvaa jatkuvasti. Joiden rungoissa terälehtiä ilmestyy yhä uudelleen (verkkosivut). Tietenkin uudet sivustot indeksoidaan paljon nopeammin, jos robotteja lähetetään pitkin puun jokaista oksaa sen sijaan, että se tekisi sen peräkkäin.

Teknisesti latausmoduuli on joko multimedia (Altavista Merkator) tai käytetty asynkroninen I/O(GoogleBot). Lisäksi kehittäjien on jatkuvasti ratkaistava monisäikeisen DNS-palvelimen ongelma.

Monisäikeisessä järjestelmässä lataavia säikeitä kutsutaan matoiksi ja niiden hallintaa kutsutaan matopojaksi.

Monet palvelimet eivät kestä useiden sadan madon kuormaa, joten johtaja on varovainen, ettei palvelimia ylikuormita.

Robotit käyttävät sivujen lataamiseen HTTP-protokollat. Se toimii seuraavasti. Robotti lähettää pyynnön "get/path/document" ja muita hyödyllisiä merkkijonoja HTTP-pyyntö. Vastauksena robotti vastaanottaa tekstivirran, joka sisältää palvelutiedot ja itse asiakirjan.

Latauksen tarkoitus on vähentää verkkoliikennettä suurimmalla täydellisyydellä.

Kaikki hakurobotteja noudata robots.txt-tiedostoa, jossa web-master voi rajoittaa sivujen indeksointia robotilla.

Esimerkiksi jotkut robotit pelkäävät indeksoida dynaamiset sivut. Vaikka nyt webmasterit he kiertävät näitä paikkoja ilman ongelmia. Ja tällaisia ​​robotteja on yhä vähemmän jäljellä.

Jokaisella robotilla on myös luettelo roskapostiksi luokitelluista resursseista. Näin ollen botit käyvät näissä resursseissa huomattavasti vähemmän tai ne jätetään kokonaan huomiotta tietyn ajan, kun taas hakukoneet eivät suodata tietoja

Tuetuissa latausmalleissa on muita toimivia moduuleja toissijaiset toiminnot. Ne auttavat vähentämään liikennettä, lisäämään hakusyvyyttä, käsittelemään usein päivitettyjä resursseja, tallentamaan URL-osoitteita ja linkkejä, jotta resursseja ei ladata uudelleen.

On olemassa päällekkäisiä seurantamoduuleja. Ne auttavat suodattamaan sivut, joilla on päällekkäisiä tietoja. Nuo. jos robotti löytää kaksoiskappaleen jo olemassa olevasta sivusta tai hieman muuttuneella tiedolla, niin se ei yksinkertaisesti seuraa sivulinkkejä dokumentin koodauksen ja kielen määrittämistä varten.

Kun sivu on ladattu, html-jäsennin käsittelee sen. Se jättää asiakirjasta vain ne tiedot, jotka ovat todella tärkeitä haun kannalta: teksti, fontit, linkit jne. Vaikka nyt robotit indeksoivat melkein kaiken. Ja JavaScript- ja flash-tekniikat. Emme kuitenkaan saa unohtaa joitain robottien rajoituksia.

Indeksoinnin aikana erikoiset pohjat tiedot, joiden avulla voidaan määrittää, missä ja milloin tietty sana löydettiin Internetissä. Ajattele indeksoitua tietokantaa eräänlaisena sanakirjana. Se on välttämätöntä, jotta hakukone voi vastata käyttäjien pyyntöihin erittäin nopeasti. Nykyaikaiset järjestelmät voivat antaa vastaukset sekunnin murto-osassa, mutta jos indeksejä ei valmisteta etukäteen, yhden pyynnön käsittely jatkuu tuntikausia.

Kolmannessa vaiheessa asiakkaan pyyntö käsitellään ja hakutulokset toimitetaan hänelle hyperlinkkiluettelon muodossa. Oletetaan, että asiakas haluaa selvittää, missä Internetissä on Web-sivuja, joissa mainitaan kuuluisa hollantilainen mekaanikko, optikko ja matemaatikko Christiaan Huygens. Hän kirjoittaa sanan Huygens avainsanaruutuun ja painaa painiketta. Hae. Hakukone etsii hakemistotietokantansa avulla sopivia Web-resursseja sekunnin murto-osassa ja luo hakutulossivun, jolla esitetään suosituksia hyperlinkkien muodossa. Asiakas voi sitten käyttää näitä linkkejä navigoidakseen kiinnostaviin resursseihin.

Tämä kaikki näyttää riittävän yksinkertaiselta, mutta todellisuudessa on ongelmia. Pääongelma moderni Internet liittyy runsaasti Web-sivuja. Riittää, kun syötät hakukenttään niin yksinkertaisen sanan, kuten jalkapallo, ja venäläinen hakukone palauttaa useita tuhansia linkkejä ryhmittelemällä ne 10-20 osaan näytetyllä sivulla.

Muutama tuhat ei ole paljoa, koska ulkomainen hakukone vastaavassa tilanteessa palauttaisi satoja tuhansia linkkejä. Yritä löytää niiden joukosta tarvitsemasi! Keskivertokuluttajalle ei kuitenkaan ole mitään väliä, annetaanko hänelle tuhat hakutulosta vai miljoona. Yleensä asiakkaat näkevät aluksi enintään 50 linkkiä, ja se, mitä tapahtuu seuraavaksi, ei kiinnosta ketään. Asiakkaat ovat kuitenkin erittäin huolissaan laadusta aivan ensimmäinen linkkejä. Asiakkaat eivät pidä siitä, että kymmenen parhaan joukossa on linkkejä, jotka eivät ole enää merkityksellisiä, heitä ärsyttää, kun samalla palvelimella on peräkkäin linkkejä viereisiin tiedostoihin. Pahin vaihtoehto on, kun peräkkäin on useita linkkejä, jotka johtavat samaan resurssiin, mutta sijaitsevat eri palvelimilla.

Asiakkaalla on oikeus odottaa sitä eniten hyödyllisiä linkkejä. Tässä ongelma syntyy. Ihminen voi helposti erottaa hyödyllisen resurssin hyödyttömästä, mutta miten tämä selitetään ohjelmalle?! Siksi parhaat hakukoneet tekevät tekoälyn ihmeitä yrittäessään lajitella löydetyt linkit resurssiensa laadun mukaan. Ja heidän on tehtävä tämä nopeasti - asiakas ei halua odottaa.

Tarkkaan ottaen kaikki hakukoneet hakevat lähdetietonsa samasta verkkotilasta, joten niiden lähdetietokannat voivat olla suhteellisen samanlaisia. Ja vasta kolmannessa vaiheessa, kun hakutuloksia toimitetaan, jokainen hakukone alkaa näyttää parhaita (tai huonoimpia) yksittäisiä ominaisuuksiaan. Saatujen tulosten lajittelutoiminto kutsutaan rankingiksi. Järjestelmä antaa jokaiselle löydetylle Web-sivulle luokituksen, jonka tulee kuvastaa materiaalin laatua. Mutta laatu on subjektiivinen käsite, ja ohjelma tarvitsee objektiivisia kriteerejä, jotka voidaan ilmaista vertailukelpoisina lukuina.

Korkeat sijoitukset saavutetaan Web-sivuilla, joiden otsikossa on kyselyssä käytetty avainsana. Sijoitustaso nousee, jos sana esiintyy Web-sivulla useita kertoja, mutta ei liian usein. Pääsyllä on myönteinen vaikutus arvosanaan oikea sana ensimmäistä kertaa 5-6 kappaletta tekstiä - niitä pidetään tärkeimpinä indeksoinnin kannalta. Tästä syystä kokeneet verkkovastaavat välttävät taulukoiden sijoittamista sivujensa alkuun. Hakukoneessa jokainen taulukon solu näyttää kappaleelta, ja siksi merkityksellinen leipäteksti näyttää työntyvän kauas taakse (vaikka tämä ei ole havaittavissa näytöllä) ja lakkaa olemasta ratkaiseva rooli hakukoneen kannalta.

On erittäin hyvä, jos kyselyssä käytetyt avainsanat sisällytetään vaihtoehtoinen teksti, kuvien mukana. Hakukoneelle tämä on varma merkki että tämä sivu vastaa täsmälleen pyyntöä. Toinen merkki Web-sivun laadusta on se, että sillä on linkkejä joiltakin muilta verkkosivuilta. Mitä enemmän niitä on, sen parempi. Tämä tarkoittaa, että tämä Web-sivu on suosittu ja sillä on korkea sitaatin indikaattori. Edistyneimmät hakukoneet seuraavat rekisteröimiensä verkkosivujen viittaustasoa ja ottavat sen huomioon luokittelussa.

Web-sivujen luojat ovat aina kiinnostuneita saamaan ne katselemaan enemmän ihmisiä, joten he valmistelevat sivut erityisesti siten, että hakukoneet antavat niille korkean sijoituksen. Web-masterin hyvä, pätevä työ voi lisätä merkittävästi verkkosivun liikennettä, mutta on myös "mestareita", jotka yrittävät huijata hakukoneita ja antaa verkkosivuilleen sellaista merkitystä, jota heillä ei itse asiassa ole. Ne toistavat toistuvasti tiettyjä sanoja tai sanaryhmiä Web-sivulla, jotta ne eivät kiinnittäisi lukijan silmään tai tekisivät niistä yksinomaan pienellä printillä tai käytä tekstin väriä, joka vastaa taustaväriä. Tällaisista "temppuista" hakukone voi rangaista Web-sivua antamalla sille negatiivisen negatiivisen arvosanan.

2 Yleiskuvaus hakukoneiden toiminnasta

2.1 Ulkomaiset hakukoneet: koostumus ja toimintaperiaatteet

Tunnetuimpien joukossa on AltaVista, tehokkain laitteisto ja ohjelmistopotentiaalia, jonka avulla voit etsiä mitä tahansa sanaa verkkosivun tai uutisryhmän artikkelin tekstistä (tiedot vuodelta 1998). AltaVista sisältää tietoa 30 miljoonasta Web-sivusta ja artikkelista 14 tuhannelta uutisryhmältä.

Tämä järjestelmä käyttää melko monimutkaista mekanismia pyynnön laatimiseen, mukaan lukien yhdistelmiä yksittäisiä sanoja, lausekkeet ja välimerkit: lainausmerkit, puolipisteet, kaksoispisteet, sulkumerkit, plus- ja miinusmerkit tai tavalliset Boolen operaattorit AND, OR, NOT ja NEAR (jälkimmäinen osana tarkennettua hakua). Niiden yhdistelmä mahdollistaa hakureseptin luomisen mahdollisimman tarkasti.

Näin ollen plusmerkki sanan edessä tarkoittaa, että tämän termin on oltava asiakirjassa, päinvastoin, eliminoi kaikki tämän käsitteen sisältävät materiaalit. Järjestelmä mahdollistaa haun koko lauseella (tässä tapauksessa koko lause on lainausmerkeissä) sekä haun katkaistuilla päätteillä, joissa sanan lopussa on *. Esimerkiksi saada tietoa kaikista venäjänkielisistä asiakirjoista, jotka liittyvät kirjastotyö, kirjoita vain "kirjasto*".

Käyttäjille annetaan myös mahdollisuus rajoittaa kyselyä asiakirjan luomis-/viimeispäivityspäivämäärän mukaan.

Tekstin kaikkien sanojen haku on ilmoitettu kielellä HotBot, joka on nykyään tehokkain hakutyökalu Maailmanlaajuinen Web (sisältää tietoa noin 54 miljoonasta asiakirjasta). Perusteellinen haku – HotBotin asiantuntijahaku antaa uskomattomia tuloksia runsaasti mahdollisuuksia pyynnön yksityiskohtia varten.

Tämä saavutetaan käyttämällä monivaiheista valikkotarjontaa erilaisia ​​vaihtoehtoja hakumääräyksen laatiminen.

Voit etsiä asiakirjasta useiden eri termien yhdistelmää, etsiä yksittäistä lausetta tai etsiä tiettyä henkilöä tai sähköpostiosoitetta. Pyynnön tarkentamiseksi on mahdollista käyttää ehtoja PITÄÄ - "saattaa sisältää", MUST - "täytyy välttämättä sisältää", EI SAA - "ei pitäisi sisältää" minkään käsitteen suhteen.

Mielenkiintoinen hakutyökalu on Kiihottaa, tarjoaa myös koko tekstihaku yli 50 miljoonalla verkkosivulla.

Sen kanssa työskentelyn erikoisuus on, että pyynnöt tähän järjestelmään tehdään luonnollisella kielellä (tietysti englanniksi) ikään kuin kysyisimme henkilöltä.

Älykkään käsitteen poiminnan pohjalta suunniteltu erityinen järjestelmä analysoi pyynnön ja tarjoaa linkit asiakirjoihin, jotka ovat sen tietokoneen mielestä relevantteja.

Käytäntö kuitenkin osoittaa, että Excite käsittelee oikein vain yksitavuisia kyselyitä. Tietojen saamiseksi monimutkaisista aiheista on parempi käyttää muita hakutyökaluja.

Yksi nykyaikaiset järjestelmät, joka tarjoaa haun kaikista tekstin sanoista OpenText .

Käyttäjä voi kuitenkin valinnaisesti rajoittaa haun laajuuteen vain tärkeimpiin ja merkittävimpiin Web-sivun osiin: otsikko, ensimmäinen otsikko, yhteenveto, sähköpostiosoite (URL).

Tämä on erittäin kätevää, jos haluat löytää vain tärkeimmät teokset laajasta aiheesta. Kuten aikaisemmissa tapauksissa, vaikeimmat kyselyt suoritetaan käyttämällä kehittynyttä hakua - Power Search.

Sen käyttöliittymän avulla on melko helppoa luoda hakujärjestys monivaiheisen valikon avulla.

Tässä valikossa on rivit termien syöttämiseen, jotka osoittavat, mitkä kentät sisältävät haetut tiedot yhdessä tuttujen operaattoreiden AND (ja), TAI (tai), MUUTTA EI (mutta ei), NEAR (vieressä) ja FOLLOWED BY (pitäisi takana) kanssa. .

2.2 Venäjänkieliset hakukoneet: koostumus ja toimintaperiaatteet

SISÄÄN viime vuodet Myös kaupallisen luokituksen käytäntö on kehittynyt. Teknisesti ne on varustettu eniten nykyaikaiset keinot, joka vastaa vuoden 2000 tasoa, ja Runetin (Internetin venäläinen sektori) kokonaiskoko on nykyään suunnilleen sama kuin länsisektori oli vuosina 1994-1995. Siksi tänään Venäjällä erityisiä ongelmia etsinnöistä ei ole tietoa, eikä niitä odoteta lähitulevaisuudessa. Mutta länsimaisella sektorilla hakuongelmat ovat erittäin suuria, ja eri hakukoneet yrittävät voittaa ne eri tavoin. Kerromme sinulle, kuinka tämä tapahtuu.

Venäjän tämän päivän hakuindekseistä on kolme "pilaria" (on myös pienempiä järjestelmiä, mutta emme käsittele niitä). Nämä ovat Rambler (www.rambler.ru), Yandex (www.yandex.ru) ja Aport2000 (www.aport.ru).

Historiallisesti suosituin hakukone on Rambler. Hän aloitti työt aikaisemmin kuin muut ja pitkään aikaan oli johtava hakuindeksin koosta ja hakupalveluiden laadussa. Valitettavasti tänään nämä saavutukset ovat menneisyyttä. Huolimatta siitä, että Rambler-hakuindeksin koko on noin 12 miljoonaa Web-sivua, sitä ei ole päivitetty kunnolla pitkään aikaan ja se tuottaa vanhentuneita tuloksia. Nykyään Rambler on suosittu portaali, Venäjän paras luokitus- ja luokitusjärjestelmä (kerromme sinulle alla) sekä mainosalusta. Perinteisesti tämä järjestelmä on Venäjällä ensimmäisellä sijalla liikenteessä ja sillä on hyvät tulot mainonnasta. Mutta kuten alla näytämme, varoja ei sijoiteta hakutyökalujen kehittämiseen. Suurin indeksi on Yandex-järjestelmän ytimessä - noin 27 miljoonaa Web-sivua, mutta kyse ei ole vain koosta. Tämä ei ole vain osoitin resursseihin, vaan osoitin uusimpiin resursseihin. Relevanssin suhteen Yandex on nykyään kiistaton johtaja. Aport-järjestelmä voittaa kolmannessa vaiheessa: siinä vaiheessa, kun tiedot esitetään asiakkaalle. Se ei pyri luomaan suurinta indeksiä automatisoiduin keinoin, vaan hyödyntää laajasti @Rus-luettelon manuaalisesti käsiteltyä tietoa. Siksi järjestelmä ei tuota yhtä paljon tuloksia kuin sen lähimmät kilpailijat, mutta nämä tulokset ovat yleensä tarkkoja ja selkeästi esitettyjä.

Johtopäätös kirjoitetaan loppuun ja viittaa äärellisyyteen. Mutta tiedon kasvu on loputonta, joten hakukoneiden parantamiselle ei ole rajaa. Kehittäjien tärkein tehtävä on parantaa haun laatua siirtymällä kohti järjestelmän tehokkuutta ja helppokäyttöisyyttä. Tätä tarkoitusta varten ne muuttuvat jatkuvasti hakualgoritmit, luodaan lisäpalvelut, suunnittelua viimeistellään.

Kuitenkin selviytyäkseen dynaamisen Internetin maailmassa kehityksen aikana on rakennettava suuri vakausmarginaali, katsottava jatkuvasti tulevaisuuteen ja kokeiltava tämän päivän haun tulevaisuuden kuormitusta. Tämän lähestymistavan avulla voimme käsitellä paitsi jatkuvaa kamppailua ja hakukoneen mukautumista kasvaviin tietomääriin, myös toteuttaa jotain uutta, todella tärkeää ja välttämätöntä Internet-haun tehokkuuden parantamiseksi.

Bibliografia:

1. E. Kolmanovskaja, CompTek International, Yandex: Venäjän Internet/Intranet-hakujärjestelmä.

2. Abrosimov A.G., Abramov N.V., Motovilov N.V., Yritystalous Tietojärjestelmä, akateeminen kylä SGEA, 2005.

3. Tiedonhakujärjestelmät. – http://www.comptek.ru/yandex/yand_about.html.

4. Troyan G.M. Haku Internetin venäjänkielisestä osasta: hakukone Yandex järjestelmä// Radioamatööri. Sinun tietokoneesi. – Nro 1-3, 2000.

5. Nykyaikainen opetusohjelma Internetissä työskentelemiseen. Eniten suosittuja ohjelmia: Harjoittele. korvaus – Toim. Komyagina V.B. – M.: Kustantaja “Triumph”, 1999. – 368 s.