Hakurobotteja käyttävät järjestelmät. Hakurobotti: mikä se on ja miten se toimii? Miten hakukonerobotit toimivat

Hei ystävät! Tänään opit kuinka Yandex- ja Google-hakurobotit toimivat ja mitä toimintoa ne suorittavat verkkosivustojen edistämisessä. Mennään siis!

Hakukoneet tekevät tämän toiminnon löytääkseen miljoonasta sivustosta kymmenen WEB-projektia, joilla on laadukas ja osuva vastaus käyttäjän pyyntöön. Miksi vain kymmenen? Koska se koostuu vain kymmenestä paikasta.

Hakurobotit ovat ystäviä sekä verkkovastaaville että käyttäjille

Miksi hakurobottien on tärkeää vierailla sivustolla, on jo tullut selväksi, mutta miksi käyttäjä tarvitsee tätä? Se on oikein, jotta käyttäjä näkee vain ne sivustot, jotka vastaavat hänen pyyntöönsä kokonaisuudessaan.

Etsi robotti - erittäin joustava työkalu, se pystyy löytämään sivuston, jopa sellaisen, joka on juuri luotu, ja tämän sivuston omistaja ei ole vielä työskennellyt sen parissa. Siksi tätä bottia kutsuttiin hämähäkkiksi, se voi venytellä jalkojaan ja päästä minne tahansa virtuaaliverkossa.

Onko mahdollista ohjata hakurobottia eduksesi?

Joissakin tapauksissa jotkut sivut eivät sisälly hakuun. Tämä johtuu pääasiassa siitä, että hakurobotti ei ole vielä indeksoinut tätä sivua. Tietenkin ennemmin tai myöhemmin hakurobotti huomaa tämän sivun. Mutta se vie aikaa, ja joskus aika paljonkin. Mutta täällä voit auttaa hakurobottia vierailemaan tällä sivulla nopeammin.

Voit tehdä tämän sijoittamalla verkkosivustosi erityisiin hakemistoihin tai luetteloihin, sosiaalisiin verkostoihin. Yleensä kaikilla sivustoilla, joissa hakurobotti vain asuu. Esimerkiksi sosiaaliset verkostot päivittyvät joka sekunti. Yritä mainostaa sivustoasi, niin hakurobotti tulee sivustollesi paljon nopeammin.

Tästä seuraa yksi pääsääntö. Jos haluat hakukonebottien vierailevan sivustollasi, sinun on annettava ne uutta sisältöä päällä säännöllisesti. Jos he huomaavat, että sisältöä päivitetään ja sivusto kehittyy, he alkavat vierailla Internet-projektissasi paljon useammin.

Jokainen hakurobotti muistaa, kuinka usein sisältösi muuttuu. Hän arvioi paitsi laatua myös aikavälejä. Ja jos sivuston materiaalia päivitetään kerran kuukaudessa, hän tulee sivustolle kerran kuukaudessa.

Joten jos sivusto päivitetään kerran viikossa, niin hakurobotti tulee kerran viikossa. Jos päivität sivustoa joka päivä, hakurobotti vierailee sivustolla joka päivä tai joka toinen päivä. Jotkut sivustot indeksoidaan muutaman minuutin kuluessa päivityksestä. Tämä sosiaalinen media, uutiskokoojat ja sivustot, jotka julkaisevat useita artikkeleita päivässä.

Kuinka antaa robotille tehtävä ja estää sitä tekemästä mitään?

Varhain opimme, että hakukoneissa on useita robotteja, jotka suorittavat erilaisia tehtäviä. Jotkut etsivät kuvia, jotkut linkkejä ja niin edelleen.

Voit ohjata mitä tahansa robottia käyttämällä erityinen tiedosto robots.txt . Tästä tiedostosta robotti alkaa tutustua sivustoon. Tässä tiedostossa voit määrittää, voiko robotti indeksoida sivuston, ja jos voi, mitkä osiot. Kaikki nämä ohjeet voidaan luoda yhdelle tai kaikille roboteille.

Verkkosivuston edistämiskoulutus

Tarkempia tietoja viisaudesta SEO edistäminen sivustoja sisään hakukoneet Voi Google ja Yandex, puhun omallani Skypessä. Toin kaikki WEB-projektini lisää liikennettä ja saan tästä erinomaisia tuloksia. Voin opettaa tämän myös sinulle, jos olet kiinnostunut!

Hakukonerobotit, joita joskus kutsutaan roboteiksi tai indeksoijaksi, ovat ohjelmistomoduulit Web-sivujen etsiminen. Miten ne toimivat? Mitä he itse asiassa tekevät? Miksi ne ovat tärkeitä?

Ottaen huomioon kaikki ympärillä oleva melu Hakukoneoptimointi ja hakukoneiden hakemistotietokannat, luultavasti ajattelet, että robottien on oltava mahtavia ja tehokkaita olentoja. Ei totta. Hakukonerobotit ovat vain perustoiminnot, joka on samanlainen kuin joillakin ensimmäisillä selaimilla, mitä tietoja he tunnistavat sivustossa. Kuten varhaiset selaimet, robotit eivät yksinkertaisesti pysty tekemään tiettyjä asioita. Robotit eivät ymmärrä kehyksiä Flash-animaatioita, kuvia tai JavaScriptiä. He eivät voi päästä salasanalla suojattuihin osiin eivätkä voi napsauttaa kaikkia sivuston painikkeita. Ne voivat sulkea kiinni indeksointiprosessin aikana dynaamiset osoitteet URL-osoite ja toimivat hyvin hitaasti, pysähtymiseen ja voimattomuuteen saakka JavaScript-navigoinnin suhteen.

Miten hakukonerobotit toimivat?

Hakurobotteja tulisi ajatella automaattisina tiedonhakuohjelmina, jotka liikkuvat verkossa etsiessään tietoa ja linkkejä tietoihin.

Kun siirryt "Lähetä URL-osoite" -sivulle ja rekisteröit toisen verkkosivun hakukoneeseen, uusi URL-osoite lisätään jonoon, jotta robotti voi tarkastella sivustoja. Vaikka et rekisteröi sivua, monet löytää robotteja sivustollesi, koska siellä on linkkejä muilta sivustoilta, jotka linkittävät sinun. Tämä on yksi syistä, miksi on tärkeää kasvattaa linkkien suosiota ja sijoittaa linkkejä muihin temaattisiin resursseihin.

Kun robotit tulevat sivustollesi, he tarkistavat ensin, onko siellä robots.txt-tiedostoa. Tämä tiedosto kertoo roboteille, mitä sivustosi osia ei tule indeksoida. Tyypillisesti nämä voivat olla hakemistoja, jotka sisältävät tiedostoja, joista robotti ei ole kiinnostunut tai joista ei pitäisi tietää.

Robotit tallentavat ja keräävät linkkejä jokaiselta sivulta, jolla he käyvät, ja seuraavat niitä myöhemmin muille sivuille. Kaikki maailman laajuinen verkko rakennettu linkeistä. Alkuperäinen idea Internet-verkon luominen oli, että linkkien kautta olisi mahdollista navigoida paikasta toiseen. Näin robotit liikkuvat.

"Ovela" sivujen indeksoinnissa todellinen tila aika riippuu hakukoneinsinööreistä, jotka keksivät menetelmät, joilla hakukonerobottien haetut tiedot arvioidaan. Tietokantaan upotettuna hakukone, tiedot ovat hakua tekevien käyttäjien saatavilla. Kun hakukoneen käyttäjä kirjoittaa hakulauseke, tehdään sarja nopeita laskelmia sen varmistamiseksi, että tuote on todellakin oikea setti sivustot osuvimpien vastausten saamiseksi.

Voit tarkastella, millä sivustosi sivuilla hakurobotti on jo käynyt, palvelimen lokitiedostojen ohjaamana tai lokitiedoston tilastollisen käsittelyn tuloksia. Tunnistamalla robotit näet, milloin he vierailivat sivustollasi, millä sivuilla ja kuinka usein. Jotkut robotit tunnistetaan helposti niiden nimistä, kuten Googlen "Googlebot". Muut ovat piilotettuja, kuten Inktomin "Slurp". Lokeissa saattaa esiintyä myös muita robotteja, ja on mahdollista, että et pysty heti tunnistamaan niitä; Jotkut niistä voivat jopa olla ihmisten käyttämiä selaimia.

Ainutlaatuisten hakurobottien tunnistamisen ja niiden käyntien määrän laskemisen lisäksi tilastot voivat myös näyttää sinulle aggressiivisia, kaistanleveyttä kuluttavia robotteja tai robotteja, jotka eivät ole toivottavia sivustossasi vieraileville.

Kuinka he lukevat verkkosivustosi sivuja?

Kun indeksointirobotti vierailee sivulla, se indeksoi sen näkyvää tekstiä, erilaisten tunnisteiden sisältö lähdekoodi sivusi (otsikkotunniste, sisällönkuvauskentät jne.) sekä sivulla olevat hyperlinkit. Linkkien sanojen perusteella hakukone päättää, mistä sivulla on kyse. Sivun tärkeimpien näkökohtien laskemiseen käytetään monia tekijöitä. Jokaisella hakukoneella on oma algoritminsa tietojen arvioimiseksi ja käsittelemiseksi. Robotin kokoonpanosta riippuen tiedot indeksoidaan ja toimitetaan sitten hakukoneen tietokantaan.

Tämän jälkeen hakukoneen hakemistotietokantoihin toimitettavat tiedot tulevat osaksi hakukone- ja tietokantajärjestysprosessia. Kun vierailija tekee kyselyn, hakukone etsii koko tietokannasta palauttaakseen lopullisen luettelon, joka liittyy hakukyselyyn.

Hakukoneiden tietokannat käsitellään huolellisesti ja yhdenmukaistetaan. Jos olet jo tietokannassa, robotit vierailevat luonasi säännöllisesti kerätäkseen mahdolliset muutokset sivuille ja varmistaakseen, että heillä on uusimmat tiedot. Käyntien määrä riippuu hakukoneen asetuksista, jotka voivat vaihdella sen tyypin ja tarkoituksen mukaan.

Joskus hakurobotit eivät pysty indeksoimaan verkkosivustoa. Jos sivustosi on kaatunut tai sivusto on käynnissä suuri määrä kävijöitä, robotti voi olla voimaton yrittäessään indeksoida sitä. Kun näin tapahtuu, sivustoa ei voida indeksoida uudelleen, mikä riippuu siitä, kuinka usein robotti vierailee siellä. Useimmissa tapauksissa robotit, jotka eivät pääse sivuillesi, yrittävät myöhemmin uudelleen siinä toivossa, että sivustosi on pian saatavilla.

Monia indeksointirobotteja ei voida tunnistaa, kun tarkastelet lokeja. He saattavat käydä luonasi, mutta lokit sanovat, että joku käyttää Microsoft-selainta jne. Jotkut robotit tunnistavat itsensä käyttämällä hakukoneen (googlebot) tai sen kloonin (Scooter = AltaVista) nimeä.

Robotin kokoonpanosta riippuen tiedot indeksoidaan ja toimitetaan sitten hakukoneiden tietokantoihin.

Hakukoneiden tietokannat voivat muuttua eri aikoina. Jopa hakemistot, joilla on toissijainen Hakutulokset käyttää robottitietoja verkkosivustonsa sisältönä.

Itse asiassa hakukoneet eivät käytä robotteja vain edellä mainittuihin. On olemassa robotteja, jotka tarkistavat tietokannoista uuden sisällön, käyvät vanhassa tietokantasisällössä, tarkistavat, ovatko linkit muuttuneet, lataavat kokonaisia sivustoja katseltavaksi ja niin edelleen.

Tästä syystä lokitiedostojen lukeminen ja hakukoneiden tulosten seuranta auttavat sinua seuraamaan projektiesi indeksointia.

Näkyy Internetissä joka päivä suuri määrä uusia materiaaleja: verkkosivuja luodaan, vanhoja verkkosivuja päivitetään, kuvia ja videotiedostoja ladataan. Ilman näkymättömiä hakurobotteja olisi mahdotonta löytää mitään näistä asiakirjoista World Wide Webistä. Vaihtoehtoja vastaaville robottiohjelmille Tämä hetki aikaa ei ole olemassa. Mikä on hakurobotti, miksi sitä tarvitaan ja miten ne toimivat?

Mikä on hakurobotti

Web-sivuston indeksointirobotti (hakukone) on automaattinen ohjelma, joka pystyy vierailemaan miljoonilla verkkosivuilla ja liikkumaan nopeasti Internetissä ilman operaattorin väliintuloa. Botit skannaavat jatkuvasti tilaa, löytävät uusia Internet-sivuja ja käyvät säännöllisesti jo indeksoiduilla sivuilla. Muut hakurobottien nimet: hämähäkit, indeksointirobotit, robotit.

Miksi tarvitsemme hakurobotteja?

Hakurobottien päätoiminto on verkkosivujen sekä niillä olevien teksti-, kuva-, ääni- ja videotiedostojen indeksointi. Botit tarkistavat linkit, peilaavat sivustot (kopiot) ja päivitykset. Robotit valvovat myös HTML-koodin noudattamista World Wide Webin teknologiastandardeja kehittävän ja toteuttavan Maailmanjärjestön standardien mukaisesti.

Mitä indeksointi on ja miksi sitä tarvitaan?

Indeksointi on itse asiassa prosessi, jossa hakurobotit vierailevat tietyllä verkkosivulla. Ohjelma skannaa sivustolle lähetetyt tekstit, kuvat, videot, lähtevät linkit, minkä jälkeen sivu näkyy hakutuloksissa. Joissakin tapauksissa sivustoa ei voida indeksoida automaattisesti, vaan verkkovastaava voi lisätä sen hakukoneeseen manuaalisesti. Yleensä tämä tapahtuu, kun tietty (usein juuri luotu) sivu puuttuu.

Miten hakurobotit toimivat

Jokaisella hakukoneella on oma robottinsa ja hakukoneensa Google robotti voi erota toimintamekanismiltaan merkittävästi samankaltaisesta Yandex-ohjelmasta tai muista järjestelmistä.

Yleisesti ottaen robotin toimintaperiaate on seuraava: ohjelma "saapuu" paikalle mennessä Ulkoiset linkit ja alkaen kotisivu, "lukee" verkkoresurssia (mukaan lukien palvelutietojen tarkastelu, jota käyttäjä ei näe). Botti voi sekä liikkua yhden sivuston sivujen välillä että siirtyä muille.

Kuinka ohjelma valitsee kumman Useimmiten hämähäkin "matka" alkaa uutissivustoista tai suurista resursseista, hakemistoista ja aggregaattoreista, joilla on suuri viitemassa. Hakurobotti indeksoi sivuja jatkuvasti peräkkäin, indeksoinnin nopeuteen ja johdonmukaisuuteen vaikuttavat seuraavat tekijät:

sisäinen: reline ( sisäiset linkit saman resurssin sivujen välillä), sivuston koko, koodin oikeellisuus, käyttäjäystävällisyys ja niin edelleen;
ulkoinen: kokonaismäärä vertailumassa, joka johtaa sivustolle.

Ensinnäkin hakurobotti etsii robots.txt-tiedostoa miltä tahansa verkkosivustolta. Resurssin lisäindeksointi suoritetaan erityisesti tästä asiakirjasta saatujen tietojen perusteella. Tiedosto sisältää tarkat ohjeet "hämähäkkeille", joiden avulla voit lisätä hakurobottien mahdollisuuksia vierailla sivulla ja siten varmistaa, että sivusto pääsee Yandexin tai Googlen tuloksiin mahdollisimman pian.

Hakurobottien kaltaisia ohjelmia

"Hakurobotin" käsite sekoitetaan usein älykkäisiin, käyttäjä- tai autonomisiin agentteihin, "muurahaisiin" tai "madoihin". Merkittäviä eroja on vain agenteihin verrattuna, muut määritelmät tarkoittavat samantyyppisiä robotteja.

Eli agentit voivat olla:

älyllinen: ohjelmat, jotka liikkuvat paikasta toiseen päättäen itsenäisesti, mitä tehdä seuraavaksi; ne eivät ole kovin yleisiä Internetissä;
autonominen: tällaiset agentit auttavat käyttäjää tuotteen valinnassa, lomakkeiden etsimisessä tai täyttämisessä. Nämä ovat niin sanottuja suodattimia, joilla ei ole juurikaan tekemistä verkko-ohjelmien kanssa;
mukautettu: ohjelmat helpottavat vuorovaikutusta käyttäjän kanssa Maailman laajuinen verkko, nämä ovat selaimia (esim. Opera, IE, Google Chrome, Firefox), pikaviestit (Viber, Telegram) tai sähköpostiohjelmat(MS Outlook tai Qualcomm).

"Muurahaiset" ja "madot" ovat enemmän samankaltaisia kuin haku "hämähäkit". Ensimmäiset muodostavat verkoston keskenään ja toimivat harmonisesti vuorovaikutuksessa kuin todellinen muurahaisyhdyskunta, kun taas "madot" kykenevät lisääntymään itsestään, muuten ne toimivat samalla tavalla kuin tavallinen hakurobotti.

Hakurobottien tyypit

Hakurobotteja on monenlaisia. Ohjelman tarkoituksesta riippuen ne ovat:

"Peili" - tarkastele päällekkäisiä sivustoja.
Mobiili - suunnattu mobiiliversiot Internet-sivut.
Nopeasti toimiva - korjauksia uusi tieto viipymättä, katsomalla viimeisimmät päivitykset.
Linkkipohjainen - indeksoi linkit ja laske niiden määrä.
Indeksoijat erilaisia tyyppejä sisältö - yksittäisiä ohjelmia teksti-, ääni- ja videotallenteisiin, kuviin.
"Spyware" - etsii sivuja, jotka eivät vielä näy hakukoneessa.
"Woodpeckers" - vierailee sivustoilla säännöllisesti tarkistaakseen niiden osuvuuden ja suorituskyvyn.
Kansallinen - tarkastella verkkoresursseja, jotka sijaitsevat yhden maan verkkotunnuksissa (esimerkiksi .ru, .kz tai .ua).
Globaali - indeksoi kaikki kansalliset sivustot.

Suurten hakukoneiden robotit

On myös erilliset hakukonerobotit. Teoriassa niiden toiminnallisuus voi vaihdella merkittävästi, mutta käytännössä ohjelmat ovat lähes identtisiä. Tärkeimmät erot kahden päähakukoneen robottien Internet-sivujen indeksoinnin välillä ovat seuraavat:

Tarkastuksen tiukka. Uskotaan, että Yandex-hakurobottimekanismi arvioi sivuston jonkin verran tiukemmin World Wide Web -standardien noudattamisen suhteen.
Sivuston eheyden säilyttäminen. Googlen hakurobotti indeksoi koko sivuston (mukaan lukien mediasisältö), kun taas Yandex voi tarkastella sivuja valikoivasti.
Uusien sivujen tarkistamisen nopeus. Google lisää uusi resurssi V Hakutulokset muutaman päivän sisällä Yandexin tapauksessa prosessi voi kestää kaksi viikkoa tai enemmän.
Uudelleenindeksoinnin taajuus. Yandex-hakurobotti tarkistaa päivitykset pari kertaa viikossa ja Google kerran 14 päivässä.

Internet ei tietenkään rajoitu kahteen hakukoneeseen. Muilla hakukoneilla on omat robottinsa, jotka seuraavat omia indeksointiparametrejaan. Lisäksi on useita "hämähäkkejä", joita ei ole suunniteltu suuriksi etsi resursseja, A erilliset joukkueet tai verkkovastaaville.

Yleisiä väärinkäsityksiä

Toisin kuin yleisesti uskotaan, hämähäkit eivät käsittele vastaanottamiaan tietoja. Ohjelma vain skannaa ja tallentaa verkkosivuja, ja jatkokäsittely suoritetaan täysin erilaisilla roboteilla.

Myös monet käyttäjät uskovat, että hakurobotit ovat negatiivinen vaikutus ja "haitallista" Internetille. Tietyt hämähäkkiversiot voivat todellakin ylikuormittaa palvelimia. On myös inhimillinen tekijä - ohjelman luonut verkkovastaava voi tehdä virheitä robotin asetuksissa. Silti enemmistö olemassa olevista ohjelmista hyvin suunniteltu ja ammattimaisesti hallittu, ja mahdolliset ongelmat korjataan viipymättä.

Kuinka hallita indeksointia

Hakurobotit ovat automaattiset ohjelmat, mutta verkkovastaava voi osittain hallita indeksointiprosessia. Ulkopuoliset resurssit auttavat tässä suuresti. Lisäksi voit manuaalisesti lisätä uuden sivuston hakukoneeseen: suurilla resursseilla on erityiset lomakkeet verkkosivujen rekisteröintiä varten.

Hakukonehämähäkit ovat Internet-botteja, joiden tehtävänä on järjestelmällisesti skannata maailman sivuja. Laaja verkko verkkoindeksoinnin varmistamiseksi. Perinteisesti WWW-tilan skannaus suoritetaan verkkoon lähetetyn sisällön tietojen päivittämiseksi, jotta käyttäjille saadaan ajan tasalla olevaa tietoa tietyn resurssin sisällöstä. Hakurobottien tyyppejä ja niiden ominaisuuksia käsitellään tässä artikkelissa.

Etsi hämähäkkejä voidaan kutsua myös eri tavalla: robotit, verkkohämähäkit, indeksointirobotit. Nimestä riippumatta he kaikki kuitenkin tutkivat jatkuvasti ja jatkuvasti virtuaalitilan sisältöä. Robotti ylläpitää luetteloa URL-osoitteista, joista asiakirjat ladataan säännöllisesti. Jos hämähäkki löytää indeksoinnin aikana uusi linkki, se lisätään tähän luetteloon.

Siten indeksointirobotin toimintaa voidaan verrata tavallinen ihminen selaimen takana. Ainoa ero on, että avaamme vain meitä kiinnostavia linkkejä, ja robotti avaa kaiken, mistä sillä on tietoa. Lisäksi robotti, tutustuttuaan indeksoidun sivun sisältöön, välittää sitä koskevat tiedot erityisessä muodossa hakukonepalvelimille tallennettavaksi, kunnes käyttäjä tekee pyynnön.

Samaan aikaan jokainen robotti suorittaa oman tehtävänsä: toiset indeksoivat tekstisisältöä, toiset grafiikkaa, kun taas toiset tallentavat sisältöä arkistoon jne.

Hakukoneiden päätehtävä- Algoritmin luominen, jonka avulla voit saada tiedot nopeasti ja täydellisesti, koska edes hakujättiläiset eivät pysty tarjoamaan kattavaa skannausprosessia. Siksi jokainen yritys tarjoaa ainutlaatuisia robotteja matemaattiset kaavat, jota noudattaen robotti valitsee sivun, jolla se vierailee seuraava askel. Tämä yhdessä rankingalgoritmien kanssa on yksi niistä tärkeimmät kriteerit millä käyttäjät valitsevat hakukoneen: missä tiedot sivustoista ovat täydellisempiä, tuoreempia ja hyödyllisempiä.

Hakukonerobotti ei välttämättä tiedä sivustostasi, jos siihen ei ole linkkejä (mikä on ehkä harvinaista - nykyään verkkotunnuksen rekisteröinnin jälkeen viittauksia siihen löytyy Internetistä). Jos linkkejä ei ole, sinun on kerrottava siitä hakukoneelle. Tätä varten pääsääntöisesti " henkilökohtaiset tilit» webmasters.

Mikä on hakurobottien päätehtävä?

Vaikka haluaisimmekin, hakurobotin päätehtävä ei ole ollenkaan kertoa maailmalle sivustomme olemassaolosta. Sitä on vaikea muotoilla, mutta silti sen perusteella, että hakukoneet toimivat vain asiakkaidensa, eli käyttäjien, ansiosta robotin on tarjottava verkkoon lähetettyjen tietojen nopea haku ja indeksointi. Vain tämä antaa hakukoneelle mahdollisuuden tyydyttää yleisön tarpeet osuviin ja osuviin hakutuloksiin.

Tietenkään robotit eivät voi indeksoida 100 % verkkosivustoista. Tutkimusten mukaan hakujohtajien lataamien sivujen määrä ei ylitä 70 prosenttia Internetissä olevien URL-osoitteiden kokonaismäärästä. Kuitenkin se, kuinka täysin robotti tutkii resurssiasi, vaikuttaa myös haun kyselyitä seuraavien käyttäjien määrään. Siksi optimoijat piinaavat yrittäessään "ruokkia" robottia perehtyäkseen muutoksiin mahdollisimman nopeasti.

Runetissa vasta vuonna 2016 Yandex nousi toiselle sijalle kuukausittaisessa yleisökattavuudessa Googlen jälkeen. Siksi ei ole yllättävää, että hän nai Suuri määrä hämähäkkejä tutkimassa avaruutta kotimaisten PS:ien joukossa. On turha luetella niitä kokonaan: se näkyy osiossa "Apua verkkovastaavalle" > Hakurobotin hallinta > Kuinka tarkistaa, että robotti kuuluu Yandex.

Kaikilla hakukoneiden indeksointirobotilla on tiukasti säädelty käyttäjäagentti. Niistä, jotka sivuston rakentajan on ehdottomasti tavattava:

Mozilla/5.0 (yhteensopiva; YandexBot/3.0; +http://yandex.com/bots) - tärkein indeksointibotti;
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1, kuten Mac OS X) AppleWebKit/600.1.4 (KHTML, kuten Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (yhteensopiva; YandexBot/3.0; +http://yandex .com/bots) - indeksoiva hämähäkki;
Mozilla/5.0 (yhteensopiva; YandexImages/3.0; +http://yandex.com/bots) - Yandex.Images-botti;
Mozilla/5.0 (yhteensopiva; YandexMedia/3.0; +http://yandex.com/bots) - indeksoi multimediamateriaalit;
Mozilla/5.0 (yhteensopiva; YandexFavicons/1.0; +http://yandex.com/bots) - indeksoi sivuston kuvakkeet.

Yandex-hämähäkkien houkuttelemiseksi sivustollesi on suositeltavaa suorittaa useita yksinkertaisia toimia:

määritä robots.txt oikein;
luo RSS-syöte;
aseta sivustokartta, jossa on täydellinen luettelo indeksoiduista sivuista;
luo sivu (tai sivut), joka sisältää linkit kaikkiin resurssin asiakirjoihin;
määrittää HTTP-tilat;
tarjota sosiaalista toimintaa materiaalin julkaisemisen jälkeen (eikä vain kommentit, vaan myös asiakirjan jakaminen);
uusien ainutlaatuisten tekstien intensiivinen sijoittaminen.

Jälkimmäistä väitettä tukee robottien kyky muistaa sisällön päivitysnopeus ja saapua sivustolle havaittujen uusien materiaalien lisäämistaajuudella.

Jos haluat estää Yandex-indeksointirobottien pääsyn sivuille (esimerkiksi teknisiin osiin), sinun on määritettävä robots.txt-tiedosto. PS-hämähäkit ymmärtävät bottien vakiopoikkeukset, joten tiedoston luomisessa ei yleensä ole vaikeuksia.

Käyttäjäagentti: Yandex

Estä: /

estää PS:ää indeksoimasta koko sivustoa.

Lisäksi Yandex-robotit pystyvät ottamaan huomioon sisällönkuvauskentissä määritellyt suositukset. Esimerkki: kieltää esittelyn linkin myöntämisessä arkistossa olevan asiakirjan kopioon. Ja tagin lisääminen sivun koodiin osoittaa sen Tämä asiakirja ei tarvitse indeksoida.

Täysi lista hyväksyttäviä arvoja löytyy Verkkovastaavan ohjeen "HTML-elementtien käyttäminen" -osiosta.

Googlen hakurobotit

Googlen päämekanismi WWW-sisällön indeksoimiseksi on nimeltään Googlebot. Sen moottori on määritetty tutkimaan miljardeja sivuja päivittäin löytääkseen uusia tai muutettuja asiakirjoja. Samanaikaisesti robotti itse määrittää, mitkä sivut skannataan ja mitkä jätetään huomiotta.

Tälle indeksoijalle tärkeä on sivustokarttatiedosto resurssin omistajan toimittamassa sivustossa. Sen toiminnan varmistava tietokoneverkko on niin tehokas, että robotti voi tehdä pyyntöjä sivustosi sivuille parin sekunnin välein. Ja botti on määritetty analysoimaan suurempi määrä sivuja kerralla, jotta se ei kuormita palvelinta. Jos sivusto on hidas johtuen toistuvia pyyntöjä hämähäkki, skannausnopeutta voidaan muuttaa asettamalla sisään Search Console. Valitettavasti skannausnopeutta ei ole mahdollista lisätä.

Google-bottia voidaan pyytää indeksoimaan sivusto uudelleen. Tätä varten sinun on avattava Search Console ja etsittävä Lisää hakemistoon -ominaisuus, joka on Selaa Googlebotina -työkalun käyttäjien käytettävissä. Skannauksen jälkeen Lisää hakemistoon -painike tulee näkyviin. Google ei kuitenkaan takaa, että kaikki muutokset indeksoidaan, koska prosessi liittyy työhön " monimutkaiset algoritmit».

Hyödyllisiä työkaluja

On melko vaikeaa luetella kaikkia työkaluja, jotka auttavat optimoijia työskentelemään robottien kanssa, koska niitä on paljon. Edellä mainitun "Näytä Googlebotina" lisäksi kannattaa huomioida Googlen ja Yandexin robots.txt tiedostoanalysaattorit, analysaattorit Sivustokarttatiedostot, palvelu "Tarkistaa palvelimen vastausta" venäläisestä PS:stä. Niiden ominaisuuksien ansiosta voit kuvitella, miltä sivustosi näyttää hämähäkin silmissä, mikä auttaa sinua välttämään virheitä ja varmistamaan nopea skannaus sivusto.

Jotkut robotit voivat naamioitua Yandex-robotiksi määrittämällä sopivat Käyttäjä agentti. Voit varmistaa, että robotti on se, joka sanoo käyttävänsä käänteistä tunnistusta. DNS-kyselyt(käänteinen DNS-haku).

Voit tehdä tämän seuraavasti:

Määritä kiinnostavan User-agentin IP-osoite palvelimesi lokeista. Kaikki Yandex-robotit esitetään määritetyn käyttäjäagentin avulla.

Määritä vastaanotetun IP-osoitteen avulla Verkkotunnus isäntä käyttäen käänteistä DNS-hakua.

Kun olet määrittänyt isäntänimen, voit tarkistaa, kuuluuko se Yandex. Kaikkien Yandex-robottien nimet päättyvät "yandex.ru", "yandex.net" tai "yandex.com". Jos isäntänimellä on eri pääte, tämä tarkoittaa, että robotti ei kuulu Yandexiin.

Varmista lopuksi, että saamasi nimi on oikea. Tätä varten sinun on käytettävä eteenpäin suunnattua DNS-hakua saadaksesi isäntänimeä vastaava IP-osoite. Sen on vastattava käänteisessä DNS-haussa käytettyä IP-osoitetta. Jos IP-osoitteet eivät täsmää, se tarkoittaa, että vastaanotettu isäntänimi on väärennös.

Yandex-robotit palvelinlokeissa

Kysymykset ja vastaukset

Kuinka suojautua petollisilta roboteilta, jotka esiintyvät Yandex-robotteina

Jos haluat suojautua petollisilta roboteilta, jotka esiintyvät Yandex-robotteina, voit käyttää käänteisiin DNS-kyselyihin perustuvaa suodatusta. Tämä menetelmä on parempi kuin IP-pohjainen pääsynhallinta, koska se kestää muutoksia. sisäiset verkot Yandex.

Verkkopalvelimeni ja robottisi välinen liikenne on liian suuri. Onko olemassa tukea sivujen lataamiseen pakattuna?

Kyllä, se on olemassa. Yandex-hakurobotti sanoo jokaisen sivupyynnön yhteydessä: "Hyväksy-koodaus: gzip, deflate". Tämä tarkoittaa, että määrittämällä verkkopalvelimesi vastaavasti voit vähentää liikenteen määrää sen ja robottimme välillä. Muista kuitenkin, että sisällön siirtäminen pakattuna lisää palvelimesi prosessorin kuormitusta, ja jos se on raskaasti kuormitettu, voi ilmetä ongelmia. Robotti tukee gzippiä ja tyhjennystä, ja se noudattaa rfc2616-standardia.