Robotit tiedosto. Kuinka muokata robots txt-tiedostoa

SEO:ssa ei ole pikkujuttuja. Joskus vain yksi pieni tiedosto voi vaikuttaa verkkosivuston mainostamiseen - Robots.txt.

Jos haluat, että sivustosi indeksoidaan oikein, jotta hakurobotit indeksoivat tarvitsemasi sivut, sinun on kirjoitettava niitä koskevat suositukset muistiin.

"Onko tämä mahdollista?"Voi olla. Tätä varten sivustollasi on oltava robots.txt-tiedosto.

Kuinka laatia se oikein ja ladata se verkkosivustolle - selvitämme sen tässä artikkelissa.

Valmiin Robots.txt-tiedoston tulee sijaita sivuston juurikansiossa. Vain tiedosto, ei kansiota:

Haluatko tarkistaa, onko se sivustollasi? Kirjoita osoitepalkkiin seuraava osoite: site.ru/robots.txt. Näet tämän sivun (jos tiedosto on olemassa):

Tiedosto koostuu useista lohkoista, jotka on erotettu sisennyksellä. Jokainen lohko sisältää suosituksia hakurobotteja eri hakukoneita (sekä lohko, jossa yleiset säännöt kaikille) ja erillinen lohko, jossa on linkkejä sivustokarttaan - Sivukartta.

Ei tarvitse sisentää lohkoon säännöillä yhdelle hakurobotille.

Jokainen lohko alkaa User-agent -käskyllä.

Jokaisen käskyn jälkeen on “:”-merkki (kaksoispiste), välilyönti, jonka jälkeen ilmoitetaan arvo (esimerkiksi mikä sivu suljetaan indeksoinnista).

Sinun on määritettävä suhteelliset sivuosoitteet, ei absoluuttisia. Suhteellinen - tämä on ilman "www.site.ru". Sinun on esimerkiksi estettävä sivun indeksointiwww.site.ru/shop. Joten kaksoispisteen jälkeen laitamme välilyönnin, kauttaviivan ja "shop":

Disallow: /shop.

Tähti (*) tarkoittaa mitä tahansa merkkijoukkoa.

Dollarimerkki ($) on rivin loppu.

Voit päättää - miksi kirjoittaa tiedosto tyhjästä, jos voit avata sen millä tahansa verkkosivustolla ja kopioida sen itse?

Jokaisella sivustolla on oltava yksilölliset säännöt. On tarpeen ottaa huomioon ominaisuudet. Esimerkiksi sama hallintapaneeli sijaitsee osoitteessa /wp-admin on WordPress-moottori, osoite on erilainen toisessa. Sama pätee yksittäisten sivujen osoitteisiin, sivustokarttaan ja niin edelleen.

Kuinka määrittää Robots.txt oikein

Kuten olet jo nähnyt kuvakaappauksessa, User-agent -direktiivi tulee ensin. Se osoittaa, mihin hakurobottiin alla olevat säännöt koskevat.

User-agent: * - säännöt kaikille hakuroboteille, eli kaikille hakukoneille (Google, Yandex, Bing, Rambler jne.).

User-agent: Googlebot – osoittaa säännöt etsi hämähäkki Google.

User-agent: Yandex – säännöt Yandex-hakurobotille.

Kumpi hakurobotti määrittää säännöt ensin, ei ole eroa. Mutta yleensä ensin he kirjoittavat suosituksia kaikille roboteille.

Poista indeksointi käytöstä: robots.txt Disallow

Sivuston kokonaisuuden tai yksittäisten sivujen indeksoinnin estämiseksi käytetään Disallow-direktiiviä.

Voit esimerkiksi estää sivuston indeksoinnin kokonaan (jos resurssi on kehitteillä etkä halua sen näkyvän hakutuloksissa tässä tilassa). Tätä varten sinun on annettava seuraavat tiedot:

Käyttäjä agentti: *

Estä: /

Näin ollen kaikki hakurobotit eivät saa indeksoida sivuston sisältöä.

Ja näin voit avata sivuston indeksointia varten:

Käyttäjä agentti: *

Estä:

Tarkista siksi, onko Disallow-direktiivin jälkeen vinoviiva, jos haluat sulkea sivuston. Jos haluat avata sen myöhemmin, älä unohda poistaa sääntöä (ja näin tapahtuu usein).

Jos haluat estää yksittäisten sivujen indeksoinnin, sinun on määritettävä niiden osoite. Kirjoitin jo kuinka tämä tehdään:

Käyttäjä agentti: *

Disallow: /wp-admin

Siten sivuston hallintapaneeli suljettiin ulkopuolelta.

Mitä indeksoinnin ulkopuolelle on jätettävä:

hallintopaneeli;
käyttäjien henkilökohtaiset sivut;
korit;
sivuston hakutulokset;
kirjautumis-, rekisteröinti-, valtuutussivut.

Voit estää tietyntyyppisten tiedostojen indeksoinnin. Oletetaan, että verkkosivustollasi on .pdf-tiedostoja, joiden indeksointi ei ole toivottavaa. Ja hakurobotit skannaavat erittäin helposti sivustolle ladatut tiedostot. Voit estää heitä indeksoimasta seuraavasti:

Käyttäjä agentti: *

Disallow: /*. pdf$

Salli indeksointi: robots.txt Salli

Vaikka sivusto olisi kokonaan suljettu indeksoinnista, voit avata tien roboteille tiettyjä tiedostoja tai sivuja. Oletetaan, että suunnittelet verkkosivustoa uudelleen, mutta palveluluettelo pysyy ennallaan. Voit ohjata hakurobotteja sinne niin, että ne jatkavat osion indeksointia. Käytä Salli-ohjetta tehdäksesi tämän:

Käyttäjä agentti: *

Salli: /uslugi

Estä: /

Pääsivuston peili: robots.txt

20. maaliskuuta 2018 asti Yandex-hakurobotin robots.txt-tiedostossa oli tarpeen ilmoittaa sivuston pääpeili kautta Isäntädirektiivi. Nyt sinun ei tarvitse tehdä tätä - se riittää.

Mikä on ensisijainen peili? Tämä on se, mikä verkkosivustosi osoite on tärkein - www-osoitteen kanssa tai ilman. Jos et määritä uudelleenohjausta, molemmat sivustot indeksoidaan, eli kaikista sivuista on kaksoiskappaleita.

Sivustokartta: robots.txt-sivustokartta

Kun kaikki robottien käskyt on määritetty, sinun on määritettävä polku sivustokarttaan. Sivustokartta näyttää roboteille, että kaikki indeksoitavat URL-osoitteet sijaitsevat tietyssä osoitteessa. Esimerkiksi:

Sivustokartta: site.ru/sitemap.xml

Kun robotti indeksoi sivuston, se näkee, mitä muutoksia tähän tiedostoon on tehty. Tämän seurauksena uudet sivut indeksoidaan nopeammin.

Clean-param -direktiivi

Vuonna 2009 Yandex esitteli uuden direktiivin - Clean-param. Sitä voidaan käyttää kuvaamaan dynaamiset parametrit, jotka eivät vaikuta sivujen sisältöön. Useimmiten tätä direktiiviä käytetään foorumeilla. Täällä on paljon roskaa, esimerkiksi istunnon tunnus, lajitteluparametrit. Jos määrität tämän direktiivin, Yandex-hakurobotti ei lataa toistuvasti kopioituja tietoja.

Tämä ohje voidaan kirjoittaa mihin tahansa robots.txt-tiedostoon.

Parametrit, joita robotin ei tarvitse ottaa huomioon, on lueteltu &-merkillä erotettuna arvon ensimmäisessä osassa:

Clean-param: sid&sort /forum/viewforum.php

Tämän ohjeen avulla voit välttää päällekkäisiä sivuja dynaamiset osoitteet(joissa on kysymysmerkki).

Indeksoinnin viiveohje

Tämä direktiivi tulee avuksi niille, joilla on heikko palvelin.

Hakurobotin saapuminen on lisäkuormitus palvelimelle. Jos sivustollasi on paljon liikennettä, resurssi ei ehkä yksinkertaisesti kestä sitä ja laskee. Tämän seurauksena robotti saa virheilmoituksen 5xx. Jos tämä tilanne toistuu jatkuvasti, hakukone saattaa katsoa, että sivusto ei toimi.

Kuvittele, että työskentelet ja samalla sinun on jatkuvasti vastattava puheluihin. Tuottavuutesi laskee sitten.

Sama on palvelimen kanssa.

Palataan direktiiviin. Indeksointiviiveen avulla voit asettaa viiveen sivuston sivujen tarkistuksessa palvelimen kuormituksen vähentämiseksi. Toisin sanoen asetat ajanjakson, jonka jälkeen sivuston sivut latautuvat. Osoitettu tämä parametri sekunneissa, kokonaisluku:

Robots.txt on palvelutiedosto, joka toimii suosituksena hakukoneiden pääsyn rajoittamiseen verkkodokumenttien sisältöön. Tässä artikkelissa tarkastellaan Robots.txt-tiedoston määrittämistä, ohjeiden kuvausta ja sen kääntämistä suosittu CMS.

Tämä robottitiedosto sijaitsee kohteessa juurihakemisto sivustosi ja avaa/muokkaa yksinkertaisella muistilehtiöllä, suosittelen Notepad++:aa. Niille, jotka eivät pidä lukemisesta, on VIDEO, katso artikkelin lopusta 😉

Miksi tarvitsemme robots.txt-tiedoston?

Kuten edellä sanoin, robots.txt-tiedoston avulla voimme rajoittaa hakurobottien pääsyä asiakirjoihin, ts. vaikutamme suoraan sivuston indeksointiin. Useimmiten niitä estetään indeksoimasta:

Palvelutiedostot ja CMS-kansiot
Kopiot
Asiakirjat, joista ei ole käyttäjälle hyötyä
Ei ainutlaatuisia sivuja

Katsotaanpa konkreettista esimerkkiä:

Verkkokauppa, joka myy kenkiä ja joka on toteutettu yhdellä suosituista sisällönhallintajärjestelmistä, eikä parhaalla mahdollisella tavalla. Voin heti kertoa, että hakutuloksissa on hakusivut, sivutus, ostoskori, joitain moottoritiedostoja jne. Kaikki nämä ovat päällekkäisiä ja käyttäjälle hyödyttömiä palvelutiedostoja. Siksi ne tulisi sulkea indeksoinnista, ja jos siellä on vielä "Uutiset" -osio, johon erilaisia mielenkiintoisia artikkeleita kilpailijoiden sivustoilta – sinun ei tarvitse edes ajatella sitä, suljemme sen heti.

Siksi varmistamme, että luomme robots.txt-tiedoston, jotta tuloksiin ei pääse roskaa. Älä unohda, että tiedosto tulee avata osoitteessa http://site.ru/robots.txt.

Robots.txt-ohjeet ja määrityssäännöt

Käyttäjä agentti. Tämä vetoaa tiettyyn hakukonerobottiin tai kaikkiin robotteihin. Jos määrätään tietty nimi robotti, esimerkiksi "YandexMedia", silloin siihen ei käytetä yleisiä käyttäjäagenttiohjeita. Kirjoitusesimerkki:

User-agent: YandexBot Disallow: /cart # on vain Yandexin pääindeksointirobotin käytössä

Estä/Salli. Tämä on kielto/lupa indeksoida tietty asiakirja tai osio. Kirjoitusjärjestyksellä ei ole väliä, mutta jos on 2 käskyä ja sama etuliite, "Salli" on etusijalla. Hakurobotti lukee ne etuliitteen pituuden mukaan pienimmästä suurimpaan. Jos haluat poistaa sivun indeksoinnin käytöstä, kirjoita suhteellinen polku ennen sitä (Disallow: /blog/post-1).

User-agent: Yandex Disallow: / Allow: /articles # Kiellemme sivuston indeksoinnin, paitsi 1 osion artikkeleita

Säännölliset lausekkeet * ja $. Asteriski tarkoittaa mitä tahansa merkkijonoa (myös tyhjät). Dollarimerkki tarkoittaa keskeytystä. Esimerkkejä käytöstä:

Disallow: /page* # kieltää kaikki sivut, rakenteet http://site.ru/page Disallow: /arcticles$ # kieltää vain sivun http://site.ru/articles, sallien sivut http://site.ru/ artikkelit /uusi

Sivustokarttadirektiivi. Jos käytät sitä, robots.txt-tiedostossa se pitäisi ilmaista seuraavasti:

Sivustokartta: http://site.ru/sitemap.xml

Isäntädirektiivi. Kuten tiedät, sivustoilla on peilit (luimme,). Tämä sääntö osoittaa hakubotin resurssi pääpeiliin. Viittaa Yandexiin. Jos sinulla on peili ilman WWW:tä, kirjoita:

Isäntä: site.ru

Indeksoinnin viive. Asettaa viiveen (sekunteina), kun robotti lataa asiakirjojasi. Se kirjoitetaan Disallow/Allow-komentojen jälkeen.

Indeksoinnin viive: 5 # aikakatkaisu 5 sekunnissa

Puhdista-param. Ilmaisee hakubotille, ettei ylimääräisiä kaksoistietoja (istuntotunnisteet, viittajat, käyttäjät) tarvitse ladata. Dynaamisille sivuille tulee määrittää Clean-param:

Clean-param: ref /category/books # osoitamme, että sivumme on tärkein, ja http://site.ru/category/books?ref=yandex.ru&id=1 on sama sivu, mutta parametrein

Pääsääntö: robots.txt tulee kirjoittaa sisään pienet kirjaimet ja makaa sivuston juurella. Esimerkki tiedostorakenteesta:

Käyttäjäagentti: Yandex Disallow: /cart Salli: /cart/images Sivustokartta: http://site.ru/sitemap.xml Isäntä: site.ru Indeksointiviive: 2

Meta robots tag ja miten se kirjoitetaan

Hakukone ottaa paremmin huomioon tämän sivujen kieltämisvaihtoehdon. Googlen järjestelmä. Yandex ottaa molemmat vaihtoehdot yhtä hyvin huomioon.

Siinä on 2 ohjetta: seuraa/nofollow Ja index/noindex. Tämä on linkkien seuraamisen lupa/kielto ja asiakirjojen indeksoinnin lupa/kielto. Ohjeet voidaan kirjoittaa yhdessä, katso alla oleva esimerkki.

Kenelle tahansa erillinen sivu voit kirjoittaa tagiin seurata:

Korjaa robots.txt-tiedostoja suosittua sisällönhallintajärjestelmää varten

Esimerkki Robots.txt WordPressille

Alla näet versioni tästä SEO-blogista.

User-agent: Yandex Disallow: /wp-content/uploads/ Salli: /wp-content/uploads/*/*/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow : /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?. xml

Kiellän jälkiseurannan, koska se kopioi osan artikkelista kommenteissa. Ja jos trackbackeja on paljon, saat joukon identtisiä kommentteja.

Yritän sulkea minkä tahansa sisällönhallintajärjestelmän palvelukansiot ja tiedostot, koska... En halua, että niitä sisällytetään hakemistoon (vaikka hakukoneet eivät ota niitä joka tapauksessa, mutta se ei ole huonompi).

Syötteet tulisi sulkea, koska onko se osittainen vai täydellisiä otteita sivuja.

Suljemme tunnisteet, jos emme käytä niitä tai jos olemme liian laiskoja optimoimaan niitä.

Esimerkkejä muista sisällönhallintajärjestelmistä

Lataa oikeat robotit haluttuun sisällönhallintajärjestelmään napsauttamalla asianmukaista linkkiä.

Vapautimme uusi kirja"Sisältömarkkinointi sisään sosiaalisissa verkostoissa: Kuinka päästä tilaajiesi päähän ja saada heidät rakastumaan brändiisi."

Robots.txt on tekstitiedosto, joka sisältää tietoja hakuroboteille, jotka auttavat indeksoimaan portaalisivuja.

Lisää videoita kanavallamme - opi Internet-markkinointia SEMANTICAlla

Kuvittele, että menit saarelle etsimään aarteita. Sinulla on kartta. Reitti on merkitty siellä: ”Lähesty isoa katoa. Ota sieltä 10 askelta itään ja saavu sitten kalliolle. Käänny oikealle, etsi luola."

Nämä ovat ohjeet. Niitä seuraamalla seuraat reittiä ja löydät aarteen. Hakubotti toimii samalla tavalla, kun se alkaa indeksoida sivustoa tai sivua. Se löytää robots.txt-tiedoston. Se lukee mitkä sivut pitää indeksoida ja mitkä eivät. Ja seuraamalla näitä komentoja se indeksoi portaalin ja lisää sen sivut hakemistoon.

Mihin robots.txt on tarkoitettu?

He alkavat vierailla sivustoilla ja indeksoida sivuja sen jälkeen, kun sivusto on ladattu isännöintiin ja DNS on rekisteröity. He tekevät työnsä riippumatta siitä, onko sinulla sellaista tekniset tiedostot tai ei. Robotit kertovat hakukoneille, että verkkosivustoa indeksoitaessa heidän on otettava huomioon sen sisältämät parametrit.

Robots.txt-tiedoston puuttuminen voi johtaa ongelmiin sivuston indeksointinopeuteen ja roskien esiintymiseen hakemistossa. Virheellinen asetus tiedosto on täynnä resurssin tärkeiden osien poissulkemista hakemistosta ja tarpeettomien sivujen esiintymistä tulosteessa.

Kaikki tämä johtaa ongelmiin edistämisessä.

Katsotaanpa tarkemmin, mitä ohjeita tämä tiedosto sisältää ja miten ne vaikuttavat botin toimintaan sivustollasi.

Kuinka tehdä robots.txt

Tarkista ensin, onko sinulla tämä tiedosto.

Syötä sisään osoitekenttä selainsivuston osoite ja tiedoston nimi erotettuna kauttaviivalla, esimerkiksi https://www.xxxxx.ru/robots.txt

Jos tiedosto on olemassa, näytölle tulee luettelo sen parametreista.

Jos tiedostoa ei ole:

Tiedosto luodaan tavallisella tekstieditorilla, kuten Notepad tai Notepad++.
Sinun on asetettava nimi robotit, laajennus .txt. Syötä tiedot hyväksytyt suunnittelustandardit huomioon ottaen.
Voit tarkistaa virheet käyttämällä palveluita, kuten Yandex Webmaster. Siellä sinun on valittava "Työkalut"-osiossa "Robots.txt-analyysi" ja noudatettava ohjeita.
Kun tiedosto on valmis, lataa se sivuston juurihakemistoon.

Sääntöjen asettaminen

Hakukoneissa on useampi kuin yksi robotti. Jotkut robotit vain indeksoivat tekstin sisältö, jotkut ovat vain graafisia. Ja jopa hakukoneiden keskuudessa indeksointirobottien toimintatapa voi olla erilainen. Tämä on otettava huomioon tiedostoa laadittaessa.

Jotkut heistä saattavat jättää huomiotta joitain sääntöjä, esimerkiksi GoogleBot ei vastaa tietoihin siitä, mitä sivuston peiliä pidetään tärkeimpänä. Mutta yleensä he havaitsevat ja ohjaavat tiedostoa.

Tiedoston syntaksi

Asiakirjan parametrit: robotin (botin) nimi "User-agent", käskyt: sallivat "Allow" ja estävät "Disallow".

Nyt on olemassa kaksi keskeistä hakukonetta: Yandex ja Google, vastaavasti, on tärkeää ottaa huomioon molempien vaatimukset verkkosivustoa luotaessa.

Merkintöjen luontimuoto on seuraava, huomioi tarvittavat välilyönnit ja tyhjät rivit.

User-agent -ohje

Robotti etsii tietueita, jotka alkavat käyttäjäagentilla. Sen tulee sisältää hakurobotin nimi. Jos sitä ei ole määritetty, botin pääsyä pidetään rajoittamattomana.

Disallow- ja Allow-käskyt

Jos sinun on poistettava indeksointi käytöstä robots.txt-tiedostossa, käytä Disallow-toimintoa. Sen avulla botin pääsy sivustolle tai tiettyihin osiin on rajoitettu.

Jos robots.txt-tiedosto ei sisällä estäviä "Disallow"-komentoja, katsotaan, että koko sivuston indeksointi on sallittua. Yleensä kiellot määrätään jokaisen botin jälkeen erikseen.

Kaikki #-merkin jälkeen näkyvät tiedot ovat kommentteja, eivätkä ne ole koneellisesti luettavissa.

Salli-toimintoa käytetään sallimaan pääsy.

Tähtisymboli toimii osoituksena siitä, mikä koskee kaikkia: User-agent: *.

Tämä vaihtoehto päinvastoin tarkoittaa täydellinen kielto indeksointi kaikille.

Estä tietyn hakemistokansion koko sisällön katseleminen

Jos haluat estää yhden tiedoston, sinun on määritettävä sen absoluuttinen polku

Sivustokartta, isäntäohjeet

Yandexille on tapana ilmoittaa, mikä peili haluat määrittää pääpeiliksi. Ja Google, kuten muistamme, jättää sen huomiotta. Jos peilejä ei ole, merkitse vain, onko mielestäsi oikein kirjoittaa verkkosivustosi nimi www-osoitteella vai ilman sitä.

Clean-param -direktiivi

Sitä voidaan käyttää, jos Sivujen URL-osoitteet Web-sivustot sisältävät muutettavia parametreja, jotka eivät vaikuta niiden sisältöön (nämä voivat olla käyttäjätunnuksia, viittauksia).

Esimerkiksi sivuosoitteessa "ref" määrittää liikenteen lähteen, ts. osoittaa, mistä vierailija tuli sivustolle. Sivu on sama kaikille käyttäjille.

Voit osoittaa tämän robotille, eikä se lataa päällekkäisiä tietoja. Tämä vähentää palvelimen kuormitusta.

Indeksoinnin viiveohje

Tämän avulla voit määrittää, kuinka usein robotti lataa sivuja analysoitavaksi. Tätä komentoa käytetään, kun palvelin on ylikuormitettu, ja se osoittaa, että indeksointiprosessia tulisi nopeuttaa.

Robots.txt-virheet

Tiedosto ei ole juurihakemistossa. Robotti ei etsi sitä syvemmältä eikä ota sitä huomioon.
Nimen kirjainten tulee olla pieniä latinalaisia.
Nimessä on virhe, joskus S-kirjain unohtuu lopussa ja kirjoittaa robotti.
Et voi käyttää kyrillisiä merkkejä robots.txt-tiedostossa. Jos sinun on määritettävä verkkotunnus venäjäksi, käytä muotoa erityisessä Punycode-koodauksessa.
Tämä on menetelmä verkkotunnusten muuntamiseksi ASCII-merkkijonoksi. Voit tehdä tämän käyttämällä erityisiä muuntimia.

Tämä koodaus näyttää tältä:
site.rf = xn--80aswg.xn--p1ai

Lisätietoja sulkemisesta robotit txt ja Googlen ja Yandexin hakukoneiden vaatimusten mukaiset asetukset löytyvät ohjeasiakirjoista. varten erilaisia cm Sillä voi myös olla omat ominaisuutensa, tämä on otettava huomioon.

Ne ilmestyvät Internetissä joka päivä valmiita ratkaisuja yhdessä tai toisessa asiassa. Eikö suunnittelijalle ole rahaa? Käytä yhtä tuhansista ilmaiset mallit. Etkö halua palkata SEO-asiantuntijaa? Käytä tunnetun henkilön palveluita ilmainen palvelu, lue pari artikkelia itse.

Pitkään aikaan ei ole tarvetta kirjoittaa samaa robots.txt-tiedostoa itse tyhjästä. Muuten, tämä erityinen tiedosto, joka on saatavilla lähes kaikilla sivustoilla, ja se sisältää ohjeet hakuroboteille. Komentosyntaksi on hyvin yksinkertainen, mutta silti vaikea laatia oma tiedosto aika kuluu. Parempi katsoa toista sivustoa. Tässä on muutama varoitus:

Sivuston on oltava samassa moottorissa kuin sinun. Periaatteessa nykyään Internetissä on paljon palveluita, joista voit selvittää melkein minkä tahansa verkkoresurssin cm:n nimen.

Tämän pitäisi olla enemmän tai vähemmän menestyvä sivusto, jolla on hakuliikenteen kanssa kaikki kunnossa. Tämä viittaa siihen, että robots.txt on kirjoitettu normaalisti.

Joten nähdäksesi tämän tiedoston sinun on kirjoitettava osoitepalkkiin: domain-name.zone/robots.txt

Kaikki on uskomattoman yksinkertaista, eikö? Jos osoitetta ei löydy, se tarkoittaa, että tällaista tiedostoa ei ole sivustolla tai pääsy siihen on estetty. Mutta useimmissa tapauksissa näet tiedoston sisällön edessäsi:

Periaatteessa jopa henkilö, joka ei ole erityisen perehtynyt koodiin, ymmärtää nopeasti, mitä tänne kirjoittaa. Allow-komento sallii jonkin indeksoinnin, kun taas disallow-komento estää sen. User-agent on osoitus hakuroboteista, joille ohjeet on osoitettu. Tämä on tarpeen, kun sinun on määritettävä komennot erilliselle hakukoneelle.

Mitä tehdä seuraavaksi?

Kopioi kaikki ja muuta se sivustollesi. Kuinka vaihtaa? Olen jo sanonut, että sivuston moottoreiden on vastattava, muuten ei ole mitään järkeä muuttaa mitään - sinun on kirjoitettava uudelleen ehdottomasti kaikki.

Joten sinun on käytävä rivit läpi ja määritettävä, mitkä osat näistä ovat sivustossasi ja mitkä eivät. Yllä olevassa kuvakaappauksessa näet esimerkin robots.txt-tiedostosta Wordpress-sivustolle, ja erillisessä hakemistossa on foorumi. Johtopäätös? Jos sinulla ei ole foorumia, kaikki nämä rivit on poistettava, koska tällaisia osioita ja sivuja ei yksinkertaisesti ole sinulle, niin miksi sulkea ne?

Yksinkertaisin robots.txt saattaa näyttää tältä:

User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Salli: /wp-content/uploads/

Käyttäjä agentti: *

Disallow: /wp - järjestelmänvalvoja

Disallow: /wp - sisältää

Disallow: /wp-content

Salli: /wp-content/uploads/

Luultavasti tiedätte kaikki Wordpressin vakiokansiorakenteen, jos olet asentanut tämän moottorin ainakin kerran. Nämä ovat wp-admin, wp-content ja wp-includes kansiot. Yleensä kaikki 3 on suljettu indeksoinnista, koska ne sisältävät puhtaasti teknisiä tiedostoja, jotka ovat välttämättömiä moottorin, lisäosien ja mallien toiminnan kannalta.

Lataushakemisto avautuu, koska se sisältää kuvia, ja ne on yleensä indeksoitu.

Pohjimmiltaan sinun täytyy käydä läpi kopioitu robots.txt-tiedosto ja nähdä, mitä sivustollasi on ja mitä ei. Tietysti sitä on vaikea määrittää itse. Voin vain sanoa, että jos et poista jotain, niin ei hätää, tulee vain ylimääräinen rivi, joka ei haittaa millään tavalla (koska osiota ei ole).

Onko robots.txt-tiedoston määrittäminen niin tärkeää?

Tietenkin sinulla on oltava tämä tiedosto ja ainakin suljettava päähakemistot sen kautta. Mutta onko sen kokoaminen kriittinen? Kuten käytäntö osoittaa, ei. Itse näen sivustoja samoilla koneilla täysin eri robots.txt-tiedostoilla, joita mainostetaan yhtä menestyksekkäästi hakukoneissa.

En väitä, että voit tehdä jonkinlaisen virheen. Esimerkiksi, sulje kuvat tai jätä tarpeeton hakemisto auki, mutta jotain erittäin kauheaa ei tapahdu. Ensinnäkin siksi, että hakukoneet ovat nykyään älykkäämpiä ja voivat jättää huomioimatta osan tiedostosta. Toiseksi robots.txt-tiedoston asettamisesta on kirjoitettu satoja artikkeleita, ja niistä voidaan ymmärtää jotain.

Olen nähnyt tiedostoja, joissa oli 6-7 riviä, jotka estävät muutaman hakemiston indeksoinnin. Näin myös tiedostoja, joissa oli sata tai kaksi riviä koodia, joissa kaikki mahdollinen oli suljettu. Molemmat sivustot etenivät normaalisti.

WordPressillä on niin sanottuja kaksoiskappaleita. Tämä on huono. Monet ihmiset taistelevat tätä vastaan sulkemalla samanlaiset kaksoiskappaleet seuraavasti:

Disallow: /wp-feed Disallow: */trackback Disallow: */feed Disallow: /tag/ Disallow: /archive/

Disallow: /wp-feed

Täällä meidän on taisteltava toisin. Esimerkiksi käyttämällä uudelleenohjauksia tai laajennuksia, jotka tuhoavat kaksoiskappaleet. Tämä on kuitenkin erillisen artikkelin aihe.

Missä robots.txt sijaitsee?

Tämä tiedosto sijaitsee aina sivuston juuressa, joten pääsemme siihen kirjoittamalla sivuston osoitteen ja tiedostonimen vinoviivalla erotettuina. Omasta mielestäni kaikki on niin yksinkertaista kuin mahdollista.

Yleisesti ottaen tarkastelimme tänään kysymystä robots.txt-tiedoston sisällön tarkastelemisesta, kopioimisesta ja muuttamisesta tarpeidesi mukaan. Kirjoitan myös 1-2 muuta artikkelia asetuksista lähitulevaisuudessa, koska emme käsittäneet kaikkea tässä artikkelissa. Muuten, löydät myös paljon tietoa blogisivustoiltamme. Ja sen myötä sanon sinulle hyvästit toistaiseksi.

Olemme julkaisseet uuden kirjan Sosiaalisen median sisältömarkkinointi: Kuinka saada seuraajiesi pään sisälle ja saada heidät rakastumaan brändiisi.

Isäntädirektiivi on komento tai sääntö, joka kertoo hakukoneelle, mitä (www:n kanssa tai ilman) pitää ensisijaisena. Isäntädirektiivi sijaitsee tiedostossa ja on tarkoitettu yksinomaan Yandexille.

Usein on tarvetta hakujärjestelmä ei indeksoinut joitain sivuston sivuja tai sen peilejä. Esimerkiksi resurssi sijaitsee yhdellä palvelimella, mutta Internetissä on identtinen Verkkotunnus, jota käytetään indeksointiin ja tulosten näyttämiseen Hakutulokset.

Yandexin hakurobotit indeksoivat verkkosivustojen sivuja ja lisäävät kerätyt tiedot tietokantaan oman aikataulunsa mukaan. Indeksointiprosessin aikana he päättävät itsenäisesti, mikä sivu on käsiteltävä. Esimerkiksi robotit ohittavat erilaisia foorumeita, ilmoitustauluja, luetteloita ja muita resursseja, joissa indeksointi on merkityksetöntä. He voivat myös määrittää pääsivuston ja peilit. Ensimmäiset ovat indeksoinnin alaisia, jälkimmäiset eivät. Prosessissa tapahtuu usein virheitä. Tähän voidaan vaikuttaa käyttämällä Robots.txt-tiedoston Host-direktiiviä.

Miksi tarvitset Robots.txt-tiedoston?

Robots on tavallinen tekstitiedosto. Se voidaan luoda muistilehtiöllä, mutta on suositeltavaa työskennellä sen kanssa (avaa ja muokkaa tietoja). tekstieditori Muistio++. Välttämättömyys tästä tiedostosta Verkkoresurssien optimoinnin määräävät useat tekijät:

Jos Robots.txt-tiedosto puuttuu, sivusto on jatkuvasti ylikuormitettu hakukoneiden työn vuoksi.
On olemassa riski, että ne indeksoidaan ylimääräisiä sivuja tai peilisivustot.

Indeksointi on paljon hitaampaa ja jos se on väärin asennetut asetukset se voi kadota kokonaan hakutuloksista Googlen tulokset ja Yandex.

Host-direktiivin muotoilu Robots.txt-tiedostossa

Robots-tiedosto sisältää Host-direktiivin - ohjeet hakukoneelle siitä, missä pääsivusto on ja missä sen peilit ovat.

Direktiivissä on seuraavalla lomakkeella oikeinkirjoitus: Isäntä: [valinnainen välilyönti] [arvo] [valinnainen välilyönti]. Ohjeen kirjoittamista koskevat säännöt edellyttävät seuraavien kohtien noudattamista:

Läsnäolo isäntädirektiivissä HTTPS-protokolla tukemaan salausta. Sitä on käytettävä, jos peiliin pääsee käsiksi vain suojatun kanavan kautta.
Verkkotunnuksen nimi, joka ei ole IP-osoite, sekä verkkoresurssin porttinumero.

Oikein laaditun ohjeen avulla verkkovastaava voi osoittaa hakukoneille, missä pääpeili on. Loput katsotaan vähäisiksi, eikä niitä siksi indeksoida. Yleensä peilit voidaan erottaa lyhenteen www olemassaolosta tai puuttumisesta. Jos käyttäjä ei määritä verkkoresurssin pääpeiliä isännän kautta, Yandex-hakukone lähettää vastaavan ilmoituksen verkkovastaavalle. Ilmoitus lähetetään myös, jos Robotit tiedosto Epäjohdonmukainen isäntädirektiivi on määritetty.

Voit määrittää hakukoneen avulla, missä sivuston pääpeili on. On välttämätöntä ajaa sisään hakupalkki resurssin osoite ja katso hakutuloksia: sivusto, jonka osoiterivillä verkkotunnuksen edessä on www, on pääverkkotunnus.

Jos resurssia ei näytetä hakutulossivulla, käyttäjä voi itsenäisesti määrittää sen pääpeiliksi siirtymällä Yandex.Webmasterin asianmukaiseen osioon. Jos verkkovastaava tarvitsee sivuston verkkotunnuksen, joka ei sisällä www-osoitetta, sitä ei tule määrittää isännässä.

Monet verkkovastaavat käyttävät Kyrilliset verkkotunnukset lisäpeileinä sivustoilleen. Isäntädirektiivi ei kuitenkaan tue kyrillistä. Tätä varten on tarpeen kopioida sanat latinaksi sillä ehdolla, että ne voidaan helposti tunnistaa kopioimalla sivuston osoite osoitepalkista.

Isäntä Robots-tiedostossa

Tämän direktiivin päätarkoitus on ratkaista päällekkäisiä sivuja koskevat ongelmat. Hostia on käytettävä, jos verkkoresurssin työ on suunnattu venäjänkieliselle yleisölle, ja vastaavasti sivusto on lajiteltava Yandex-järjestelmässä.

Kaikki hakukoneet eivät tue isäntädirektiiviä. Toiminto on käytettävissä vain Yandex. Lisäksi täälläkään ei ole takeita siitä, että verkkotunnus nimetään pääpeiliksi, mutta itse Yandexin mukaan prioriteetti pysyy aina isännässä määritetyllä nimellä.

Vastaanottaja hakukoneet lukea tiedot oikein robots.txt-tiedostoa käsiteltäessä, on tarpeen rekisteröidä Host-direktiivi sopivaan ryhmään, alkaen sanojen User-Agent jälkeen. Robotit voivat kuitenkin käyttää Hostia riippumatta siitä, onko direktiivi kirjoitettu sääntöjen mukaan vai ei, koska se on risteävä.