Mitä robots txt -tiedostossa pitäisi olla. Esimerkkejä huomiotta jätetyistä isäntäkäskyistä

Robots.txt-tiedosto sijaitsee sivustosi juurikansiossa. Hakurobotille on ilmoitettava, mitkä sivuston sivut voidaan sisällyttää hakemistoon tai ei.

Tämä on tarpeen pääasiassa, jos sivustosi sisältää arkaluontoisia käyttäjätietoja, joita ei pitäisi indeksoida hauissa. Käyttämällä robots.txt-tiedostoa voit helposti lopettaa minkä tahansa sivun indeksoinnin. Tämä tiedosto on tarkoitettu myös toisen ongelman ratkaisemiseen. Loppujen lopuksi WordPress-moottori voi luoda arkistoja, tunnisteita ja luokkia sisältäviä sivuja, joilla sisältöä yleensä toistetaan säännöllisesti. Ja robotilla ei ole mitään tekemistä blogin hallintapaneelissa Hakukone sallii yleensä sivujen kopioimisen, mutta se voi tehdä sen väärin. Tämän tilanteen korjaamiseksi sinun on käytettävä robots.txt-tiedostoa. Loppujen lopuksi sen avulla voit estää päällekkäisten luokkien, arkistojen tai tunnisteiden indeksoinnin.

Jos sivustosi isännöi keskusteluryhmää, tämän tiedoston avulla voit myös poistaa profiilien indeksoinnin käytöstä suojataksesi niitä mahdolliselta roskapostilta. Näin ollen robots.txt voi helposti tarjota sivustolle asianmukaisen hakukoneiden indeksoinnin ja arkaluonteisten tietojen suojaamisen.

Tarkista koko robots.txt-tiedosto yksityiskohtaisesti.

User-agent -rivin tulee sisältää hakurobotin nimi.

Käyttäjä agentti: *

Asteriski osoittaa, että direktiivit voivat koskea mitä tahansa hakutyötä. Ja sinun on otettava yhteyttä Yandexiin henkilökohtaisesti.

Käyttäjäagentti: Yandex

Disallow-direktiivi puolestaan ​​viittaa osioihin ja sivuihin, joita ei tarvitse indeksoida.

Disallow: /cgi-bin Disallow: /wp-admin

Sivustokartan on tarkoitus osoittaa tiedostoon, jossa on sivustokartta.

Sivustokartta: http://blogozar.ru/sitemap.xml

Voit luoda robots.txt-tiedoston käyttämällä erityistä PC Robots.txt -laajennusta, joka on ensin asennettava ja aktivoitava. Vakiotiedosto sijaitsee laajennuksen asetuksissa. Se sisältää suuren määrän direktiivejä, jotka on tarkoitettu erilaisille roboteille. Näin voit estää roskapostirobotteja indeksoimasta sivustoasi, mutta he eivät kiinnitä huomiota robots.txt-tiedoston sisältämiin ohjeisiin. Siksi voit jättää tiedostoon vain ne osat, jotka haluat estää.

Mutta on silti parempi olla väärinkäyttämättä laajennuksia tämän laajennuksen sijaan, on parempi asentaa toinen. Robots.txt-tiedosto. Voit asentaa sen myös manuaalisesti.

Robots.txt luodaan tavallisessa muistiossa. Avaa muistilehtiö, kirjoita tekstiä tai kopioi (alla) Tallenna nimellä.... Kirjoita "tiedostonimi" -riville: robotit muoto .txt lisätään automaattisesti. Lataa sitten tämä tiedosto blogin juurikansioon. Niille, jotka eivät tiedä kuinka luoda oikea robots.txt-tiedosto, voit kopioida robots.txt-tiedostoni.

User-agent: * Indeksoinnin viive: 4 Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content /themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* User-agent: Yandex Crawl-delay: 4 Disallow : /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?.com/sitemap.xml

Muista vain vaihtaa kaksi viimeistä riviä verkkosivusto anna verkkotunnuksesi.

Tiedosto on ilman röyhelöitä tai erikoiskomentoja. Kokonaisstandardi. Pääasia, että se on testattu ja toimii.

Robots.txt-tiedosto— .txt-muotoinen tekstitiedosto, joka rajoittaa hakurobottien pääsyä http-palvelimen sisältöön. Miten määritelmä, Robots.txt- Tämä robottipoikkeusstandardi, jonka W3C hyväksyi 30. tammikuuta 1994 ja jota useimmat hakukoneet käyttävät vapaaehtoisesti. Robots.txt-tiedosto sisältää joukon ohjeita hakuroboteille, jotka estävät tiettyjen sivuston tiedostojen, sivujen tai hakemistojen indeksoinnin. Tarkastellaan robots.txt-tiedoston kuvausta siinä tapauksessa, että sivusto ei rajoita robottien pääsyä sivustoon.

Yksinkertainen esimerkki robots.txt-tiedostosta:

User-agent: * Salli: /

Täällä robotit mahdollistavat täysin koko sivuston indeksoinnin.

Robots.txt-tiedosto on ladattava sivustosi juurihakemistoon niin että se on saatavilla osoitteessa:

Your_site.ru/robots.txt

Robots.txt-tiedoston sijoittaminen sivuston juureen vaatii yleensä FTP-yhteyden. Jotkut hallintajärjestelmät (CMS) mahdollistavat kuitenkin robots.txt-tiedoston luomisen suoraan sivuston ohjauspaneelista tai sisäänrakennetun FTP-hallinnan kautta.

Jos tiedosto on saatavilla, näet robots.txt-tiedoston sisällön selaimessa.

Mihin robots.txt on tarkoitettu?

Sivuston Roots.txt on tärkeä näkökohta. Miksi tarvitset robots.txt-tiedoston?? Esimerkiksi sisään SEO robots.txt tarvitaan sulkemaan pois indeksoinnista sivut, jotka eivät sisällä hyödyllistä sisältöä ja paljon muuta.. Miten, mitä, miksi ja miksi suljetaan pois, on jo kuvattu artikkelissa, emme käsittele sitä täällä. Onko robots.txt-tiedosto välttämätön? kaikille sivustoille? Kyllä ja ei. Jos robots.txt-tiedoston käyttö edellyttää sivujen sulkemista pois hausta, niin pienille sivustoille, joilla on yksinkertainen rakenne ja staattiset sivut, tällaiset poissulkemiset voivat olla tarpeettomia. Jotkut voivat kuitenkin olla hyödyllisiä pienelle sivustolle robots.txt-käskyt, esimerkiksi isäntä- tai sivustokarttadirektiivi, mutta siitä lisää alla.

Robots.txt-tiedoston luominen

Koska robots.txt on tekstitiedosto, ja siihen luo robots.txt-tiedosto, voit käyttää esimerkiksi mitä tahansa tekstieditoria Muistilehtiö. Kun olet avannut uuden tekstidokumentin, olet jo aloittanut robots.txt-tiedoston luomisen. Sinun tarvitsee vain laatia sen sisältö tarpeidesi mukaan ja tallentaa se nimellä tekstitiedosto nimeltä robots txt-muodossa. Kaikki on yksinkertaista, eikä robots.txt-tiedoston luomisen pitäisi aiheuttaa ongelmia edes aloittelijoille. Alla näytän sinulle esimerkkien avulla, miten robots.txt luodaan ja mitä roboteissa kirjoitetaan.

Luo robots.txt verkossa

Vaihtoehto laiskalle - luo robotteja verkossa ja lataa robots.txt-tiedosto jo valmiissa muodossa. Robottien txt:n luominen verkossa tarjoaa monia palveluita, valinta on sinun. Tärkeintä on ymmärtää selvästi, mikä on kiellettyä ja mikä on sallittua, muuten robots.txt-tiedoston luominen verkossa voi muuttua tragediaksi, jota voi olla vaikea korjata myöhemmin. Varsinkin jos haku sisältää jotain, joka olisi pitänyt sulkea. Ole varovainen – tarkista robottitiedostosi ennen kuin lataat sen sivustolle. Vielä mukautettu robots.txt-tiedosto kuvastaa tarkemmin rajoitusten rakennetta kuin automaattisesti luotu ja toiselta sivustolta ladattu. Lue, mihin kiinnitä erityistä huomiota robots.txt-tiedostoa muokattaessa.

Robots.txt-tiedoston muokkaaminen

Kun olet onnistunut luomaan robots.txt-tiedoston verkossa tai omin käsin, voit tehdä sen muokkaa robots.txt-tiedostoa. Voit muuttaa sen sisältöä haluamallasi tavalla, tärkeintä on noudattaa joitain robots.txt-tiedoston sääntöjä ja syntaksia. Sivuston parissa työskennellessä robots-tiedosto voi muuttua, ja jos muokkaat robots.txt-tiedostoa, älä unohda ladata päivitetty, nykyinen versio tiedostosta kaikkine muutoksineen sivustoon. Seuraavaksi tarkastellaan tiedoston määrittämistä koskevia sääntöjä, jotta tiedämme miten robots.txt-tiedostoa muutetaan ja "älä hakkaa puuta".

Asennetaan robots.txt oikein

Asennetaan robots.txt oikein avulla voit välttää yksityisten tietojen pääsyn suurten hakukoneiden hakutuloksiin. Sitä ei kuitenkaan pidä unohtaa robots.txt-komennot eivät ole muuta kuin opasta toimintaan, eivät suojaa. Luotettavien hakukoneiden, kuten Yandexin tai Googlen, robotit noudattavat robots.txt-tiedoston ohjeita, mutta muut robotit voivat helposti jättää ne huomiotta. Robots.txt-tiedoston oikea ymmärtäminen ja soveltaminen on avain tulosten saavuttamiseen.

Ymmärtää kuinka tehdä oikeat robotit txt, sinun on ensin ymmärrettävä robots.txt-tiedoston yleiset säännöt, syntaksi ja ohjeet.

Oikea robots.txt alkaa User-agent-käskyllä, joka osoittaa, mille robottikohtaiset direktiivit on osoitettu.

Esimerkkejä robots.txt-tiedoston User-agentista:

# Ilmaisee käskyt kaikille roboteille samaan aikaan User-agent: * # Ilmaisee käskyt kaikille Yandex-roboteille User-agent: Yandex # Ilmaisee käskyt vain Yandexin pääindeksointirobotille User-agent: YandexBot # Ilmaisee käskyt kaikille Google-roboteille User -agentti: Googlebot

Huomaa, että tällainen robots.txt-tiedoston määrittäminen käskee robottia käyttämään vain direktiivejä, jotka vastaavat user-agentin nimeä.

Esimerkki robots.txt-tiedostosta, jossa on useita User-agentin esiintymiä:

# Käyttävät kaikki Yandex-robotit User-agent: Yandex Disallow: /*utm_ # Käyttävät kaikki Google-robotit User-agent: Googlebot Disallow: /*utm_ # Käyttävät kaikki robotit paitsi Yandex-robotit ja Google-käyttäjä- agentti: * Salli: / *utm_

User-agent -ohje luo vain käskyn tietylle robotille, ja heti User-agent -käskyn jälkeen pitäisi olla komento tai komennot, jotka osoittavat suoraan valitun robotin tilan. Yllä oleva esimerkki käyttää Disallow-direktiiviä, jonka arvo on "/*utm_". Näin ollen suljemme kaiken. Oikein asetettu robots.txt estää tyhjien rivinvaihtojen olemassaolon "User-agent"-, "Disallow"-käskyjen ja "Disallow"-komentojen välillä nykyisessä "User-agentissa".

Esimerkki virheellisestä rivinsiirrosta robots.txt-tiedostossa:

Esimerkki oikeasta rivinsiirrosta robots.txt:ssä:

User-agent: Yandex Disallow: /*utm_ Allow: /*id= User-agent: * Disallow: /*utm_ Allow: /*id=

Kuten esimerkistä näkyy, robots.txt-tiedoston ohjeet tulevat lohkoina, joista jokainen sisältää ohjeet joko tietylle robotille tai kaikille roboteille "*".

On myös tärkeää säilyttää oikea järjestys ja komentojen lajittelu robots.txt-tiedostossa käytettäessä käskyjä, kuten "Disallow" ja "Allow" yhdessä. "Allow"-käsky on salliva käsky, ja se on robots.txt-tiedoston "Disallow"-komennon vastakohta, kieltävä käsky.

Esimerkki ohjeiden käyttämisestä yhdessä robots.txt:ssä:

User-agent: * Salli: /blog/page Disallow: /blog

Tämä esimerkki estää kaikkia robotteja indeksoimasta kaikkia "/blogilla" alkavia sivuja, mutta sallii kaikkien "/blog/page" -alkuisten sivujen indeksoinnin.

Edellinen esimerkki robots.txt-tiedostosta oikeassa lajittelussa:

User-agent: * Disallow: /blog Salli: /blogi/sivu

Ensin kielletään koko osio, sitten sallitaan jotkin osat siitä.

Toinen oikea robots.txt-esimerkki yhteisillä ohjeilla:

User-agent: * Salli: / Disallow: /blogi Salli: /blogi/sivu

Kiinnitä huomiota oikeaan ohjejärjestykseen tässä robots.txt-tiedostossa.

"Allow"- ja "Disallow"-käskyt voidaan määrittää ilman parametreja, jolloin arvo tulkitaan käänteisesti "/"-parametriin nähden.

Esimerkki "Disallow/Allow" -käskystä ilman parametreja:

User-agent: * Disallow: # vastaa Salli: / Disallow: /blog Salli: /blogi/sivu

Oikean robots.txt-tiedoston luominen ja miten käytät direktiivien tulkintaa, on sinun valintasi. Molemmat vaihtoehdot ovat oikein. Pääasia, ettei sekaannu.

Robots.txt-tiedoston muodostaminen oikein edellyttää, että ohjeiden parametreissa on ilmoitettava tarkasti prioriteetit ja se, mikä on kiellettyä robottien lataamisessa. Tarkastelemme "Disallow"- ja "Allow"-käskyjen käyttöä tarkemmin alla, mutta nyt tarkastelemme robots.txt-tiedoston syntaksia. Robots.txt-tiedoston syntaksin tunteminen vie sinut lähemmäksi Luo täydellinen robotit txt omin käsin.

Robots.txt-syntaksi

Hakukonerobotit noudattavat vapaaehtoisesti robots.txt-komentoja- standardi robottipoikkeuksille, mutta kaikki hakukoneet eivät käsittele robots.txt-syntaksia samalla tavalla. Robots.txt-tiedostolla on tiukasti määritelty syntaksi, mutta samaan aikaan kirjoittaa robotit txt ei ole vaikeaa, koska sen rakenne on hyvin yksinkertainen ja helppo ymmärtää.

Tässä on erityinen luettelo yksinkertaisista säännöistä, joita noudattamalla poistat yleisiä robots.txt-virheitä:

  1. Jokainen ohje alkaa uudelta riviltä;
  2. Älä määritä useampaa kuin yhtä direktiiviä yhdelle riville;
  3. Älä laita välilyöntiä rivin alkuun.
  4. Direktiiviparametrin on oltava yhdellä rivillä;
  5. Ei ole tarvetta laittaa direktiiviparametreja lainausmerkkeihin;
  6. Direktiivin parametrit eivät vaadi puolipisteitä lopussa;
  7. Komento robots.txt-tiedostossa on määritetty muodossa - [Directive_name]:[valinnainen välilyönti][arvo][valinnainen välilyönti];
  8. Kommentit ovat sallittuja robots.txt-tiedostossa hash-merkin # jälkeen;
  9. Tyhjä rivinvaihto voidaan tulkita User-agent -direktiivin lopuksi;
  10. "Disallow:"-direktiivi (tyhjällä arvolla) vastaa "Allow: /" - salli kaikki;
  11. "Allow"- ja "Disallow"-käskyt määrittävät enintään yhden parametrin;
  12. Robots.txt-tiedoston nimi ei salli isojen kirjainten käyttöä, tiedostonimen kirjoitusvirhe on Robots.txt tai ROBOTS.TXT;
  13. Direktiivien ja parametrien nimien kirjoittamista isoilla kirjaimilla pidetään huonona muodossa, ja vaikka robots.txt ei standardin mukaan eroaisi isot ja pienet kirjaimet, tiedostojen ja hakemistojen nimet ovat usein isoja ja pieniä kirjaimia herkkiä;
  14. Jos ohjeparametri on hakemisto, hakemiston nimeä edeltää aina vinoviiva "/", esimerkiksi: Disallow: /category
  15. Liian suuria robots.txt-tiedostoja (yli 32 kt) pidetään täysin sallittuna, mikä vastaa "Disallow:"
  16. Robots.txt-tiedosto, johon ei pääse jostain syystä, voidaan tulkita täysin sallivaksi;
  17. Jos robots.txt on tyhjä, sitä käsitellään täysin sallivana.
  18. Useiden "User-agent"-komentojen luetteloimisen seurauksena ilman tyhjää rivinsyöttöä kaikki myöhemmät "User-agent"-käskyt ensimmäistä lukuun ottamatta voidaan jättää huomiotta.
  19. Kansallisten aakkosten merkkien käyttö robots.txt-tiedostossa ei ole sallittua.

Koska eri hakukoneet voivat tulkita robots.txt-tiedoston syntaksia eri tavalla, jotkin lausekkeet voidaan jättää pois. Jos esimerkiksi syötät useita "User-agent" -komentoja ilman tyhjää rivinvaihtoa, Yandex hyväksyy kaikki "User-agent" -käskyt oikein, koska Yandex valitsee tietueet sen perusteella, ovatko ne "User-agent"-rivillä.

Robottien tulee tiukasti ilmoittaa vain se, mitä tarvitaan, eikä mitään ylimääräistä. Älä ajattele kuinka kirjoittaa kaikki robots txt:ssä, mikä on mahdollista ja miten se täytetään. Ihanteelliset robotit txt on se, jossa on vähemmän rivejä, mutta enemmän merkitystä. "Lyhyys on viisauden sielu". Tämä ilmaisu on hyödyllinen täällä.

Kuinka tarkistaa robots.txt

Jotta tarkista robots.txt Voit tarkistaa tiedoston syntaksin ja rakenteen oikeellisuuden käyttämällä jotakin online-palvelusta. Esimerkiksi Yandex ja Google tarjoavat verkkovastaaville omia palveluitaan, jotka sisältävät robots.txt-analyysi:

Robots.txt-tiedoston tarkistaminen Yandex.Webmasterissa: http://webmaster.yandex.ru/robots.xml

Jotta tarkista robots.txt verkossa tarpeellista lataa robots.txt sivustolle juurihakemistossa. Muussa tapauksessa palvelu voi ilmoittaa asiasta robots.txt-tiedoston lataaminen epäonnistui. On suositeltavaa tarkistaa ensin robots.txt-tiedoston saatavuus osoitteesta, jossa tiedosto sijaitsee, esimerkiksi: your_site.ru/robots.txt.

Yandexin ja Googlen vahvistuspalvelujen lisäksi verkossa on monia muita robots.txt-tarkistusohjelmat.

Robots.txt vs. Yandex ja Google

On olemassa subjektiivinen mielipide, jonka mukaan Yandex näkee robots.txt-tiedoston erillisen komentolohkon "User-agent: Yandex" positiivisemmin kuin yleisen komentolohkon, jossa on "User-agent: *". Tilanne on samanlainen robots.txt:n ja Googlen kanssa. Erillisten ohjeiden määrittäminen Yandexille ja Googlelle antaa sinun hallita sivuston indeksointia robots.txt-tiedoston kautta. Ehkä he ovat henkilökohtaisesti imarreltuja vetoomuksesta, varsinkin kun useimmilla sivustoilla Yandexin, Googlen ja muiden hakukoneiden robots.txt-lohkojen sisältö on sama. Harvinaisia ​​poikkeuksia lukuun ottamatta kaikilla "User-agent"-lohkoilla on standardi robots.txt-tiedostolle joukko direktiivejä. Voit myös asentaa käyttämällä erilaisia ​​"User-agentteja". indeksoinnin kielto robots.txt-tiedostossa Yandexille, mutta ei esimerkiksi Googlelle.

Erikseen on syytä huomata, että Yandex ottaa huomioon niin tärkeän direktiivin kuin "isäntä", ja oikean Yandexin robots.txt-tiedoston tulisi sisältää tämä direktiivi osoittamaan sivuston pääpeilin. Tarkastelemme "isäntä"-direktiiviä yksityiskohtaisemmin alla.

Poista indeksointi käytöstä: robots.txt Disallow

Disallow - kieltävä ohje, jota käytetään useimmiten robots.txt-tiedostossa. Disallow estää sivuston tai sen osan indeksoinnin Disallow-direktiivin parametrissa määritetyn polun mukaan.

Esimerkki sivuston indeksoinnin estämisestä robots.txt-tiedostossa:

User-agent: * Disallow: /

Tämä esimerkki estää koko sivustoa indeksoimasta kaikkia robotteja.

Disallow-direktiivin parametri sallii erikoismerkkien * ja $ käytön:

* - mikä tahansa määrä merkkejä, esimerkiksi /page*-parametri täyttää /page, /page1, /page-be-cool, /page/kak-skazat jne. Jokaisen parametrin lopussa ei kuitenkaan tarvitse määrittää *-merkkiä, koska esimerkiksi seuraavat direktiivit tulkitaan samoin:

User-agent: Yandex Disallow: /page User-agent: Yandex Disallow: /sivu*

$ - osoittaa poikkeuksen tarkan vastaavuuden parametrin arvoon:

User-agent: Googlebot Disallow: /page$

Tässä tapauksessa Disallow-käsky estää /sivun, mutta ei estä sivun /page1, /page-be-cool tai /page/kak-skazat indeksointia.

Jos sulje sivuston indeksointi robots.txt, hakukoneet voivat vastata tähän siirtoon virheellä "Estetty robots.txt-tiedostossa" tai "URL-osoite on rajoittunut robots.txt-tiedostossa" (robots.txt-tiedoston kieltämä URL-osoite). Jos tarvitset poista sivun indeksointi käytöstä, voit käyttää robots txt:n lisäksi myös vastaavia html-tageja:

  • - älä indeksoi sivun sisältöä;
  • - älä seuraa sivulla olevia linkkejä;
  • - on kiellettyä indeksoida sisältöä ja seurata sivulla olevia linkkejä;
  • - samanlainen kuin content="none".

Salli indeksointi: robots.txt Salli

Salli - salliva ohje ja Disallow-direktiivin vastakohta. Tällä direktiivillä on samanlainen syntaksi kuin Disallow.

Esimerkki sivuston indeksoinnin kieltämisestä paitsi joidenkin robots.txt-tiedoston sivujen osalta:

User-agent: * Disallow: /Allow: /sivu

Koko sivuston indeksointi on kielletty, paitsi sivut, jotka alkavat /page.

Disallow ja Allow tyhjällä parametriarvolla

Tyhjä Disallow-ohje:

User-agent: * Disallow:

Älä kiellä mitään tai salli koko sivuston indeksointia ja vastaa seuraavaa:

User-agent: * Salli: /

Tyhjä Salli-ohje:

User-agent: * Salli:

Mitään salliminen tai sivuston indeksoinnin kieltäminen kokonaan vastaa:

User-agent: * Disallow: /

Pääsivuston peili: robots.txt-isäntä

Host-direktiiviä käytetään osoittamaan Yandex-robotille sivustosi pääpeili. Kaikista suosituista hakukoneista direktiivi Vain Yandex-robotit tunnistavat isännän. Isäntädirektiivi on hyödyllinen, jos sivustollesi pääsee useiden kanavien kautta, esimerkiksi:

Omasivusto.ru mysite.com

Tai määrittää prioriteetin välillä:

Omasivusto.ru www.omasivusto.ru

Voit kertoa Yandex-robotille, mikä peili on tärkein. Isäntädirektiivi ilmoitetaan "User-agent: Yandex" -komentolohkossa, ja parametrina ilmoitetaan ensisijaisen sivuston osoite ilman "http://"-merkkiä.

Esimerkki robots.txt-tiedostosta, joka ilmaisee pääpeilin:

Käyttäjäagentti: Yandex Disallow: /sivu Isäntä: mysite.ru

Verkkotunnus mysite.ru ilman www-osoitetta on merkitty pääpeiliksi. Näin ollen tämäntyyppinen osoite ilmoitetaan hakutuloksissa.

User-agent: Yandex Disallow: /sivu Isäntä: www.omasivusto.ru

Verkkotunnus www.mysite.ru on merkitty pääpeiliksi.

Isäntädirektiivi robots.txt-tiedostossa voidaan käyttää vain kerran, mutta jos Host-direktiivi on määritetty useammin kuin kerran, vain ensimmäinen huomioidaan, muut Host-direktiivit ohitetaan.

Jos haluat määrittää Googlebotin pääpeilin, käytä Google Webmaster Tools -palvelua.

Sivustokartta: robots.txt-sivustokartta

Sitemap-direktiivin avulla voit määrittää sijainnin sivustolla robots.txt-tiedostossa.

Esimerkki robots.txt-tiedostosta, joka ilmaisee sivustokartan osoitteen:

User-agent: * Disallow: /sivu Sivukartta: http://www.mysite.ru/sitemap.xml

Sivukartan osoitteen määrittäminen kautta Sivustokarttaohje robots.txt-tiedostossa antaa hakurobotille mahdollisuuden selvittää sivustokartan olemassaolo ja aloittaa sen indeksoinnin.

Clean-param -direktiivi

Clean-param -direktiivin avulla voit sulkea sivut, joilla on dynaamiset parametrit, indeksoinnin ulkopuolelle. Samankaltaiset sivut voivat tarjota samaa sisältöä, mutta niillä on eri sivujen URL-osoitteet. Yksinkertaisesti sanottuna sivu on ikään kuin saatavilla eri osoitteista. Tehtävämme on poistaa kaikki tarpeettomat dynaamiset osoitteet, joita voi olla miljoona. Tätä varten suljemme pois kaikki dynaamiset parametrit, käyttämällä robots.txt-tiedoston Clean-param-direktiiviä.

Clean-param -direktiivin syntaksi on:

Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Polku]

Katsotaanpa esimerkkiä sivusta, jolla on seuraava URL-osoite:

www.omasivusto.ru/sivu.html?&parm1=1&parm2=2&parm3=3

Esimerkki robots.txt Clean-param:

Clean-param: parm1&parm2&parm3 /sivu.html # vain sivu.html:lle

Clean-param: parm1&parm2&parm3 / # kaikille

Indeksoinnin viiveohje

Tämän ohjeen avulla voit vähentää palvelimen kuormitusta, jos robotit vierailevat sivustollasi liian usein. Tämä direktiivi koskee pääasiassa sivustoja, joilla on suuri määrä sivuja.

Esimerkki robots.txt Indeksointiviive:

User-agent: Yandex Disallow: /sivu Indeksoinnin viive: 3

Tässä tapauksessa "pyydämme" Yandex-robotteja lataamaan sivustomme sivuja enintään kerran kolmessa sekunnissa. Jotkut hakukoneet tukevat murtolukumuotoa parametrina Indeksoinnin viiveen robots.txt-ohjeet.

Hei kaikki! Tänään haluaisin kertoa teille robots.txt-tiedosto. Kyllä, siitä on kirjoitettu paljon Internetissä, mutta rehellisesti sanottuna en pitkään aikaan voinut itse ymmärtää kuinka luoda oikea robots.txt. Päädyin tekemään sellaisen ja se on kaikissa blogeissani. En huomaa mitään ongelmia, robots.txt toimii hyvin.

Robots.txt WordPressille

Miksi itse asiassa tarvitset robots.txt-tiedoston? Vastaus on edelleen sama - . Toisin sanoen robots.txt-tiedoston kääntäminen on yksi sivuston hakukoneoptimoinnin osista (muuten, pian on luvassa oppitunti, joka on omistettu koko sivuston sisäiselle optimoinnille WordPressissä. Siksi älä tee unohda tilata RSS, jotta et menetä mielenkiintoista materiaalia.).

Yksi tämän tiedoston tehtävistä on indeksointikielto tarpeettomat verkkosivut. Se myös asettaa osoitteen ja kertoo pääasia sivuston peili(sivusto www-sivulla tai ilman).

Huomautus: hakukoneille sama sivusto, jossa on www ja ilman www, ovat täysin erilaisia ​​​​sivustoja. Mutta ymmärtäessään, että näiden sivustojen sisältö on sama, hakukoneet "liimaavat" ne yhteen. Siksi on tärkeää rekisteröidä sivuston pääpeili robots.txt-tiedostoon. Saadaksesi selville, mikä on tärkein (www:llä vai ilman www-sivua), kirjoita selaimeen sivustosi osoite, esimerkiksi www:llä, jos sinut ohjataan automaattisesti samalle sivustolle ilman www:tä, niin pääpeili sivustosi on ilman www. Toivottavasti selitin sen oikein.

Oli:

Nyt (sivustolle siirtymisen jälkeen www poistettiin automaattisesti ja sivustosta tuli ilman www):

Joten tämä arvokas, mielestäni, korjaa robots.txt WordPressille Näet alla.

WordPressille oikein

Käyttäjä agentti: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes

Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag

Käyttäjäagentti: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Isäntä: verkkosivusto
Sivustokartta: https://site/sitemap.xml.gz
Sivustokartta: https://site/sitemap.xml

Sinun on kopioitava kaikki yllä oleva tekstidokumenttiin .txt-tunnisteella, eli niin, että tiedostonimi on robots.txt. Voit luoda tämän tekstidokumentin esimerkiksi ohjelman avulla. Älä vain unohda, kiitos muuta kolme viimeistä riviä osoite verkkosivustosi osoitteeseen. Robots.txt-tiedoston tulee sijaita blogin juuressa, eli samassa kansiossa, jossa wp-content, wp-admin jne. kansiot sijaitsevat.

Niille, jotka ovat liian laiskoja luomaan tätä tekstitiedostoa, voit myös korjata 3 riviä siellä.

Haluaisin huomauttaa, että sinun ei tarvitse ylikuormittaa itseäsi teknisillä osilla, joista keskustellaan alla. Tuon heille "tietoa", niin sanotusti yleistä näkemystä, jotta he tietävät mitä tarvitaan ja miksi.

Eli rivi:

Käyttäjä agentti

asettaa sääntöjä joillekin hakukoneille: esimerkiksi "*" (tähti) osoittaa, että säännöt koskevat kaikkia hakukoneita, ja mitä alla

Käyttäjäagentti: Yandex

tarkoittaa, että nämä säännöt koskevat vain Yandex.

Estä
Täällä voit "heittää" osiot, joita hakukoneiden EI tarvitse indeksoida. Esimerkiksi sivulla minulla on päällekkäisiä artikkeleita (toistoa) tavallisten artikkeleiden kanssa, ja sivujen päällekkäisyydellä on negatiivinen vaikutus hakukoneiden edistämiseen, joten on erittäin toivottavaa, että nämä sektorit on suljettava indeksoinnista, mikä on mitä teemme tällä säännöllä:

Disallow: /tag

Joten yllä annetussa robots.txt-tiedostossa lähes kaikki WordPress-sivuston tarpeettomat osat on suljettu indeksoinnista, eli kaikki jätetään ennalleen.

Isäntä

Tässä asetimme sivuston pääpeilin, josta puhuin juuri edellä.

Sivustokartta

Kahdella viimeisellä rivillä määritämme osoitteet enintään kahdelle sivustokartalle, jotka on luotu käyttämällä .

Mahdolliset ongelmat

Siirry osioon Indeksointiasetukset –> Robots.txt-analyysi:

Napsauta jo siellä "Lataa robots.txt sivustolta" -painiketta ja napsauta sitten "Tarkista" -painiketta:

Jos näet seuraavan viestin, se tarkoittaa, että sinulla on oikea robots.txt-tiedosto Yandexille:

Voit myös lisätä minkä tahansa sivuston artikkelin osoitteen "URL-osoitteiden luetteloon" tarkistaaksesi, estääkö robots.txt tämän sivun indeksoinnin:

Kuten näet, emme näe mitään kieltoa sivun indeksoinnissa robots.txt-tiedostosta, mikä tarkoittaa, että kaikki on kunnossa :).

Toivottavasti sinulla ei ole enää kysymyksiä, kuten robots.txt-tiedoston luominen tai tämän tiedoston korjaaminen. Tällä oppitunnilla yritin näyttää sinulle oikean esimerkki robots.txt:

Nähdään pian!

P.s. Aivan äskettäin, mitä mielenkiintoista tapahtui? 🙂

Olemme julkaisseet uuden kirjan Sosiaalisen median sisältömarkkinointi: Kuinka saada seuraajiesi pään sisälle ja saada heidät rakastumaan brändiisi.

Robots.txt on tekstitiedosto, joka sisältää tietoja hakuroboteille, jotka auttavat indeksoimaan portaalisivuja.


Lisää videoita kanavallamme - opi Internet-markkinointia SEMANTICAlla

Kuvittele, että menit saarelle etsimään aarteita. Sinulla on kartta. Reitti on merkitty siellä: ”Lähesty isoa katoa. Ota sieltä 10 askelta itään ja saavu sitten kalliolle. Käänny oikealle, etsi luola."

Nämä ovat ohjeet. Niitä seuraamalla seuraat reittiä ja löydät aarteen. Hakubotti toimii samalla tavalla, kun se alkaa indeksoida sivustoa tai sivua. Se löytää robots.txt-tiedoston. Se lukee mitkä sivut pitää indeksoida ja mitkä eivät. Ja seuraamalla näitä komentoja se indeksoi portaalin ja lisää sen sivut hakemistoon.

Mihin robots.txt on tarkoitettu?

He alkavat vierailla sivustoilla ja indeksoida sivuja sen jälkeen, kun sivusto on ladattu isännöintiin ja DNS on rekisteröity. He tekevät työnsä riippumatta siitä, onko sinulla teknisiä tiedostoja tai ei. Robotit kertovat hakukoneille, että verkkosivustoa indeksoitaessa heidän on otettava huomioon sen sisältämät parametrit.

Robots.txt-tiedoston puuttuminen voi johtaa ongelmiin sivuston indeksointinopeuteen ja roskien esiintymiseen hakemistossa. Tiedoston virheellinen määritys voi johtaa resurssin tärkeiden osien poissulkemiseen hakemistosta ja tarpeettomien sivujen esiintymiseen tulosteessa.

Kaikki tämä johtaa ongelmiin edistämisessä.

Katsotaanpa tarkemmin, mitä ohjeita tämä tiedosto sisältää ja miten ne vaikuttavat botin toimintaan sivustollasi.

Kuinka tehdä robots.txt

Tarkista ensin, onko sinulla tämä tiedosto.

Kirjoita sivuston osoite selaimen osoiteriville ja sen jälkeen vinoviiva tiedoston nimeen, esimerkiksi https://www.xxxxx.ru/robots.txt

Jos tiedosto on olemassa, näytölle tulee luettelo sen parametreista.

Jos tiedostoa ei ole:

  1. Tiedosto luodaan tavallisella tekstieditorilla, kuten Notepad tai Notepad++.
  2. Sinun on asetettava nimi robotit, laajennus .txt. Syötä tiedot hyväksytyt suunnittelustandardit huomioon ottaen.
  3. Voit tarkistaa virheet käyttämällä palveluita, kuten Yandex Webmaster. Siellä sinun on valittava "Työkalut"-osiossa "Robots.txt-analyysi" ja noudatettava ohjeita.
  4. Kun tiedosto on valmis, lataa se sivuston juurihakemistoon.

Sääntöjen asettaminen

Hakukoneissa on useampi kuin yksi robotti. Jotkut robotit indeksoivat vain tekstisisältöä, jotkut vain graafista sisältöä. Ja jopa hakukoneiden keskuudessa indeksointirobottien toimintatapa voi olla erilainen. Tämä on otettava huomioon tiedostoa laadittaessa.

Jotkut heistä voivat jättää huomiotta joitain sääntöjä, esimerkiksi GoogleBot ei vastaa tietoihin siitä, mitä sivuston peiliä pidetään tärkeimpänä. Mutta yleensä he havaitsevat ja ohjaavat tiedostoa.

Tiedoston syntaksi

Asiakirjan parametrit: robotin (botin) nimi "User-agent", käskyt: sallivat "Allow" ja estävät "Disallow".

Nyt on olemassa kaksi keskeistä hakukonetta: Yandex ja Google, vastaavasti, on tärkeää ottaa huomioon molempien vaatimukset verkkosivustoa luotaessa.

Merkintöjen luontimuoto on seuraava, huomioi tarvittavat välilyönnit ja tyhjät rivit.

User-agent -ohje

Robotti etsii tietueita, jotka alkavat käyttäjäagentilla. Sen tulee sisältää hakurobotin nimi. Jos sitä ei ole määritetty, botin pääsyä pidetään rajoittamattomana.

Disallow- ja Allow-käskyt

Jos sinun on poistettava indeksointi käytöstä robots.txt-tiedostossa, valitse Disallow. Sen avulla botin pääsy sivustolle tai tiettyihin osiin on rajoitettu.

Jos robots.txt-tiedosto ei sisällä estäviä "Disallow"-komentoja, katsotaan, että koko sivuston indeksointi on sallittua. Yleensä kiellot määrätään jokaisen botin jälkeen erikseen.

Kaikki #-merkin jälkeen näkyvät tiedot ovat kommentteja, eivätkä ne ole koneellisesti luettavissa.

Salli-toimintoa käytetään sallimaan pääsy.

Tähtisymboli toimii osoituksena siitä, mikä koskee kaikkia: User-agent: *.

Tämä vaihtoehto päinvastoin tarkoittaa täydellistä indeksointikieltoa kaikille.

Estä tietyn hakemistokansion koko sisällön katseleminen

Jos haluat estää yhden tiedoston, sinun on määritettävä sen absoluuttinen polku


Sivustokartta, isäntäohjeet

Yandexille on tapana ilmoittaa, mikä peili haluat määrittää pääpeiliksi. Ja Google, kuten muistamme, jättää sen huomiotta. Jos peilejä ei ole, merkitse vain, onko mielestäsi oikein kirjoittaa verkkosivustosi nimi www-osoitteella vai ilman sitä.

Clean-param -direktiivi

Sitä voidaan käyttää, jos verkkosivujen URL-osoitteet sisältävät muuttuvia parametreja, jotka eivät vaikuta niiden sisältöön (nämä voivat olla käyttäjätunnuksia, viittauksia).

Esimerkiksi sivuosoitteessa "ref" määrittää liikenteen lähteen, ts. osoittaa, mistä vierailija tuli sivustolle. Sivu on sama kaikille käyttäjille.

Voit osoittaa tämän robotille, eikä se lataa päällekkäisiä tietoja. Tämä vähentää palvelimen kuormitusta.

Indeksoinnin viiveohje

Tämän avulla voit määrittää, kuinka usein robotti lataa sivuja analysoitavaksi. Tätä komentoa käytetään, kun palvelin on ylikuormitettu, ja se osoittaa, että indeksointiprosessia tulisi nopeuttaa.

Robots.txt-virheet

  1. Tiedosto ei ole juurihakemistossa. Robotti ei etsi sitä syvemmältä eikä ota sitä huomioon.
  2. Nimen kirjainten tulee olla pieniä latinalaisia.
    Nimessä on virhe, joskus S-kirjain unohtuu lopussa ja kirjoittaa robotti.
  3. Et voi käyttää kyrillisiä merkkejä robots.txt-tiedostossa. Jos sinun on määritettävä verkkotunnus venäjäksi, käytä muotoa erityisessä Punycode-koodauksessa.
  4. Tämä on menetelmä verkkotunnusten muuntamiseksi ASCII-merkkijonoksi. Voit tehdä tämän käyttämällä erityisiä muuntimia.

Tämä koodaus näyttää tältä:
site.rf = xn--80aswg.xn--p1ai

Lisätietoa robots txt:n sulkemisesta ja Googlen ja Yandexin hakukoneiden vaatimusten mukaisista asetuksista löytyy ohjedokumenteista. Eri cm:illä voi myös olla omat ominaisuutensa, tämä kannattaa ottaa huomioon.

Hei ystävät! Artikkelissa kerrotaan, mikä on oikea robots txt sivustolle, jossa se sijaitsee, miten robots-tiedosto luodaan, miten robots-tiedosto mukautetaan toiselta sivustolta ja miten se ladataan blogiisi.

Mikä on tiedostorobotit txt,miksi sitä tarvitaan ja mistä se vastaa

Robots txt -tiedosto on tekstitiedosto, joka sisältää ohjeet hakuroboteille. Ennen kuin robotti siirtyy blogisi sivuille, se etsii ensin robots-tiedoston, minkä vuoksi se on niin tärkeä. Robots txt -tiedosto on standardi, joka estää robotteja indeksoimasta tiettyjä sivuja. Robots txt -tiedosto määrittää, julkaistaanko luottamukselliset tietosi. Sivuston oikea robots txt auttaa sen edistämisessä, koska se on tärkeä työkalu sivustosi ja hakurobottien välisessä vuorovaikutuksessa.

Ei ole turhaa, että robots txt -tiedostoa kutsutaan tärkeimmäksi SEO-työkaluksi. Tämä pieni tiedosto vaikuttaa suoraan sivuston sivujen indeksointiin ja koko sivustoon. Kääntäen, virheellinen robots-txt voi sulkea joitakin sivuja, osioita tai koko sivuston pois hakutuloksista. Tässä tapauksessa blogissasi voi olla 1000 artikkelia, mutta sivustolla ei yksinkertaisesti ole vierailijoita, siellä on puhtaasti satunnaisia ​​ohikulkijoita.

Yandex webmasterilla on koulutusvideo, jossa Yandex vertaa robots txt -tiedostoa henkilökohtaisten tavaroidesi laatikkoon, jota et halua näyttää kenellekään. Jotta vieraat eivät katsoisi tähän laatikkoon, sulje se teipillä ja kirjoita siihen "Älä avaa".

Robotit hyvätapaisina yksilöinä eivät avaa tätä laatikkoa eivätkä pysty kertomaan muille, mitä siellä on. Jos robots txt -tiedostoa ei ole, niin hakukonerobotti uskoo, että kaikki tiedostot ovat saatavilla, se avaa laatikon, katsoo kaiken ja kertoo muille mitä laatikossa on. Estäksesi robottia kiipeämästä tähän laatikkoon, sinun on kiellettävä sitä kiipeämästä siihen käyttämällä Disallow-direktiiviä, joka käännetään englannista kieltää ja sallia.

Tämä on tavallinen txt-tiedosto, joka on käännetty tavalliseen muistilehtiöön tai NotePad++ -ohjelmaan, tiedosto, joka ehdottaa, että robotit eivät indeksoi tiettyjä sivuston sivuja. Mitä varten se on:

  • oikein laadittu robots txt -tiedosto ei salli robottien indeksoida mitään roskaa eikä tukkia hakutuloksia tarpeettomalla materiaalilla, eikä myöskään luo päällekkäisiä sivuja, mikä on erittäin haitallinen ilmiö;
  • ei salli robottien indeksoida tietoja, joita tarvitaan viralliseen käyttöön;
  • estää vakoojarobotteja varastamasta luottamuksellisia tietoja ja käyttämästä niitä roskapostin lähettämiseen.

Tämä ei tarkoita, että haluamme piilottaa jotain hakukoneilta, jotain salaista, se on vain sitä, että tällä tiedolla ei ole arvoa hakukoneille tai vierailijoille. Esimerkiksi kirjautumissivu, RSS-syötteet jne. Lisäksi robots txt -tiedosto määrittää sivuston peilin sekä sivustokartan. Oletusarvoisesti WordPressille rakennetulla verkkosivustolla ei ole robots txt -tiedostoa. Siksi sinun on luotava robots txt -tiedosto ja ladattava se blogisi juurikansioon. Tässä artikkelissa tarkastellaan WordPressin robots txt -tiedostoa, sen luomista, säätämistä ja lataamista sivustolle. Joten ensin tiedämme missä on robots txt -tiedosto?

Missä onrobotit txtmiten se nähdään?

Luulen, että monet aloittelijat kysyvät itseltään kysymyksen - missä robots txt sijaitsee? Tiedosto sijaitsee sivuston juurikansiossa, public_html-kansiossa, se näkyy yksinkertaisesti. Voit siirtyä isännöintiin, avata sivustosi kansion ja katsoa, ​​onko tämä tiedosto siellä vai ei. Alla oleva video näyttää, kuinka tämä tehdään. Voit tarkastella tiedostoa Yandex-verkkovastaavan ja Google-verkkovastaavan avulla, mutta puhumme siitä myöhemmin.

On vielä yksinkertaisempi vaihtoehto, jonka avulla voit tarkastella robottien txt:n lisäksi minkä tahansa sivuston robotteja. Voit ladata robotteja tietokoneellesi ja muokata sitä itsellesi ja käyttää sitä verkkosivustollasi (blogissasi). Tämä tehdään näin: avaat tarvitsemasi sivuston (blogin) ja lisäät robots.txt-tiedoston vinoviivalla (katso kuvakaappaus)

ja paina Enter, robots txt -tiedosto avautuu. Tässä tapauksessa et voi nähdä missä robots txt sijaitsee, mutta voit tarkastella ja ladata sen.

Kuinka luoda oikearobotit txt sivustoa varten

On olemassa useita vaihtoehtoja luoda robots txt verkkosivustolle:

  • käytä online-generaattoreita, jotka luovat nopeasti robots-txt-tiedoston, on olemassa monia sivustoja ja palveluita, jotka voivat tehdä tämän;
  • käytä WordPressin laajennuksia, jotka auttavat ratkaisemaan tämän ongelman;
  • luo robots txt -tiedosto omin käsin tavallisessa muistiossa tai NotePad++ -ohjelmassa;
  • käytä valmiita, oikeita robots-txt-tiedostoja jonkun muun sivustolta (blogista) ja korvaa siinä sivustosi osoite.

Generaattorit

Joten en ole aiemmin käyttänyt generaattoreita robottien txt-tiedostojen luomiseen, mutta ennen tämän artikkelin kirjoittamista päätin testata 4 palvelua robottien txt-tiedostojen luomiseen, sain tiettyjä tuloksia, kerron niistä myöhemmin. Nämä palvelut ovat:

  • SEOlib ;
  • PR-CY palvelu;
  • palvelu Raskruty.ru;
  • seo café voit mennä tänne käyttämällä tätä linkkiä - info.seocafe.info/tools/robotsgenerator.

Miten robots txt -generaattoria käytetään käytännössä, esitetään yksityiskohtaisesti alla olevassa videossa. Testausprosessin aikana tulin siihen tulokseen, että ne eivät sovellu aloittelijoille, ja tässä miksi? Generaattori mahdollistaa vain oikean merkinnän luomisen ilman virheitä itse tiedostoon, mutta oikean robots txt:n laatimiseksi tarvitset silti tietoa, sinun on tiedettävä, mitkä kansiot suljetaan ja mitkä eivät. Tästä syystä en suosittele robots txt -generaattorin käyttöä tiedoston luomiseen aloittelijoille.

Pluginsvarten WordPress

Tiedoston luomiseen on lisäosia, esimerkiksi PC Robots.txt. Tämän laajennuksen avulla voit muokata tiedostoa suoraan sivuston ohjauspaneelista. Toinen laajennus on iRobots.txt SEO - tällä laajennuksella on samanlaiset toiminnot. Löydät joukon erilaisia ​​laajennuksia, joiden avulla voit työskennellä robots txt -tiedoston kanssa. Halutessasi voit kirjoittaa "Hae laajennuksia" -kenttään lauseen robotit. txt ja napsauta "Hae" -painiketta, niin sinulle tarjotaan useita laajennuksia. Tietenkin sinun on luettava jokaisesta niistä ja katsottava arvosteluja.

Tapa, jolla robots txt -laajennukset toimivat WordPressissä, on hyvin samanlainen kuin generaattorit. Tarvitset tietoa ja kokemusta saadaksesi oikean robots-txt-tiedoston sivustolle, mutta mistä aloittelijat voivat saada sen? Mielestäni tällaisista palveluista voi olla enemmän haittaa kuin hyötyä. Ja jos asennat laajennuksen, se lataa myös isännöinnin. Tästä syystä en suosittele robots txt WordPress -laajennuksen asentamista.

Luodarobotit txtkäsin

Voit luoda robotit txt:n manuaalisesti tavallisella muistilehtiöllä tai NotePad++ -ohjelmalla, mutta tämä vaatii tietoa ja kokemusta. Tämä vaihtoehto ei myöskään sovellu aloittelijoille. Mutta ajan myötä, kun saat kokemusta, pystyt tekemään tämän ja voit luoda sivustolle robots txt -tiedoston, rekisteröidä Disallow robots -käskyt, sulkea tarvittavat kansiot indeksoinnista, suorittaa robottien tarkistuksen ja säätää sitä vain 10 minuuttia. Alla olevassa kuvakaappauksessa näkyy robots txt muistiossa:

Emme harkitse robots-txt-tiedoston luomismenettelyä, tämä on kirjoitettu yksityiskohtaisesti monissa lähteissä, esimerkiksi Yandex Webmaster. Ennen kuin käännät robots txt -tiedoston, sinun on mentävä Yandex Webmasteriin, jossa jokainen direktiivi on kuvattu yksityiskohtaisesti, mistä se vastaa, ja laadittava tiedosto näiden tietojen perusteella. (katso kuvakaappaus).

Muuten, uusi Yandex-verkkovastaava tarjoaa yksityiskohtaisia ​​​​ja yksityiskohtaisia ​​​​tietoja, artikkeli siitä löytyy blogista. Tarkemmin sanottuna esitetään kaksi artikkelia, joista on paljon hyötyä bloggaajille eikä vain aloittelijoille, suosittelen lukemaan ne.

Jos et ole aloittelija ja haluat tehdä robottien txt:n itse, sinun on noudatettava useita sääntöjä:

  1. Kansallisten merkkien käyttö robots txt -tiedostossa ei ole sallittua.
  2. Robottien tiedostokoko ei saa ylittää 32 kt.
  3. Robots-tiedoston nimeä ei voi kirjoittaa kuten Robotit tai ROBOTS, tiedosto on allekirjoitettava täsmälleen artikkelissa esitetyllä tavalla.
  4. Jokaisen direktiivin on aloitettava uudelta riviltä.
  5. Yhdelle riville ei voi määrittää useampaa kuin yhtä ohjetta.
  6. "Disallow"-käsky tyhjällä rivillä vastaa "Allow"-direktiiviä - salli, tämä on muistettava.
  7. Et voi laittaa välilyöntiä rivin alkuun.
  8. Jos et jätä välilyöntiä eri "User-agent" -käskyjen väliin, robotit hyväksyvät vain ylimmän käskyn - loput jätetään huomiotta.
  9. Itse ohjeparametri on kirjoitettava vain yhdelle riville.
  10. Et voi laittaa käskyparametreja lainausmerkkeihin.
  11. Et voi sulkea riviä puolipisteellä käskyn jälkeen.
  12. Jos robottitiedostoa ei havaita tai se on tyhjä, robotit näkevät tämän olevan "Kaikki on sallittua".
  13. Voit tehdä kommentteja ohjeriville (jotta selvensi, mikä rivi on), mutta vasta hash-merkin # jälkeen.
  14. Jos laitat välilyönnin rivien väliin, tämä tarkoittaa User-agent-direktiivin loppua.
  15. "Disallow"- ja "Allow"-käskyt saavat sisältää vain yhden parametrin.
  16. Hakemistoa oleville käskyille lisätään vinoviiva, esimerkiksi – Disallow/ wp-admin.
  17. "Indeksointiviive" -osiossa sinun tulee suositella roboteille aikaväliä asiakirjojen lataamisen välillä palvelimelta, yleensä 4-5 sekuntia.
  18. Tärkeää - direktiivien välissä ei saa olla tyhjiä rivejä. Uusi ohje alkaa yhdellä välilyönnillä. Tämä tarkoittaa hakurobotin sääntöjen loppua, kuten liitteenä oleva video osoittaa yksityiskohtaisesti. Tähdellä tarkoitetaan mitä tahansa merkkijonoa.
  19. Suosittelen toistamaan kaikki säännöt erikseen Yandex-robotille, toisin sanoen toistamaan kaikki muille roboteille määrätyt direktiivit erikseen Yandexille. Yandex-robotin tietojen lopussa sinun on kirjoitettava muistiin isäntädirektiivi (Host - sitä tukee vain Yandex) ja ilmoitettava blogisi. Isäntä ilmoittaa Yandexille, mikä sivustosi peili on tärkein, joko www.
  20. Lisäksi robots txt -tiedoston erillisessä hakemistossa, eli välilyönnillä erotettuna, on suositeltavaa ilmoittaa sivustokarttasi osoite. Tiedoston luominen onnistuu muutamassa minuutissa, ja se alkaa lauseella "User-agent:". Jos haluat estää esimerkiksi kuvien indeksoinnin, sinun on asetettava Disallow: /images/.

Käytä oikeaarobotit txt jonkun muun sivustolta

Ei ole olemassa ihanteellista tiedostoa, sinun on ajoittain kokeiltava ja otettava huomioon muutokset hakukoneiden toiminnassa, otettava huomioon virheet, jotka voivat näkyä blogissasi ajan myötä. Siksi voit aluksi ottaa jonkun muun vahvistetun robots txt -tiedoston ja asentaa sen itse.

Muista muuttaa merkinnät, jotka vastaavat blogisi osoitetta isäntähakemistossa (katso kuvakaappaus, katso myös video), ja korvaa se myös sivustosi osoitteella sivustokartan osoitteessa (kahdella alimmalla rivillä). Ajan myötä tätä tiedostoa on säädettävä hieman. Olet esimerkiksi huomannut, että päällekkäisiä sivuja alkoi ilmestyä.

Yllä olevassa osiossa "Missä robots txt sijaitsee, miten se nähdään" tarkastelimme, miten robots txt -tiedostoa voi tarkastella ja ladata. Siksi sinun on valittava hyvä luottamussivusto, jolla on korkeat TIC-indikaattorit, paljon liikennettä, avattava ja ladattava oikea robottien txt. Sinun on verrattava useita sivustoja, valittava itsellesi haluamasi robots txt -tiedosto ja lähetettävä se sivustollesi.

Kuinka ladata tiedosto sivustollerobotit txt sivuston juurikansioon

Kuten jo kirjoitettu, sivuston luomisen jälkeen WordPressissä oletuksena ei ole robots txt -tiedostoa. Siksi se on luotava ja ladattava isännöinnin verkkosivustomme (blogin) juurikansioon. Tiedoston lataaminen on melko yksinkertaista. TimeWeb-isännöinnillä ja muilla isännöillä voit ladata joko kautta tai kautta. Alla oleva video näyttää prosessin, jolla robots txt -tiedosto ladataan TimeWeb-isännöintiin.

Tarkistetaan robots txt -tiedostoa

Kun olet ladannut robots txt -tiedoston, sinun on tarkistettava sen olemassaolo ja toiminta. Voit tehdä tämän katsomalla tiedostoa selaimesta, kuten yllä kohdassa "Missä robots txt sijaitsee, miten nähdä" on esitetty. Voit tarkistaa tiedoston toiminnan Yandex-verkkovastaavan ja Google-verkkovastaavan avulla. Muistamme, että tätä varten on oltava , ja in .

Voit kirjautua Yandexiin siirtymällä Yandex-verkkovastaavan tilillemme ja valitsemalla sivuston, jos sinulla on niitä useita. Valitse "Indeksointiasetukset", "Robots.txt-analyysi" ja seuraa ohjeita.

Google Webmasterissa teemme saman, menemme tilillemme, valitsemme haluamasi sivuston (jos niitä on useita), napsauta "Indeksointi" -painiketta ja valitse "Robots.txt-tiedoston vahvistustyökalu". Robots txt -tiedosto avautuu. Voit muokata tai tarkistaa sen.

Samalla sivulla on erinomaiset ohjeet työskentelyyn robots txt -tiedoston kanssa, voit lukea ne. Lopuksi tarjoan videon, joka näyttää, mikä robots txt -tiedosto on, miten se löytyy, miten sitä tarkastellaan ja ladataan, miten tiedostogeneraattoria käytetään, miten robots txt luodaan ja muokataan itse, muuta tietoa on näytetty:

Johtopäätös

Joten tässä artikkelissa tarkastelimme kysymystä siitä, mikä robots txt -tiedosto on, ja huomasimme, että tämä tiedosto on erittäin tärkeä sivustolle. Opimme tekemään oikean robots txt:n, kuinka sovittaa robots txt -tiedosto jonkun muun sivustolta omaasi, kuinka ladata se blogiisi ja miten se tarkistetaan.

Artikkelista kävi selväksi, että aloittelijoille on aluksi parempi käyttää valmis ja oikea robots txt, mutta sinun on muistettava korvata siinä oleva verkkotunnus Host-hakemistossa omallasi ja syöttää myös osoite. blogistasi sivustokartoissa. Voit ladata robottini txt-tiedoston täältä. Nyt korjauksen jälkeen voit käyttää tiedostoa blogissasi.

Robots txt -tiedostolle on olemassa erillinen verkkosivusto. Toivon, että kaikki järjestyy sinulle ja blogi on hyvin indeksoitu. Onnea sinulle!

Terveisin, Ivan Kunpan.

P.S. Jotta voit mainostaa blogiasi oikein, sinun on kirjoitettava oikein blogisi artikkeleiden optimoinnista, jolloin sillä on paljon liikennettä ja arvosanat. Tietotuotteeni, jotka sisältävät kolmen vuoden kokemukseni, auttavat sinua tässä. Voit hankkia seuraavat tuotteet:

  • maksettu kirja;
  • tiedustelu kartta;
  • maksullinen videokurssi " ".

Vastaanota uusia blogiartikkeleita suoraan sähköpostiisi. Täytä lomake, napsauta "Tilaa" -painiketta