Что означает несуществующая страница в одноклассниках. Какие бонусы дает несуществующая страница в «Одноклассниках

Недавно ко мне обратились с вопросом об одной особенности Google. Речь шла об индексации сайта. Google занес в свой индекс несуществующие страницы с причудливыми URL. Причем, многие из них были закрыты в robots.txt. Отвечая на вопрос, с целью помочь читателю моего сайта, я не заметил, как написал небольшую статейку.

Вопрос оказался очень мне знаком. Еще пару лет назад я сам ужесточено искал ответ на этот вопрос, когда у меня была задача выровнять соотношение проиндексированных страниц для нескольких сайтов в индексе поисковиков перед их монетизацией. Что я только не делал, удалял из индекса физически, закрывал в robots.txt, правил шаблоны сайтов и исходные файлы движков. Ровным счетом ничего не помогало, не помогли мне в свое время и более опытные коллеги.

Такая проблема оказалась повсеместна, но далеко не многие уделяют ей внимание. Google не делает сохраненных копий закрытых в robots.txt страниц, но добавляет все найденные URL себе в базу. Если сделать поиск среди всех страниц сайта, то Google выдаст кучу несуществующих страниц. Код 404 и закрытие в robots.txt при этом не помогают. Вот поэтому, если просканировать с десяток различных сайтов, то количество проиндексированных страниц в Google будет больше, иногда на пару страниц, а для крупных сайтов разница может достигать нескольких сотен страничек.

В свой индекс Google добавляет абсолютно все URL, на которые обнаружил ссылки. Это в большинстве случаев внутренние ссылки (из-за ошибок развертки CMS на сервере в коде могут присутствовать битые ссылки, это очень часто происходит при неправильной настройке ЧПУ), также это могут быть и внешние ссылки (кто-то написал ссылку на ваш сайт на каком-нибудь форуме и ошибся в написании).

Кроме того, на сайтах очень часто удаляются некоторые странички - изменили URL или физически удалили материал, в индексе страница по-прежнему останется, только сохранится в виде пустой ссылки.

В любом случае, ни по каким запросам эти «странички пустышки» в выдаче не появятся, если только мы не смотрим общее число проиндексированных страниц. Разница между реальным числом страниц на сайте и проиндексированным играет роль только при монетизации сайта. За большой разбег места под продажные ссылки будут хуже раскупаться.

Методы борьбы и профилактики

Способы избежать подобных ситуаций имеются, рассмотрим пути решения:

  1. В панеле Google Webmasters есть возможность физического удаления нежелательных страниц из индекса. Если страница закрыта в robots.txt или выдает 404 код ошибки, при получении заявки на удаление, страница в течение пары суток покидает индекс. В случае, если «страниц пустышек» очень много, способ не подходит, потому, как для каждой странички заявку нужно подавать отдельную, в совокупности уйдет масса времени.
  2. Второй способ более сложный, но навсегда избавит сайт от описанной проблемы. От индексации нужно скрывать страницу с помощью конструкции robots, которая прописывается в секции head непосредственно на странице. Вот, как это выглядит:


    Нужно настроить движок сайта таким образом, чтобы при ошибке 404 загружалась заглушка - собственная страница с ошибкой (настраивается это буквально одной строчкой в.htaccess на Unix-хостинге). В секции head этой страницы-заглушки прописываем приведенный выше код. Теперь Google при обнаружении битых ссылок не будет добавлять их в индекс.

Такой оригинальный подход к индексации разработчики Google объясняют тем, что часто страницы, выдающие 404 код ошибки, не доступны лишь кратковременно по вине неправильных настроек сервера или каких-либо сбоев БД. При этом, очень часто среди таких страниц есть полезный контент. Google добавляет такие страницы в индекс в надежде, что они со временем заработают. А вот почему Google игнорирует инструкции robots.txt - объяснений тому объективных нет, но на практике, часто именно так и происходит.

— Закончился срок хранения закаченного файла на файлообменник

— Изменение структуры блога/сайта

— Изменение адресов страниц на сайте или внедрение ЧПУ

— Изменились адреса страниц сайтов, на которые вы ссылаетесь

В процессе таких изменений могут возникать десятки несуществующих страниц, на которые будет ссылаться ваш ресурс.

Находить вот такие несуществующие страницы легко. Достаточно знать несколько сервисов и уметь ими пользоваться.

Мы рассмотрим 4-е основные методы проверки сайта на битые ссылки, а какой из них использовать для себя вы уже решите сами.

On-line сервисы для проверки битых ссылок:

Я нашел в сети много разных сервисов, но рекомендовать могу всего 2, которые действительно качественно определяют проблемные ссылки:

creatingonline.com

anybrowser.com

Расписывать принцип их работы, я не буду, тут все очень просто. Вбиваете интересующий вас урл в форму для проверки и жмете кнопку для проверки. После истечения некоторого периода времени, появится страница с результатами проверки.

С помощью Яндекса

В панели вебмастера идем по пути – — Исключенные страницы и переходим по ссылке HTTP-статус: Ресурс не найден (404). На скриншоте указан путь.

После того как вы перешли по ссылке, откроется окно, внизу которого и будет список ссылок на несуществующие страницы с вашего сайта. В этом же окне будет информация о последнем посещении роботом страницы и ссылки на проблемные страницы обозначенные маленьким квадратом со стрелкой вниз. Теперь нужно перейти по этим ссылкам и исправить ситуацию.

С помощью Google

Аналогичным образом проходим авторизацию в панели вебмастера и идем по пути – Сканирование — Ошибки сканирования. В нижней половине страницы видим список ссылок на несуществующие страницы. В панели вебмастеров Google есть одна замечательная опция позволяющая отмечать исправленные ранее вами ссылки на несуществующие страницы. На я показал ее.

Программа Xenu Link Sleuth

Переходим по ссылке и скачиваем программу. После чего проводим ее установку. По окончанию установки запускаем программу и забиваем адрес проверяемого ресурса. Жмем кнопку Ок, и программа начинает сбор информации.

Busy – поставлена в очередь на проверку.

После окончания сбора информации программой будет звуковой сигнал об окончании работы, и вы можете просмотреть отчет о выполненной работе. Очень хорошая программа, пользуюсь ею постоянно.

И последний метод, который мы рассмотрим, это проверка сайта на битые ссылки с помощью плагина Broken Link Checker .

Для этого скачиваем плагин , активируем его и переходим по адресу – Параметры — Проверка ссылок и переходим на вкладку Дополнительно в которой жмем Перепроверить все страницы.

Здравствуйте! Сегодня пост о наболевшем для большинства из начинающих сайтостроителей. Мне приходилось очень часто в комментариях отвечать на один и тот же вопрос — как удалить страницы из поиска , которые были проиндексированы ранее, но в силу сложившихся обстоятельств были удалены и больше не существуют, но по-прежнему находятся в индексе поисковых систем. Или же в поиске находятся страницы запрещенные к индексации.

В комментариях особо не развернешься, поэтому после очередного вопроса решил уделить данной теме отдельное внимание. Для начала давайте разберемся, каким образом такие страницы могли оказаться в поиске. Примеры буду приводить исходя из собственного опыта, так что если я что-то забуду, то прошу дополнить.

Почему закрытые и удаленные страницы есть в поиске

Причин может быть несколько и некоторые из них я постараюсь выделить в виде небольшого списка с пояснениями. Перед началом дам пояснение что подразумеваю под «лишними» (закрытыми) страницами: служебные или иные страницы, запрещенные к индексации правилами или мета-тегом.

Несуществующие страницы находятся в поиске по следующим причинам:

  • Самое банальное — страница удалена и больше не существует.
  • Ручное редактирование адреса web-страницы, вследствие чего документ который уже находится в поиске становится не доступным для просмотра. Особое внимание этому моменту нужно уделить новичкам, которые в силу своих небольших знаний пренебрежительно относятся к функционированию ресурса.
  • Продолжая мысль о структуре напомню, что по-умолчанию после установки WordPress на хостинг она не удовлетворяет требованиям внутренней оптимизации и состоит из буквенно-цифровых идентификаторов. Приходится на ЧПУ, при этом появляется масса нерабочих адресов, которые еще долго будут оставаться в индексе поисковых систем. Поэтому применяйте основное правило: надумали менять структуру — используйте 301 редирект со старых адресов на новые. Идеальный вариант — выполнить все настройки сайта ДО его открытия, в этом может пригодиться локальный сервер.
  • Не правильно настроена работа сервера. Несуществующая страница должна отдавать код ошибки 404 или с кодом 3хх.

Лишние страницы появляются в индексе при следующих условиях:

  • Страницы, как Вам кажется, закрыты, но на самом деле они открыты для поисковых роботов и находятся в поиске без ограничений (или не правильно написан robots.txt). Для проверки прав доступа ПС к страницам воспользуйтесь соответствующими инструментами для .
  • Они были проиндексированы до того как были закрыты доступными способа.
  • На данные страницы ссылаются другие сайты или внутренние страницы в пределах одного домена.

Итак, с причинами разобрались. Стоит отметить, что после устранения причины несуществующие или лишние страницы еще долгое время могут оставаться в поисковой базе — все зависит от или частоты посещения сайта роботом.

Как удалить страницу из поисковой системы Яндекс

Для удаления URL из Яндекс достаточно пройти по ссылке и в текстовое поле формы вставить адрес страницы, которую нужно удалить из поисковой выдачи.

Главное условие успешного запроса на удаление:

  • страница должна быть закрыта от индексации правилами robots или мета-тегом noindex на данной странице — в том случае если страница существует, но не должна участвовать в выдаче;
  • при попытке обращения к странице сервер должен возвращать ошибку 404 — если страница удалена и более не существует.

При следующем обходе сайта роботом запросы на удаление будут выполнены, а страницы исчезнут из результатов поиска.

Как удалить страницу из поисковой системы Google

Для удаления страниц из поступаем аналогичным образом. Открываем инструменты для веб-мастеров и находим в раскрывающемся списке Оптимизация пункт Удалить URL-адреса и переходим по ссылке.

Перед нами специальная форма с помощью которой создаем новый запрос на удаление:

Нажимаем продолжить и следуя дальнейшим указаниям выбираем причину удаления. По-моему мнению слово «причина» не совсем подходит для этого, но это не суть…

Из представленных вариантов нам доступно:

  • удаление страницы страницы из результатов поиска Google и из кэша поисковой системы;
  • удаление только страницы из кэша;
  • удаление каталога со всеми входящими в него адресами.

Очень удобная функция удаления целого каталога, когда приходится удалять по несколько страниц, например из одной рубрики. Следить за статусом запроса на удаление можно на этой же странице инструментов с возможностью отмены. Для успешного удаления страниц из Google необходимы те же условия, что и для . Запрос обычно выполняется в кратчайшие сроки и страница тут же исчезает из результатов поиска.

Если у вас крупный сайт с большим количеством страниц, то поисковое продвижение такого проекта зачастую сводится к выявлению и устранению множества технических проблем.

Одной из распространенных ошибок является наличие битых ссылок на страницы с кодом ответа «404 not found». Более того, на страницы с 404 ошибкой могут вести ссылки с других сайтов, при этом их вес будет потерян. В этой статье вы узнаете как вернуть потерянный вес внешней ссылочной массы.

«Я вам точно могу сказать, что на более или менее крупном сайте все время что-то ломается»
— Михаил Сливинский (Wikimart.ru), SEO Conference 2014.

Суть метода

Ссылки с других сайтов не передают вес, если ведут на битые страницы на вашем сайте. Задача состоит в том, чтобы настроить перенаправление (301 редирект) с несуществующих страниц, имеющих входящие ссылки, на другие подходящие страницы на сайте. Таким образом, вес входящих внешних ссылок начнет передаваться сайту.

Этот метод подойдет скорее проектам с возрастом и большим количеством страниц. Алгоритм работы следующий:

1. Поиск и составление списка страниц с 404 ошибкой.
2. Проверка полученных url-адресов на наличие входящих внешних ссылок.
3. Установка 301 редиректа с битых страниц на подходящие рабочие страницы.

Как найти страницы с 404 ошибкой и другие неработающие страницы

На этом этапе нужно выявить на сайте несуществующие страницы, страницы с ошибками и составить как можно более подробный список url-адресов. Для этого есть несколько инструментов, которые далее будут рассмотрены подробно.

Панели Яндекс.Вебмастер и Google Webmaster Tools

Если ваш сайт еще не добавлен в панели для вебмастеров Яндекс и Google, то обязательно добавьте его сейчас. Так вы сможете своевременно выявлять битые ссылки и другие ошибки индексации.

Чтобы получить список страниц с 404 ошибкой в панели Яндекс.Вебмастер, перейдите на http://webmaster.yandex.ru/sites/ в раздел «Индексирование сайта» → «Исключенные страницы».


(кликните на изображение для увеличения)

Для получения списка несуществующих страниц из панели Google Webmaster Tools (https://www.google.com/webmasters/tools/) перейдите в по ссылке «Ошибки сканирования».

(кликните на изображение для увеличения)

На странице будет список url-адресов с ошибками. Экспортировать список можно, нажав кнопку «Загрузка» и выбрав удобный формат выгрузки.

(кликните на изображение для увеличения)

Программы «краулеры»

Тут можно выделить известные программы для поиска битых ссылок и дубликатов:

Все они позволяют найти на сайте и выгрузить список страниц с 404 ошибкой. Я для этих целей пользуюсь Screaming Frog Seo Spider, так как у него есть версия под Mac, в отличие от остальных. На примере Screaming Frog список 404 страниц выгружается так:

(кликните на изображение для увеличения)

Журнал ошибок сервера

Если есть такая возможность, то стоит просмотреть журнал ошибок сервера. Обычно это файл «error_log». В зависимости от используемого ПО на сервере, журнал ошибок может отличаться. Но суть все равно одна - просмотреть журнал ошибок сервера и выгрузить из него список url-адресов с 404 ошибкой.

Полученные списки ссылок нужно объединить в один список и удалить дубликаты. Для этого есть множество способов, но я использую текстовый редактор Sublime Text 2 (на Windows рекомендую Notepad++ с плагином TextFX).

(кликните на изображение для увеличения)

Проверка списка битых страниц на наличие входящих ссылок

Для проверки итогового списка url-адресов на наличие входящих ссылок с других сайтов используется сервис Ahrefs.com , а именно раздел «Batch Analysis» – https://ahrefs.com/labs/batch-analysis/ .

(кликните на изображение для увеличения)

К сожалению, у данной функции есть ограничение в 200 url за 1 запрос на платных тарифах и в 2 url за 1 запрос на бесплатном. Поэтому нужно вбить свой список в несколько порций по 200 адресов. После каждой проверки нужно сделать экспорт в файл.

(кликните на изображение для увеличения)

Полученные выгрузки по 200 url нужно объединить в 1 таблицу. Для этого нужно открыть 1 файл и копировать в конец содержимое других файлов. Лишние столбцы можно удалить. Нас интересует только столбец «Total», он означает общее количество внешних ссылок на страницу.

(кликните на изображение для увеличения)

Полученный список нужно отсортировать и удалить строки, в которых «Total» равен нулю. В итоге у вас получится список битых страниц, которые имеют входящие ссылки с других сайтов.

Подбор страниц для редиректа

Полученный список нужно снова загрузить в Batch Analysis на Ahrefs, чтобы можно было посмотреть с каких сайтов и с какими анкорами стоят ссылки на каждую страницу нашего списка. Для этого используем иконку рядом с url-адресом.

(кликните на изображение для увеличения)

Далее нужно посмотреть с каких страниц и с какими анкорами ссылались внешние сайты. Для удобства создайте таблицу с двумя колонками, в которой будет список битых адресов и список «живых» адресов, на которые будет идти редирект. Если у страницы на вашем сайте просто изменился url, то вписывайте новый url страницы. В иных случаях, подберите самую релевантную на ваш взгляд страницу, основываясь на тексте страницы-донора и анкоре.

(кликните на изображение для увеличения)

Настройка 301 редиректа на новые страницы

В конце осталось добавить в файл «.htaccess» необходимые команды для . Для перенаправления с одной страницы на другую используется следующая команда:

Для каждого адреса итоговой таблицы нужно написать такую команду и добавить в файл «.htaccess». На этом этапе я рекомендую воспользоваться услугами программиста, чтобы все работало правильно.

В итоге мы бесплатно получим ссылочный вес, просто за счет того, что не будем его терять.