Что означает несуществующая страница в одноклассниках. Какие бонусы дает несуществующая страница в «Одноклассниках
Недавно ко мне обратились с вопросом об одной особенности Google. Речь шла об индексации сайта. Google занес в свой индекс несуществующие страницы с причудливыми URL. Причем, многие из них были закрыты в robots.txt. Отвечая на вопрос, с целью помочь читателю моего сайта, я не заметил, как написал небольшую статейку.
Вопрос оказался очень мне знаком. Еще пару лет назад я сам ужесточено искал ответ на этот вопрос, когда у меня была задача выровнять соотношение проиндексированных страниц для нескольких сайтов в индексе поисковиков перед их монетизацией. Что я только не делал, удалял из индекса физически, закрывал в robots.txt, правил шаблоны сайтов и исходные файлы движков. Ровным счетом ничего не помогало, не помогли мне в свое время и более опытные коллеги.
Такая проблема оказалась повсеместна, но далеко не многие уделяют ей внимание. Google не делает сохраненных копий закрытых в robots.txt страниц, но добавляет все найденные URL себе в базу. Если сделать поиск среди всех страниц сайта, то Google выдаст кучу несуществующих страниц. Код 404 и закрытие в robots.txt при этом не помогают. Вот поэтому, если просканировать с десяток различных сайтов, то количество проиндексированных страниц в Google будет больше, иногда на пару страниц, а для крупных сайтов разница может достигать нескольких сотен страничек.
В свой индекс Google добавляет абсолютно все URL, на которые обнаружил ссылки. Это в большинстве случаев внутренние ссылки (из-за ошибок развертки CMS на сервере в коде могут присутствовать битые ссылки, это очень часто происходит при неправильной настройке ЧПУ), также это могут быть и внешние ссылки (кто-то написал ссылку на ваш сайт на каком-нибудь форуме и ошибся в написании).
Кроме того, на сайтах очень часто удаляются некоторые странички - изменили URL или физически удалили материал, в индексе страница по-прежнему останется, только сохранится в виде пустой ссылки.
В любом случае, ни по каким запросам эти «странички пустышки» в выдаче не появятся, если только мы не смотрим общее число проиндексированных страниц. Разница между реальным числом страниц на сайте и проиндексированным играет роль только при монетизации сайта. За большой разбег места под продажные ссылки будут хуже раскупаться.
Методы борьбы и профилактики
Способы избежать подобных ситуаций имеются, рассмотрим пути решения:
- В панеле Google Webmasters есть возможность физического удаления нежелательных страниц из индекса. Если страница закрыта в robots.txt или выдает 404 код ошибки, при получении заявки на удаление, страница в течение пары суток покидает индекс. В случае, если «страниц пустышек» очень много, способ не подходит, потому, как для каждой странички заявку нужно подавать отдельную, в совокупности уйдет масса времени.
- Второй способ более сложный, но навсегда избавит сайт от описанной проблемы. От индексации нужно скрывать страницу с помощью конструкции robots, которая прописывается в секции head непосредственно на странице. Вот, как это выглядит:
Нужно настроить движок сайта таким образом, чтобы при ошибке 404 загружалась заглушка - собственная страница с ошибкой (настраивается это буквально одной строчкой в.htaccess на Unix-хостинге). В секции head этой страницы-заглушки прописываем приведенный выше код. Теперь Google при обнаружении битых ссылок не будет добавлять их в индекс.
Такой оригинальный подход к индексации разработчики Google объясняют тем, что часто страницы, выдающие 404 код ошибки, не доступны лишь кратковременно по вине неправильных настроек сервера или каких-либо сбоев БД. При этом, очень часто среди таких страниц есть полезный контент. Google добавляет такие страницы в индекс в надежде, что они со временем заработают. А вот почему Google игнорирует инструкции robots.txt - объяснений тому объективных нет, но на практике, часто именно так и происходит.
— Закончился срок хранения закаченного файла на файлообменник
— Изменение структуры блога/сайта
— Изменение адресов страниц на сайте или внедрение ЧПУ
— Изменились адреса страниц сайтов, на которые вы ссылаетесь
В процессе таких изменений могут возникать десятки несуществующих страниц, на которые будет ссылаться ваш ресурс.
Находить вот такие несуществующие страницы легко. Достаточно знать несколько сервисов и уметь ими пользоваться.
Мы рассмотрим 4-е основные методы проверки сайта на битые ссылки, а какой из них использовать для себя вы уже решите сами.
On-line сервисы для проверки битых ссылок:
Я нашел в сети много разных сервисов, но рекомендовать могу всего 2, которые действительно качественно определяют проблемные ссылки:
— creatingonline.com
— anybrowser.com
Расписывать принцип их работы, я не буду, тут все очень просто. Вбиваете интересующий вас урл в форму для проверки и жмете кнопку для проверки. После истечения некоторого периода времени, появится страница с результатами проверки.
С помощью Яндекса
В панели вебмастера идем по пути – — Исключенные страницы и переходим по ссылке HTTP-статус: Ресурс не найден (404). На скриншоте указан путь.
После того как вы перешли по ссылке, откроется окно, внизу которого и будет список ссылок на несуществующие страницы с вашего сайта. В этом же окне будет информация о последнем посещении роботом страницы и ссылки на проблемные страницы обозначенные маленьким квадратом со стрелкой вниз. Теперь нужно перейти по этим ссылкам и исправить ситуацию.
С помощью Google
Аналогичным образом проходим авторизацию в панели вебмастера и идем по пути – Сканирование — Ошибки сканирования. В нижней половине страницы видим список ссылок на несуществующие страницы. В панели вебмастеров Google есть одна замечательная опция позволяющая отмечать исправленные ранее вами ссылки на несуществующие страницы. На я показал ее.
Программа Xenu Link Sleuth
Переходим по ссылке и скачиваем программу. После чего проводим ее установку. По окончанию установки запускаем программу и забиваем адрес проверяемого ресурса. Жмем кнопку Ок, и программа начинает сбор информации.
Busy – поставлена в очередь на проверку.
После окончания сбора информации программой будет звуковой сигнал об окончании работы, и вы можете просмотреть отчет о выполненной работе. Очень хорошая программа, пользуюсь ею постоянно.
И последний метод, который мы рассмотрим, это проверка сайта на битые ссылки с помощью плагина Broken Link Checker .
Для этого скачиваем плагин , активируем его и переходим по адресу – Параметры — Проверка ссылок и переходим на вкладку Дополнительно в которой жмем Перепроверить все страницы.
Здравствуйте! Сегодня пост о наболевшем для большинства из начинающих сайтостроителей. Мне приходилось очень часто в комментариях отвечать на один и тот же вопрос — как удалить страницы из поиска , которые были проиндексированы ранее, но в силу сложившихся обстоятельств были удалены и больше не существуют, но по-прежнему находятся в индексе поисковых систем. Или же в поиске находятся страницы запрещенные к индексации.
В комментариях особо не развернешься, поэтому после очередного вопроса решил уделить данной теме отдельное внимание. Для начала давайте разберемся, каким образом такие страницы могли оказаться в поиске. Примеры буду приводить исходя из собственного опыта, так что если я что-то забуду, то прошу дополнить.
Почему закрытые и удаленные страницы есть в поиске
Причин может быть несколько и некоторые из них я постараюсь выделить в виде небольшого списка с пояснениями. Перед началом дам пояснение что подразумеваю под «лишними» (закрытыми) страницами: служебные или иные страницы, запрещенные к индексации правилами или мета-тегом.
Несуществующие страницы находятся в поиске по следующим причинам:
- Самое банальное — страница удалена и больше не существует.
- Ручное редактирование адреса web-страницы, вследствие чего документ который уже находится в поиске становится не доступным для просмотра. Особое внимание этому моменту нужно уделить новичкам, которые в силу своих небольших знаний пренебрежительно относятся к функционированию ресурса.
- Продолжая мысль о структуре напомню, что по-умолчанию после установки WordPress на хостинг она не удовлетворяет требованиям внутренней оптимизации и состоит из буквенно-цифровых идентификаторов. Приходится на ЧПУ, при этом появляется масса нерабочих адресов, которые еще долго будут оставаться в индексе поисковых систем. Поэтому применяйте основное правило: надумали менять структуру — используйте 301 редирект со старых адресов на новые. Идеальный вариант — выполнить все настройки сайта ДО его открытия, в этом может пригодиться локальный сервер.
- Не правильно настроена работа сервера. Несуществующая страница должна отдавать код ошибки 404 или с кодом 3хх.
Лишние страницы появляются в индексе при следующих условиях:
- Страницы, как Вам кажется, закрыты, но на самом деле они открыты для поисковых роботов и находятся в поиске без ограничений (или не правильно написан robots.txt). Для проверки прав доступа ПС к страницам воспользуйтесь соответствующими инструментами для .
- Они были проиндексированы до того как были закрыты доступными способа.
- На данные страницы ссылаются другие сайты или внутренние страницы в пределах одного домена.
Итак, с причинами разобрались. Стоит отметить, что после устранения причины несуществующие или лишние страницы еще долгое время могут оставаться в поисковой базе — все зависит от или частоты посещения сайта роботом.
Как удалить страницу из поисковой системы Яндекс
Для удаления URL из Яндекс достаточно пройти по ссылке и в текстовое поле формы вставить адрес страницы, которую нужно удалить из поисковой выдачи.
Главное условие успешного запроса на удаление:
- страница должна быть закрыта от индексации правилами robots или мета-тегом noindex на данной странице — в том случае если страница существует, но не должна участвовать в выдаче;
- при попытке обращения к странице сервер должен возвращать ошибку 404 — если страница удалена и более не существует.
При следующем обходе сайта роботом запросы на удаление будут выполнены, а страницы исчезнут из результатов поиска.
Как удалить страницу из поисковой системы Google
Для удаления страниц из поступаем аналогичным образом. Открываем инструменты для веб-мастеров и находим в раскрывающемся списке Оптимизация пункт Удалить URL-адреса и переходим по ссылке.
Перед нами специальная форма с помощью которой создаем новый запрос на удаление:
Нажимаем продолжить и следуя дальнейшим указаниям выбираем причину удаления. По-моему мнению слово «причина» не совсем подходит для этого, но это не суть…
Из представленных вариантов нам доступно:
- удаление страницы страницы из результатов поиска Google и из кэша поисковой системы;
- удаление только страницы из кэша;
- удаление каталога со всеми входящими в него адресами.
Очень удобная функция удаления целого каталога, когда приходится удалять по несколько страниц, например из одной рубрики. Следить за статусом запроса на удаление можно на этой же странице инструментов с возможностью отмены. Для успешного удаления страниц из Google необходимы те же условия, что и для . Запрос обычно выполняется в кратчайшие сроки и страница тут же исчезает из результатов поиска.
Если у вас крупный сайт с большим количеством страниц, то поисковое продвижение такого проекта зачастую сводится к выявлению и устранению множества технических проблем.
Одной из распространенных ошибок является наличие битых ссылок на страницы с кодом ответа «404 not found». Более того, на страницы с 404 ошибкой могут вести ссылки с других сайтов, при этом их вес будет потерян. В этой статье вы узнаете как вернуть потерянный вес внешней ссылочной массы.
«Я вам точно могу сказать, что на более или менее крупном сайте все время что-то ломается»
— Михаил Сливинский (Wikimart.ru), SEO Conference 2014.
Суть метода
Ссылки с других сайтов не передают вес, если ведут на битые страницы на вашем сайте. Задача состоит в том, чтобы настроить перенаправление (301 редирект) с несуществующих страниц, имеющих входящие ссылки, на другие подходящие страницы на сайте. Таким образом, вес входящих внешних ссылок начнет передаваться сайту.
Этот метод подойдет скорее проектам с возрастом и большим количеством страниц. Алгоритм работы следующий:
1. Поиск и составление списка страниц с 404 ошибкой.
2. Проверка полученных url-адресов на наличие входящих внешних ссылок.
3. Установка 301 редиректа с битых страниц на подходящие рабочие страницы.
Как найти страницы с 404 ошибкой и другие неработающие страницы
На этом этапе нужно выявить на сайте несуществующие страницы, страницы с ошибками и составить как можно более подробный список url-адресов. Для этого есть несколько инструментов, которые далее будут рассмотрены подробно.
Панели Яндекс.Вебмастер и Google Webmaster Tools
Если ваш сайт еще не добавлен в панели для вебмастеров Яндекс и Google, то обязательно добавьте его сейчас. Так вы сможете своевременно выявлять битые ссылки и другие ошибки индексации.
Чтобы получить список страниц с 404 ошибкой в панели Яндекс.Вебмастер, перейдите на http://webmaster.yandex.ru/sites/ в раздел «Индексирование сайта» → «Исключенные страницы».
(кликните на изображение для увеличения)
Для получения списка несуществующих страниц из панели Google Webmaster Tools (https://www.google.com/webmasters/tools/) перейдите в по ссылке «Ошибки сканирования».
(кликните на изображение для увеличения)
На странице будет список url-адресов с ошибками. Экспортировать список можно, нажав кнопку «Загрузка» и выбрав удобный формат выгрузки.
(кликните на изображение для увеличения)
Программы «краулеры»
Тут можно выделить известные программы для поиска битых ссылок и дубликатов:
Все они позволяют найти на сайте и выгрузить список страниц с 404 ошибкой. Я для этих целей пользуюсь Screaming Frog Seo Spider, так как у него есть версия под Mac, в отличие от остальных. На примере Screaming Frog список 404 страниц выгружается так:
(кликните на изображение для увеличения)
Журнал ошибок сервера
Если есть такая возможность, то стоит просмотреть журнал ошибок сервера. Обычно это файл «error_log». В зависимости от используемого ПО на сервере, журнал ошибок может отличаться. Но суть все равно одна - просмотреть журнал ошибок сервера и выгрузить из него список url-адресов с 404 ошибкой.
Полученные списки ссылок нужно объединить в один список и удалить дубликаты. Для этого есть множество способов, но я использую текстовый редактор Sublime Text 2 (на Windows рекомендую Notepad++ с плагином TextFX).
(кликните на изображение для увеличения)
Проверка списка битых страниц на наличие входящих ссылок
Для проверки итогового списка url-адресов на наличие входящих ссылок с других сайтов используется сервис Ahrefs.com , а именно раздел «Batch Analysis» – https://ahrefs.com/labs/batch-analysis/ .
(кликните на изображение для увеличения)
К сожалению, у данной функции есть ограничение в 200 url за 1 запрос на платных тарифах и в 2 url за 1 запрос на бесплатном. Поэтому нужно вбить свой список в несколько порций по 200 адресов. После каждой проверки нужно сделать экспорт в файл.
(кликните на изображение для увеличения)
Полученные выгрузки по 200 url нужно объединить в 1 таблицу. Для этого нужно открыть 1 файл и копировать в конец содержимое других файлов. Лишние столбцы можно удалить. Нас интересует только столбец «Total», он означает общее количество внешних ссылок на страницу.
(кликните на изображение для увеличения)
Полученный список нужно отсортировать и удалить строки, в которых «Total» равен нулю. В итоге у вас получится список битых страниц, которые имеют входящие ссылки с других сайтов.
Подбор страниц для редиректа
Полученный список нужно снова загрузить в Batch Analysis на Ahrefs, чтобы можно было посмотреть с каких сайтов и с какими анкорами стоят ссылки на каждую страницу нашего списка. Для этого используем иконку рядом с url-адресом.
(кликните на изображение для увеличения)
Далее нужно посмотреть с каких страниц и с какими анкорами ссылались внешние сайты. Для удобства создайте таблицу с двумя колонками, в которой будет список битых адресов и список «живых» адресов, на которые будет идти редирект. Если у страницы на вашем сайте просто изменился url, то вписывайте новый url страницы. В иных случаях, подберите самую релевантную на ваш взгляд страницу, основываясь на тексте страницы-донора и анкоре.
(кликните на изображение для увеличения)
Настройка 301 редиректа на новые страницы
В конце осталось добавить в файл «.htaccess» необходимые команды для . Для перенаправления с одной страницы на другую используется следующая команда:
Для каждого адреса итоговой таблицы нужно написать такую команду и добавить в файл «.htaccess». На этом этапе я рекомендую воспользоваться услугами программиста, чтобы все работало правильно.
В итоге мы бесплатно получим ссылочный вес, просто за счет того, что не будем его терять.