1179
Рубрика: Интернет

 

Файл robots.txt - это текстовый файл, который присутствует в корневой директории веб-сайта и применяется чтобы править страничками, индексируемыми поисковым роботом. Файл robots.txt имеет возможность воспрещать поисковому боту перемещаться по web-сайту и индексировать содержимое веб-сайта.

Работа с файлом robots.txt требует конкретных познаний, хотя открещиваться от его применения невозможно. Боты поисковых систем традиционно идут по стопам директивам, размещенным в файлике robots.txt, в следствии этого они проводят проверку присутствие этого файла при первом заходе на веб-сайт и перепроверяют его иногда. Некие поисковые боты имеют все шансы столкнуться с проблемами при индексации вебсайта, ежели этот файл не существует, или взамен него выдается страничка Not Found («Не обнаружено»).

Чтоб выяснить присутствие файла robots.txt, наберите в браузере последующий URL (взамен site.ru - заглавие вашего домена):

Раз благодаря чему адресу выдается некоторое иное содержание, кроме текстового файла с директивами для поисковых роботов, из этого можно сделать вывод, что файл отсутствует на веб-сайте и надлежит загрузить файл robots.txt в корневую директорию веб-сайта, написав ему корректное содержание.

Неграмотно составленный файл robots.txt ограничивает поисковому боту доступ к релевантной информации и уменьшает число проиндексированного контента на веб-сайте, собственно противоречит главной цели оптимизации: разрешить боту проиндексировать по возможности более нужного и высококачественного контента.

Самый несложный прием перекрыть web-сайт от индексации - написать в файлике robots.txt «Disallow: /». Нередко этой системой используют при редизайне или же творении веб-сайта, когда вовсе не обязательно, чтобы поисковый бот проиндексировал неготовые странички. Хотя непременно в последствии окончания всех дел необходимо снять данное ограничение. Чтоб проверить собственный web-сайт насчет запрета индексации, нужно будет зайти в адрес www.site.ru/robots.txt (взамен site.ru ваш веб-сайт) и поглядеть содержание директивы Disallow.

Систему «Disallow: /» надлежит сменить на «Аllow: /» или же «Disallow: ».

Посредством всевозможных систем возможно закрывать от индексации одни сегменты web-сайта, открывать иные и даже трудиться с отдельными страничками. Но при работе с robots.txt надлежит быть максимально осмотрительным: ошибочно используя системы «Allow-Disallow», можно ненароком перекрыть от индексации раздел с нужной и оригинальной информацией.

Осмотрим обстановку, при которой имеет возможность появиться оплошность с применением системы «Allow- Disallow».

На веб-сайте есть раздел, посвященный технике. Он не вполне готов, и мы не желаем, чтоб он индексировался. Чтобы достичь желаемого результата мы перекрываем его индексацию: «Disallow: / catalog». Хотя в следствии данной системы мы перекрываем от индексации очень хорошо работающий и полный раздел про машины (/catalog/ auto). Верно бы было прикрыть раздел «Disallow: /catalog/ tech».

Чтоб выяснить, индексируется какой-нибудь раздел веб-сайта или же нет, можно пользоваться сервисами «Выяснить URL» или же «Выяснить robots.txt». При применении инструмента «Выяснить URL» нужно ввести адресок хоть какой странички из проверяемого раздела в надлежащую строчку. Ежели раздел запрещен к индексации, то покажется извещение. При применении инструмента «Выяснить robots.txt» надлежит показать, с какого веб-сайта загрузить robots.txt. Далее через гиперссылку «Прибавить» необходимо показать перечень URL для проверки. В последствии нажатия на клавишу «Выяснить» по любому введенному адресу станет указан итог проверки. Осмотрим на последующей страничке образец.

Нужными для гостя считаются такие странички, как новинки, галереи, различного рода заметки. В том числе и ежели информация не неповторима, мы её не перекрываем от индексации. Накрываем от индексации исключительно порожние странички, на которых нет контента, помимо ключевого дизайна веб-сайта, дорвеи, полный дубль снутри веб-сайта.

При составлении техзадания на доработки web-сайта неотъемлемым шагом считается ревизия файла robots.txt. Надо поглядеть, какие сборники и странички перекрыты от индексации директивой Disallow. Насколько возможно необходимо зайти на данные странички и оценить, насколько их содержание может быть полезно для юзера и для поисковых роботов. Когда замкнутые сборники и странички предполагают значение для юзера и для поисковых роботов и вовсе не считаются служебными каталогами и дубликатами страничек, надо открыть их для индексации, изменив содержание директивы Disallow.

Noindex и nofollow

Воспретить индексировать какую-нибудь страничку возможно не совсем только при помощи файла robots.txt, но и при помощи мета-тега «ROBOTS» в заголовках любой странички. Этому мета-тегу имеют все шансы подходить 4 ценности, которые указываются в атрибуте CONTENT:

index - регистрировать,

noindex - не регистрировать,

follow - идти по стопам по гиперссылкам,

nofollow - не идти по стопам по гиперссылкам.

Ежели «index» и «follow» напакостить не имеют возможности (их нужно применять исключительно при открытии некой странички для индексации и учета гиперссылок), то ошибочно расставленные «noindex» и «nofollow» могут представлять опасность.

Раз на страничке существует последующий код, то эта страничка станет недосягаема для поискового бота, и она не станет принять участие в ранжировании.

Раз мы желаем, чтоб страничка индексировалась, но не передавала вес ни по одной гиперссылке, дабы бот не переходил по гиперссылкам с этой странички, то надлежит применять последующий код.

А раз потребуется применить два правила, то в атрибуте «content» через запятую указываются 2 параметра.

Ежели с файлом robots.txt все в норме, но страничка никак не желает индексироваться, надлежит выяснить мета-теги «robots» на ней. Это возможно сделать как вручную, так и при помощи Яндекс.Вебмастер. В разделе «Исключенные странички» станет указана группа «Документ имеет мета-тег noindex».

А как поступить, ежели потребуется воспретить к индексации не всю страничку, а отдельные фрагменты кода? К примеру, когда они содержат бессмысленный либо не уникальный контент? Может помочь тег <noindex></noindex>.

Трудиться с ним просто - в коде веб-сайта нужно заключить подходящий текст меж этими тегами. К примеру:

Перебарщивать с этим тегом нельзя. Поисковая система станет видеть несвязный текст или же его недоступность исходя из закрытия, и эта страничка сможет посчитаться спамной.

Атрибут rel гиперссылки со значением «nofollow» извещает поисковой системе, что эту ссылку не стоит принимать во внимание при индексировании странички. К примеру:

Поисковые системы не предусматривают гиперссылки с таковым атрибутом при расчёте индекса цитирования веб-ресурсов. Перекрывая таким образом гиперссылки, мы бережём авторитет странички на веб-сайте, не передавая его наружным веб-сайтам. Стоит заметить что раскрутка сайта своими руками в больше степени трудоёмкий процесс.

Настройка sitemap.xml

Sitemap.xml - это файл формата xml, имеющий гиперссылки на все странички веб-сайта, подлежащие индексации поисковыми системами. При помощи данного файла возможно показать роботу-индексатору, какие странички надлежит индексировать, как нередко это стоит делать и какие странички имеют самое большое значение. Поэтому кроме адресов страничек веб-*сайта в xml карте web-сайта еще имеют все шансы находиться относящиеся к ним данные.

 

Дата публикации: 14 декабря 2012 в 13:01