Что на сайте нужно закрывать к индексации, зачем и как это делать. Robots txt не индексировать сайт


Как закрыть сайт от индексации в Robots.txt на время разработки?

Закрытие сайта от индексации в файле Robots.txt

  Прячем в роботс.тхт всё, кроме главной

Нередко возникает необходимость скрыть в файле Robots.txt разделы или отдельные страницы сайта от «глаз» поисковых роботов. Это дело известное и причины для него могут быть разные: удаление дублей контента из индекса, выкидывание «застрявших» в индексе несуществующих страниц и т.д.

Однако при создании нового сайта бывает полезным закрыть от индексации всё, кроме главной страницы.

Например, вы создаёте интернет-магазин и дальше главной роботу лучше не ходить — чтобы не индексировать пока ещё «кривые» страницы (иначе в дальнейшем могут быть торможения при продвижении..).

Почему лучше оставить главную? В этом случае ПС узнает о существовании нового сайта и начнётся т.н. увеличение траста вашего ресурса (а иначе бы поисковик узнал о вашем проекте только при его полном запуске).

Так что если вам нужно оставить сайт открытым для пользователей, но закрыть всё «нутро» от поисковых систем и в то же время — заявить о себе поисковикам, то можно применить файл Robots.txt для этих целей. Как это делается — написано дальше.

Как закрыть сайт от индексации в Robots.txt, оставив поисковикам главную страницу?

Недавно у меня возникла такая задача, пришлось немного подумать. Как оказалось, всё очень просто — составляем такой Robots.txt:

User-agent: * Disallow: / Allow: /$

Вот и всё. Эффект от этого можно проверить инструментом Яндекса для анализа robots.txt.

Как закрыть сайт от индексации с помощью Robots.txt полностью:

Если вообще весь ресурс нужно спрятать от поисковиков, то это совсем просто:

User-agent: *Disallow: /

Таким образом, если на период разработки сайта вы не желаете «отдавать» ПС внутренние недоделанные страницы, но хотите уже пустить туда пользователей — закрывайте в robots.txt от индексации всё, кроме главной. И не забудьте отредактировать данный файл, когда решите пустить и роботов ;).

Loading...

web-ru.net

Индексация сайта – файл Robots.txt

Поисковой робот — это программа которая является частью поисковой системы. Робот перебирает страницы в интернете (индексирует) и заносит информацию о них в свою базу данных. Программа так же возвращается через определенные периоды времени и индексирует страницу снова для сохранения только актуальной информации о ресурсе. Таким образом проиндексирован может быть любой файл или документ на которые имеется ссылка. Вся информация, которую собирает робот заносится в индексы поисковой системы.

В первую очередь переходя на Ваш сайт поисковой робот ищет файл robots.txt. Если есть директории или контент, который Вы хотите скрыть от индексации, что бы при отображении сайта в поиске не отображались ссылки на административные панели и т.д. то должны изучить инструкцию по настройке данного файла.

Текстовый файл robots.txt должен находиться в корневой директории Вашего сайта. В нём записываются определенные инструкции для роботов из поисковых систем. В инструкции может быть запрещена индексация раздела или страницы сайта. Могут быть указаны зеркала домена. Так же можно рекомендовать роботу скачивать документы с сервера через определенные интервалы.

Для того что бы создать файл robots.txt не нужно каких-либо особых знаний. Достаточно просто переименовать простой текстовый файл (.txt) в robots.txt . Все редактирования можно производить в любом текстовом редакторе.

Перед тем как давать команды, нужно определиться для каких поисковых роботов они предназначены. Это делается командой User-agent.

User-agent: * #написанные команды будут обращены ко всем поисковым роботам User-agent: YandexBot #основной робот Яндекса User-agent: GoogleBot #основной робот Google

После того как мы определились с поисковым роботом, познакомимся с основной функцией всего файла. Эта функция разрешает и запрещает индексацию, и имеет две соответствующие команды

Allow — Можно индексировать.

Disallow — Нельзя индексировать.

User-agent: * Disallow: /administrator/ #запрещает индексацию в директорию «администратора» User-agent: GoogleBot # обращаемся к боту Google Allow: /blog #Разрешаем индексировать директорию blog Disallow: / #а всё остальное запрещаем User-agent: YandexBot # обратимся к боту Яндекса Disallow: / #запрещаем индексировать весь сайт

При этом порядок написания условий не важен.

User-agent: GoogleBot Allow: /blog Disallow: / User-agent: YandexBot Disallow: / Allow: /blog

Для того что бы поисковой робот знал какие файлы и страницы на сайте присутствуют, существует специальный файл sitemap.xml . В файле находится карта вашего сайта.

Sitemap: //site.ru/sitemap.xml # адрес карты сайта

В конце Вашего файла robots.txt должна быть команда Host которая обозначает главное зеркало. Указываться может только один раз, в противном случае последующие записи этой функции будут проигнорированы.

Host: //site.ru # зеркало сайта

Приведем примеры:

User-agent: * Disallow: /administrator Disallow: /blog Allow: /images Host: //site.ru

НО! По умолчанию Google игнорирует параметр Host, поэтому поступаем следующим методом:

User-agent: * Disallow: /administrator Host: //site.ru #главное зеркало User-agent: GoogleBot # а теперь указываем команды для Google Disallow: /administrator

Если файл Robots.txt превышает 32kb, то он по умолчанию разрешает всё и для всех.

Проверить Ваш файл Robots.txt поможет Яндекс.Вебмастер или Google проверка

Пример готового файла (WordPress) :

User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php

 

pogudo.ru

Правильный файл robots.txt для Вордпресс

data-ad-client="ca-pub-9038233983914754"data-ad-slot="5706208564">

robots.txt картинка

Не хотелось писать долгих предысторий по поводу того, для чего нужен файл robots.txt, в то же время  я хочу, чтобы был понятен смысл использования этого инструмента. Можно, конечно, обойтись и без него, но лучше. чтобы он был, если вы хотите, чтобы поисковый  робот шел к страницам вашего сайта не через Колыму, собирая все подряд на своем пути, а по пути наименьшего сопротивления.

Любая CMS в процессе работы создает множество дублей. Наверное, вы уже слышали о том, что дубли страниц с одинаковым контентом не приветствуются поисковиками. Более того, всякая дублированная страница расценивается роботом, как плагиат, только в пределах одного сайта. Поэтому, наша задача состоит в том, чтобы закрыть их от индексирования с помощью файла robots.txt. Кроме того, поисковый робот сканирует и панель администратора, и плагины, и установленную тему, и архивы и все остальное, до чего доберется, в общем все то, что совсем не интересно нашим посетителям и совсем не обязательно, чтобы вся эта информация выдавалась бы в поиске по запросу нашего сайта.

—      Казалось бы, ну и пусть, но дело в том, что время пребывания робота на каждом сайте ограничено, и если не указать ему сразу правильный путь, то может случиться так, что до того контента, который вы хотите видеть в страницах поиска, он так и не доберется, или доберется, но слишком поздно. Это особенно актуально для новостных сайтов, когда время-деньги, в прямом понимании этого слова.

—     Сайт без файла robots.txt  очень похож на дом, в котором  есть книжные полки и хозяйка решила затеять уборку к приходу гостей.  Начав протирать пыль с полочек, случайно увидела книжку, которую читала еще в юности и нахлынули воспоминания, смотрит, а рядышком еще одна, тоже любимая, а вот и альбомчик с фотографиями, там её дети в возрасте до годика, опа — а вот  и старый школьный дневник (интересно как он сюда попал) и пошло поехало, в итоге гости звонят в дверь, а уборка не успела и начаться. Ну что делать, нужно все сворачивать и встречать гостей, а дом так и остался не убранным. Вот так примерно, все и происходит, робот дотягивается до всего, до чего сможет дотянуться. И получается, что время у поисковика закончилось, а сайт  в нужном месте так и не проиндексирован, хотя робот, вроде как и заходил.

 

 

Смысл создания файла robots.txt запретить роботу индексирование тех или иных страниц нашего сайта, не представляющих ценность для посетителей, а так же указать путь следования роботу, для быстрого поиска нужного контента.  Другими словами, это инструкция для поискового робота в отношении путешествия по ресурсу.

  

Файл robots.txt пишется в обыкновенном редакторе, будь то Блокнот или Notepad++, сохраняется под именем robots.txt и закидывается в корень вашего сайта, (именно отсюда робот и начинает читать инструкции по посещению вашего ресурса).

 

В названии указываются только буквы нижнего регистра. В любое время вы можете изменить запреты на индексирование сайта, выставленные изначально, и задать другие, чтобы выявить наиболее подходящий вариант конструкции файла для вашего сайта. Возможно, что когда-нибудь вы решите сделать полную перестройку своего ресурса и в это время вам не нужна будет индексация для попадания в поиск, этот запрет тоже можно будет отразить в файле robots.tx.

 

Классический файл robot.txt для Вордпресс выглядит вот так:

 

User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Host: site.ru Sitemap: http://site.ru/sitemap.xml.gz Sitemap: http://site.ru/sitemap.xml

Проверить структуру файла любого интересующего вас ресурса можно очень просто, дописав к названию сайта через слэш название файла, например: http://zhakanov.com/robots.txt. Но не спешите быстро менять что-то в своем robots.txt если вдруг на каком-то ресурсе вы обнаружили несколько иную конструкцию файла. Во-первых, для каждого ресурса прописывается именно свой файл, а во-вторых для каждой СМS конструкция этого файла будет своя. Например для WordPress, Joomla, Drupal и др. файлы конфигурации будут отличаться друг от друга.

Теперь давайте рассмотрим, из чего состоит сам файл.

 

Обязательным условием правильности составления файла является присутствие в структуре файла  двух директив— User-agent и Disallow. 

 

User-agent (оператор поиска) - определяет какому поисковому роботу адресуется правило.

Disallow (запрещать) —  определяет какие директории нашего сайта запрещено индексировать.  

Пустой файл robots.txt будет говорить о том, что разрешена индексация всего сайта. Поэтому, чтобы поставить роботам ограничения на индексацию ненужного для пользователя контента, в файле нужно сделать необходимые записи.

data-ad-client="ca-pub-9038233983914754"data-ad-slot="5706208564">

 

1.Чтобы задать одинаковые правила для всех роботов нужно в директиве «User-agent» вместо названия прописать символ «звездочку»  

 

User-Agent: *

 

2.Если вы хотите в «User-agent» прописать условия для какого-то определенного робота, то нужно указать название этого бота. 

 

Для Google (http://www/google.com)

User-Agent: googlebot

Для Яндекс (http://www.ya.ru)

User-Agent: Yandex

Для Рамблер (http://www.rambler.ru)

User-Agent: StackPambler

Для Yahoo! (http://www.yahoo.com)

User-Agent: Slurp

Для Alexа (http://www.alexa.com)

User-Agent: ia_arhiver

Для Mail.ru (http://mail.ru)

User-Agent: Mail.Ru

— Робот каждой поисковой системы имеет свое название, некоторые из них приведены выше:

 

Роботы Яндекса имеют разные целевые назначения. Особенно. хотелось бы акцентировать внимание на ботах, которые индексируют изображения и мультимедийные файл, возможно, что кому то это важнее, чем робот, индексирующий контент, которого на сайте минимум. 

 

  • 'YandexBot' — основной индексирующий робот
  •  'YandexMedia' — робот, индексирующий мультимедийные данные;
  •  'YandexImages' — индексатор Яндекс картинок
  •  'YandexCatalog' — «простукивалка» Яндекс каталога используется для временного снятия с публикации недоступных сайтов в Каталоге;
  •  'YaDrectFetcher' — робот Яндекс Директа, интерпретирует robots.txt особым образом
  •  'YandexBlogs' — робот поиска  по блогам, индексирующий посты и комментарии;
  •  'YandexNews' — робот Яндекс новостей
  •  ‘YandexMetrika’ — робот  Яндекс метрики
  •  ‘YandexMarket’— робот  Яндекс Маркета
  •  ‘YandexCalendar’ — робот Яндекс календаря

Для каждого из них также действительно правило: если обнаружены директивы для конкретного робота, то директивы 'User-agent: Yandex'  и 'User-agent *'  не используются.

Теперь разберем несколько примеров написания директив и рассмотрим их действие:

1. Код, который разрешает роботам всех поисковых систем индексировать все содержимое сайта без исключения. Достигается это за счет пустой директории в Disallow.

2. Код запрещает всем поисковикам индексировать все содержимое ресурса. Это запрещение устанавливается путем добавления символа «/» в строке с директивой Disallow: 

User-Agent: * Disallow: /

3. Код ниже, будет запрещаться всем ботам индексировать каталог с картинками «image».

User-Agent: * Disallow: /image/

 

4. Если при написании файла, папку оставить не закрытой символом «/»,  будут запрещены директория «image», а так же все файлы и директории, начинающиеся с символов «image», (т. е. файлы: «image.htm», «images.htm», каталоги: «image», «images1», «image34») и т. д.

 

User-Agent: * Disallow: /image

 

5. Следующий пример кода запрещает всем поисковикам индексацию файлов с расширение «.aspx»:  Символ * означает любую (в том числе пустую) последовательность символов.

Если прочитать дословно этот код, то выглядеть будет так: всем поисковым роботам запрещается индексация всех файлов с расширением .aspx

 

User-Agent: * Disallow: * .aspx

Для робота Yаndex условия прописываются отдельно, в robots.txt добавляется директива Host (которую понимает только бот Яндекса), она указывает роботу на главное зеркало сайта. Здесь может быть указано название сайта как с www, так и без него, смотря что у вас заявлено в качестве главного зеркала (протокол http:// не прописывается).

Согласно правилам написания файла, в записи для User-agent должна быть хотя бы одна директива Disallow (обычно ставят пустую, ничего не запрещающую):

User-Agent: Yandex Disallow: Host: www.site.ru

 

Так же в конфигурацию файла, обязательно, включается директива Sitemap, которая указывает на местоположение файла карты сайта (обычно это файл Sitemap.xml, но не всегда). Название сайта указывается вместе с протоколом соединения с главного зеркала сайта. В данном примере указаны две строчки файла карты, первый из которых указывает на архив этого файла. Если вы будете делать карту с помощью плагинов, то вам предложат отметить пункт — создать сжатый архив файла или нет. В данном случае архив файла будет создаваться.

 

Sitemap: http://site.ru/sitemap.xml.gz Sitemap: http://site.ru/sitemap.xml

Почти каждый начинающий Вебмастер, столкнувшийся с созданием файла robots.txt, перелопатив интернет и обнаружив множество различных конфигураций файла , задается вопросом: «Какая структура файла будет правильной?»  

 

По мне так, однозначного ответа на этот вопрос нет. Есть условия, которые необходимо выполнить при создании такого файла, их мы рассмотрели выше.

Далее, нужно проанализировать свой блог на предмет индексации, и только потом решить, какая конструкция будет правильной, именно для вашего сайта.  Для этого введите в поисковую строку адрес своего сайта и посмотрите, какие страницы проиндексированы роботом. Причем сделать это нужно в разных поисковых системах. После того, как я это проделал со своим сайтом я обнаружил среди проиндексированных страниц одну непонятно-какую, ведущую в никуда, адрес страницы был вот такой:

zhakanov.com/ cgi-sys/defaultwebpage.cgi

Естественно, обнаружив такой трофей, я быстренько внес на него запрет в конструкцию своего файла. Запрет на индексирование Категорий можно применить не на каждом сайте, поэтому я не включаю эту опцию в раздел необходимых, возможно, что у кого-то категория это единственный путь для вывода материалов на сайте.

На данный момент, я пытаюсь анализировать свой сайт на предмет индексации поисковыми роботами, и периодически буду менять свой файл robots.txt, пока не найду оптимального результата. 

 

В итоге, по определенным соображениям, у меня получился вот такой файл robots.txt, у вас, возможно получится немного другой. 

User-Agent: * Disallow: /CGI-BIN - запрещены файлы сервера Disallow: /cgi-sys - запрещены файлы сервера Disallow: /wp-login.php - файлы администрирования Disallow: /wp-register.php - файлы администрирования Disallow: /WP-admin - файлы администрирования Disallow: /WP-includes - файлы администрирования Disallow: /wp-content/plugins- запрещены все файлы плагинов Disallow: /wp-content/cache - запрещены все файлы кэш Disallow: /wp-content/themes - запрещены все файлы темы Disallow: */comments - запрещены комментарии Disallow: /*?* - запрещены все страницы Disallow: /*? с нечеловеческими ссылками Disallow: /Archive - запрещены все файлы архивов Disallow: */trackback - запрещены трекбеки со всех страниц Disallow: /trackback - запрещены все файлы трекбеков Disallow: */*/Archive - запрещены страницы архивов Disallow: */*/feed/*/ - запрещены все папки с фидами Disallow: */feed - запрещены фиды со всех страниц User-Agent: Yandex Disallow: /CGI-BIN Disallow: /cgi-sys Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /WP-admin Disallow: /WP-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: */comments Disallow: /*?* Disallow: /*? Disallow: /Archive Disallow: */trackback Disallow: /trackback Disallow: */*/Archive Disallow: */*/feed/*/ Disallow: */feed Host: www.zhakanov.com Sitemap: http://www.zhakanov.com/sitemap.xml.gz Sitemap: http://www.zhakanov.com/sitemap.xml

 Как проверить файл robots.txt на посещение им ресурса читайте по ссылке.

 

 

Присоединяйтесь к обсуждению на форуме

data-ad-client="ca-pub-9038233983914754"data-ad-slot="5706208564">

www.zhakanov.com

Как закрыть от индексации страницу,  сайт, ссылки, текст. Что нужно запрещать индексировать в robots.txt  

Наш аналитик Александр Явтушенко недавно поделился со мной наблюдением, что у многих сайтов, которые приходят к нам на аудит, часто встречаются одни и те же ошибки. Причем эти ошибки не всегда можно назвать тривиальными – их допускают даже продвинутые веб-мастера. Так возникла идея написать серию статей с инструкциями по отслеживанию и исправлению подобных ошибок. Первый в очереди – гайд по настройке индексации сайта. Передаю слово автору.

Для хорошей индексации сайта и лучшего ранжирования страниц нужно, чтобы поисковик обходил ключевые продвигаемые страницы сайта, а на самих страницах мог точно выделить основной контент, не запутавшись в обилие служебной и вспомогательной информации.У сайтов, приходящих к нам на анализ, встречаются ошибки двух типов:

1. При продвижении сайта их владельцы не задумываются о том, что видит и добавляет в индекс поисковый бот. В этом случае может возникнуть ситуация, когда в индексе больше мусорных страниц, чем продвигаемых, а сами страницы перегружены.

2. Наоборот, владельцы чересчур рьяно взялись за чистку сайта. Вместе с ненужной информацией могут прятаться и важные для продвижения и оценки страниц данные.

Сегодня мы хотим рассмотреть, что же действительно стоит прятать от поисковых роботов и как это лучше делать. Начнём с контента страниц.

Контент

Проблемы, связанные с закрытием контента на сайте:

Страница оценивается поисковыми роботами комплексно, а не только по текстовым показателям. Увлекаясь закрытием различных блоков, часто удаляется и важная для оценки полезности и ранжирования информация.

Приведём пример наиболее частых ошибок:– прячется шапка сайта. В ней обычно размещается контактная информация, ссылки. Если шапка сайта закрыта, поисковики могут не узнать, что вы позаботились о посетителях и поместили важную информацию на видном месте;

– скрываются от индексации фильтры, форма поиска, сортировка. Наличие таких возможностей у интернет-магазина – важный коммерческий показатель, который лучше показать, а не прятать.– прячется информация об оплате и доставке. Это делают, чтобы повысить уникальность на товарных карточках. А ведь это тоже информация, которая должна быть на качественной товарной карточке.– со страниц «вырезается» меню, ухудшая оценку удобства навигации по сайту.

Зачем на сайте закрывают часть контента? Обычно есть несколько целей:– сделать на странице акцент на основной контент, убрав из индекса вспомогательную информацию, служебные блоки, меню;– сделать страницу более уникальной,  полезной, убрав дублирующиеся на сайте блоки;– убрать «лишний» текст, повысить текстовую релевантность страницы.

Всего этого можно достичь без того, чтобы прятать часть контента!У вас очень большое меню?Выводите на страницах только те пункты, которые непосредственно относятся к разделу.

Много возможностей выбора в фильтрах?Выводите в основном коде только популярные. Подгружайте остальные варианты, только если пользователь нажмёт кнопку «показать всё». Да, здесь используются скрипты, но никакого обмана нет – скрипт срабатывает по требованию пользователя.  Найти все пункты поисковик сможет, но при оценке они не получат такое же значение, как основной контент страницы.

На странице  большой блок с новостями?Сократите их количество, выводите только заголовки или просто уберите блок новостей, если пользователи редко переходят по ссылкам в нём или на странице мало основного контента.

Поисковые роботы хоть и далеки от идеала, но постоянно совершенствуются. Уже сейчас Google показывает скрытие скриптов от индексирования как ошибку в панели Google Search Console (вкладка «Заблокированные ресурсы»).  Не показывать часть контента роботам действительно может быть полезным, но это не метод оптимизации, а, скорее, временные «костыли», которые стоит использовать только при крайней необходимости.

Мы рекомендуем:– относиться к скрытию контента, как к «костылю», и прибегать к нему только в крайних ситуациях, стремясь доработать саму страницу;– удаляя со страницы часть контента, ориентироваться не только на текстовые показатели, но и оценивать удобство и информацию, влияющую на коммерческие факторы ранжирования;– перед тем как прятать контент, проводить эксперимент на нескольких тестовых страницах. Поисковые боты умеют разбирать страницы и ваши опасения о снижение релевантности могут оказаться напрасными.

Давайте рассмотрим, какие методы используются, чтобы спрятать контент:

Тег noindex

У этого метода есть несколько недостатков. Прежде всего этот тег учитывает только Яндекс, поэтому для скрытия текста от Google он бесполезен. Помимо этого, важно понимать, что тег запрещает индексировать и показывать в поисковой выдаче только текст. На остальной контент, например, ссылки, он не распространяется.

Это видно из самого описания тега в справке Яндекса.

Поддержка Яндекса не особо распространяется о том, как работает noindex. Чуть больше информации есть в одном из обсуждений в официальном блоге.

Вопрос пользователя:

«Не до конца понятна механика действия и влияние на ранжирование тега <noindex>текст</noindex>. Далее поясню, почему так озадачены. А сейчас — есть 2 гипотезы, хотелось бы найти истину.

№1 Noindex не влияет на ранжирование / релевантность страницы вообще

При этом предположении: единственное, что он делает — закрывает часть контента от появления в поисковой выдаче. При этом вся страница рассматривается целиком, включая закрытые блоки, релевантность и сопряженные параметры (уникальность; соответствие и т. п.) для нее вычисляется согласно всему имеющему в коде контенту, даже закрытому.

№2 Noindex влияет на ранжирование и релевантность, так как закрытый в тег контент не оценивается вообще. Соответственно, все наоборот. Страница будет ранжироваться в соответствии с открытым для роботов контентом.»

Ответ:

noindex-yandex-img5-minnoindex-yandex-img5-min

 

В каких случаях может быть полезен тег:– если есть подозрения, что страница понижена в выдаче Яндекса из-за переоптимизации, но при этом занимает ТОПовые позиции по важным фразам в Google. Нужно понимать, что это быстрое и временное решение. Если весь сайт попал под «Баден-Баден», noindex, как неоднократно подтверждали представители Яндекса, не поможет;– чтобы скрыть общую служебную информацию, которую вы из-за корпоративных ли юридических нормативов должны указывать на странице;– для корректировки сниппетов в Яндексе, если в них попадает нежелательный контент.

Скрытие контента с помощью AJAX

Это универсальный метод. Он позволяет спрятать контент и от Яндекса, и от Google. Если хотите почистить страницу от размывающего релевантность контента, лучше использовать именно его. Представители ПС такой метод, конечно, не приветствую и рекомендуют, чтобы поисковые роботы видели тот же контент, что и пользователи.Технология использования AJAX  широко распространена и если не заниматься явным клоакингом, санкции за её использование не грозят.  Недостаток метода – вам всё-таки придётся закрывать доступ к скриптам, хотя и Яндекс и Google этого не рекомендуют делать.

Страницы сайта

Для успешного продвижения важно не только избавиться от лишней информации на страницах, но и очистить поисковый индекс сайта от малополезных мусорных страниц.Во-первых, это ускорит индексацию основных продвигаемых страниц сайта. Во-вторых, наличие в индексе большого числа мусорных страниц будет негативно влиять на оценку сайта и его продвижение.

Сразу перечислим страницы, которые целесообразно прятать:

– страницы оформления заявок, корзины пользователей;– результаты поиска по сайту;– личная информация пользователей;– страницы результатов сравнения товаров и подобных вспомогательных модулей;– страницы, генерируемые фильтрами поиска и сортировкой;– страницы административной части сайта;– версии для печати.

Рассмотрим способы, которыми можно закрыть страницы от индексации.

Закрыть в  robots.txt

Это не самый лучший метод.

Во-первых, файл robots не предназначен для борьбы с дублями и чистки сайтов от мусорных страниц. Для этих целей лучше использовать другие методы.

Во-вторых, запрет в файле robots не является гарантией того, что страница не попадёт в индекс.

Вот что Google пишет об этом в своей справке:

indeksaciya-robots-img1-minindeksaciya-robots-img1-min

Работе с файлом robots.txt посвящена статья в блоге Siteclinic «Гайд по robots.txt: создаём, настраиваем, проверяем».

Метатег noindex

Чтобы гарантированно исключить страницы из индекса, лучше использовать этот метатег.

Рекомендации по синтаксису у Яндекса и Google отличаются.

Ниже приведём вариант метатега, который понимают оба поисковика:

<meta name="robots" content="noindex, nofollow">

Важный момент!

Чтобы Googlebot увидел метатег noindex, нужно открыть доступ к страницам, закрытым в файле robots.txt. Если этого не сделать, робот может просто не зайти на эти страницы.

Выдержка из рекомендаций Google:

indeksaciya-noindex-img2-minindeksaciya-noindex-img2-min

Рекомендации Google.

Рекомендации Яндекса.

Заголовки X-Robots-Tag

Существенное преимущество такого метода в том, что запрет можно размещать не только в коде страницы, но и через корневой файл .htaccess.

Этот метод не очень распространён в Рунете. Полагаем, основная причина такой ситуации в том, что Яндекс этот метод долгое время не поддерживал.В этом году сотрудники Яндекса написали, что метод теперь поддерживается.

х-robots-tag-yandex-img3-minх-robots-tag-yandex-img3-min

Ответ поддержки подробным не назовёшь))). Прежде чем переходить на запрет индексации, используя X-Robots-Tag, лучше убедиться в работе этого способа под Яндекс. Свои эксперименты на эту тему мы пока не ставили, но, возможно, сделаем в ближайшее время.

Подробные рекомендации по использованию заголовков X-Robots-Tag от Google.

Защита с помощью пароля

Этот способ Google рекомендует, как наиболее надёжный метод спрятать конфиденциальную информацию на сайте.

blokirovka-parolem-img4-minblokirovka-parolem-img4-min

Если нужно скрыть весь сайт, например, тестовую версию, также рекомендуем использовать именно этот метод. Пожалуй, единственный недостаток – могут возникнуть сложности в случае необходимости просканировать домен, скрытый под паролем.

Исключить появление мусорных страниц c помощью AJAX

Речь о том, чтобы не просто запретить индексацию страниц, генерируемых фильтрами, сортировкой и т. д., а вообще не создавать подобные страницы на сайте.

Например, если пользователь выбрал в фильтре поиска набор параметров, под которые вы не создавали отдельную страницу, изменения в товарах, отображаемых на странице, происходит без изменения самого URL.

Сложность этого метода в том, что обычно его нельзя применить сразу для всех случаев. Часть формируемых страниц используется для продвижения.

Например, страницы фильтров. Для «холодильник + Samsung + белый» нам нужна страница, а для «холодильник + Samsung + белый + двухкамерный + no frost» – уже нет.

Поэтому нужно делать инструмент, предполагающий создание исключений. Это усложняет задачу программистов.

Использовать методы запрета индексации от поисковых алгоритмов

«Параметры URL» в Google Search Console

Этот инструмент позволяет указать, как идентифицировать появление в URL страниц новых параметров.

indeksaciya-parametr-url-img6-minindeksaciya-parametr-url-img6-min

Директива Clean-param в robots.txt

В Яндексе аналогичный запрет для параметров URL можно прописать, используя директиву Clean-param.Почитать об этом можно в блоге Siteclinic.

Канонические адреса, как профилактика появления мусорных страниц на сайтеЭтот метатег был создан специально для борьбы с дублями и мусорными страницами на сайте. Мы рекомендуем прописывать его на всём сайте, как профилактику появления в индексе дубле и мусорных страниц.

Рекомендации Яндекса.

Рекомендации Google.

Инструменты точечного удаления страниц из индекса Яндекса и Google

Если возникла ситуация, когда нужно срочно удалить информацию из индекса, не дожидаясь, пока ваш запрет увидят поисковые работы, можно использовать инструменты из панели Яндекс.Вебмастера и Google Search Console.

В Яндексе это «Удалить URL»:

yandex-udalit-url-img7-minyandex-udalit-url-img7-min

В Google Search Console «Удалить URL-адрес»:

google-udalit-url-img8-mingoogle-udalit-url-img8-min

Внутренние ссылки

Внутренние ссылки закрываются от индексации для перераспределения внутренних весов на основные продвигаемые страницы. Но дело в том, что:– такое перераспределение может плохо отразиться на общих связях между страницами;– ссылки из шаблонных сквозных блоков обычно имеют меньший вес или могут вообще не учитываться.

Рассмотрим варианты, которые используются для скрытия ссылок:

Тег noindex

Для скрытия ссылок этот тег бесполезен. Он распространяется только на текст.

ssilki-noindex-yandex-img9-minssilki-noindex-yandex-img9-min

Атрибут rel=”nofollow”

Сейчас атрибут не позволяет сохранять вес на странице. При использовании rel=”nofollow” вес просто теряется. Само по себе использование тега для внутренних ссылок выглядит не особо логично.

Представители Google рекомендуют отказаться от такой практики.

Рекомендацию Рэнда Фишкина:

rel-nofollow-links-img10-minrel-nofollow-links-img10-min

Скрытие ссылок с помощью скриптов

Это фактически единственный рабочий метод, с помощью которого можно спрятать ссылки от поисковых систем. Можно использовать Аjax и подгружать блоки ссылок уже после загрузки страницы или добавлять ссылки, подменяя скриптом тег <span> на <a>. При этом важно учитывать, что поисковые алгоритмы умеют распознавать скрипты.

Как и в случае с контентом – это «костыль», который иногда может решить проблему. Если вы не уверены, что получите положительный эффект от спрятанного блока ссылок, лучше такие методы не использовать.

Заключение

Удаление со страницы объёмных сквозных блоков действительно может давать положительный эффект для ранжирования. Делать это лучше, сокращая страницу, и выводя на ней только нужный посетителям контент. Прятать контент от поисковика – костыль, который стоит использовать только в тех случаях, когда  сократить другими способами сквозные блоки нельзя.

Убирая со страницы часть контента, не забывайте, что для ранжирования важны не только текстовые критерии, но и полнота информации, коммерческие факторы.

Примерно аналогичная ситуация и с внутренними ссылками. Да, иногда это может быть полезно, но искусственное перераспределение ссылочной массы на сайте – метод спорный. Гораздо безопаснее и надёжнее будет просто отказаться от ссылок, в которых вы не уверены.

Со страницами сайта всё более однозначно. Важно следить за тем, чтобы мусорные, малополезные страницы не попадали в индекс. Для этого есть много методов, которые мы собрали и описали в этой статье.

Вы всегда можете взять у нас консультацию по техническим аспектам оптимизации, или заказать продвижение под ключ, куда входит ежемесячный seo-аудит.

ОТПРАВИТЬ ЗАЯВКУ

 

Автор: Александр, SEO аналитик SiteClinic.ru

[email protected]

optimizatorsha.ru

Как запретить индексацию страницы с помощью robots.txt?

Как запретить индексацию страницы в robots.txt

От автора: У вас на сайте есть страницы, которые вы бы не хотели показывать поисковым системам? Из этой статье вы узнаете подробно о том, как запретить индексацию страницы в robots.txt, правильно ли это и как вообще правильно закрывать доступ к страницам.

Итак, вам нужно не допустить индексацию каких-то определенных страниц. Проще всего это будет сделать в самом файле robots.txt, добавив в него необходимые строчки. Хочу отметить, что адреса папок мы прописывали относительно, url-адреса конкретных страниц указывать таким же образом, а можно прописать абсолютный путь.

Допустим, на моем блоге есть пару страниц: контакты, обо мне и мои услуги. Я бы не хотел, чтобы они индексировались. Соответственно, пишем:

User-agent: * Disallow: /kontakty/ Disallow: /about/ Disallow: /uslugi/

User-agent: *

Disallow: /kontakty/

Disallow: /about/

Disallow: /uslugi/

Практический курс по верстке адаптивного лендинга с нуля!

Научитесь с нуля верстать адаптивные лендинги на HTML5 и CSS3 за ближайшие 6 дней

Узнать подробнее

Естественно, указываем настоящие url-адреса. Если же вам необходимо не индексировать страничку http://blog.ru/about-me, то в robots.txt нужно прописать так:

Другой вариант

Отлично, но это не единственный способ закрыть роботу доступ к определенным страничкам. Второй – это разместить в html-коде специальный мета-тег. Естественно, разместить только в тех записях, которые нужно закрыть. Выглядит он так:

<meta name = "robots" content = "noindex,nofollow">

<meta name = "robots" content = "noindex,nofollow">

Тег должен быть помещен в контейнер head в html-документе для корректной работы. Как видите, у него два параметры. Name указывается как робот и определяет, что эти указания предназначены для поисковых роботов.

Параметр же content обязательно должен иметь два значения, которые вписываются через запятую. Первое – запрет или разрешение на индексацию текстовой информации на странице, второе – указание насчет того, индексировать ли ссылки на странице.

Таким образом, если вы хотите, чтобы странице вообще не индексировалась, укажите значения noindex, nofollow, то есть не индексировать текст и запретить переход по ссылкам, если они имеются. Есть такое правило, что если текста на странице нет, то она проиндексирована не будет. То есть если весь текст закрыт в noindex, то индексироваться нечему, поэтому ничего и не будет попадать в индекс.

Кроме этого есть такие значения:

noindex, follow – запрет на индексацию текста, но разрешение на переход по ссылкам;

index, nofollow – можно использовать, когда контент должен быть взят в индекс, но все ссылки в нем должны быть закрыты.

index, follow – значение по умолчанию. Все разрешается.

Запрещается использовать более двух значений. Например:

<meta name = "robots" content = "noindex,nofollow, follow">

<meta name = "robots" content = "noindex,nofollow, follow">

И любые другие. В этом случае мы видим противоречие.

Итог

Наиболее удобным способом закрытия страницы для поискового робота я вижу использование мета-тега. В таком случае вам не нужно будет постоянно, сотни раз редактировать файл robots.txt, чтобы открыть или закрыть очередной url, а это решение принимается непосредственно при создании новых страниц.

Практический курс по верстке адаптивного лендинга с нуля!

Научитесь с нуля верстать адаптивные лендинги на HTML5 и CSS3 за ближайшие 6 дней

Узнать подробнее

Практика монетизации блога: от раскрутки до реальных денег

Пошаговая система по созданию, раскрутки и монетизации блога.

Научиться

webformyself.com

Как самостоятельно составить robots.txt для любого сайта

Давно не садился за пост на блог, было много работы и фриланса. Вот выдался свободный вечер, и было решено размять пальцы. Речь сегодня пойдёт о составлении robots.txt. Конечно, можно просто пойти в Google и найти подходящий роботс для любого сайта, но меня всегда интересовало, почему столько вариантов или как составлять для самописа. Даже при заимствовании уже готового варианта, хорошо было бы разобраться, почему автор составил именно так. В качестве примера послужит мой небольшой сайт в информационной нише на WordPress. Начнём, пожалуй, с азов.

Воронка продажФайл robots.txt — это текстовый файл, который содержит информацию и параметры индексирования сайта для роботов поисковых систем, т.е. в нём вебмастер указывает, какие страницы, и данные не следует индексировать. Создаётся он простым переименованием текстового файла через любой текстовый редактор. Главное, чтобы название не имело заглавных букв — robots.txt.

Команды в robots.txt

 

Роботы Яндекса и Google поддерживают стандарт исключений для роботов с небольшими отличиями. Для них используются следующие командыUser-agent — задаёт название робота, который будет следовать следующим после него правилам.

Основные роботы это Yandex и Googlebot. Если вебмастер хочет задать команды роботу Гугла, то указывается:

User-agent: Googlebot  — директивы для Google

Если Яндекса, то

User-agent: Yandex — директивы для Яндекс

Если вебмастер хочет прописать правила сразу для всех роботов:

User-agent: * — директивы для всех

Я робот

Спецсимвол «*» означает любую последовательность, в том числе и пустую.Я привык прописывать команды в роботсе для каждого робота, а потом отдельно добить User-agent: *, но можно и сразу переходить к последнему варианту.Ещё я прописываю команды для роботов картинок: YandexImages и Googlebot-Image.

Чтобы запретить индексировать страницу или данные используется команда Disallow. После двоеточия указывается относительный адрес, который хотите закрыть. Пример:

User-agent: *Disallow: / — запрещает индексировать весь сайт всем роботам

User-agent: *Disallow: /images/ — закрывает каталог images и его содержимое

Всегда волновал один вопрос. Влияет ли закрывающий слеш на то либо? Ответ пришёл из опыта. На одном сайте имелось две карты sitemap.xml и html страница с картой и адресом sitemap. В роботсе была прописана команда:

User-agent: *Disallow: /sitemap

В панели Search Console пришло сообщение, что роботу перекрыт доступ к xml карте сайта. Дело в том, что если не закрыть слеш, то к запрету подпадают все адреса, которые начинаются с sitemap, т.е. и sitemap.xml в том числе.

На такие случаи имеется ещё одни спецсимвол, который можно было использовать в этом случае — «$» (что-то вроде точки)

User-agent: *Disallow: /sitemap$ — запрещает mysite/sitemap, но разрешает mysite/sitemap.xml

Чтобы разрешить доступ к части закрытых страниц и данных сайта используется команда Allow.

User-agent: *Disallow: /Allow: /images — запрещает доступ ко всему сайту, кроме images и его содержимого

Только для Яндекса прописывается директива Host, которая указывает главное зеркало сайта для индексации.

User-Agent: *Disallow:Host: www.mysite.ru

Главное зеркало сайта

Директива Sitemap указывает расположение xml карты сайта.

User-Agent: *Disallow:

Sitemap: http://wantobe.pro/sitemap.xml

Можно запретить файлы одного типа:

User-Agent: *Disallow: /*.pdf — запрещает все pdf файлы

Я часто использовал это на сайтах, чтобы такие файлы не перебивали запросы в выдаче.

Составление robots.txt

 

Чтобы правильно составить файл нужно узнать возможные каталоги и страницы, которые не нужны в поиске. Я использую для этого Screaming Frog SEO Spider, но он всё равно не выдаст список всех адресов, например, программа не любит динамические страницы.

Тут на помощь могут прийти официальные сайты разработчиков систем управления контентом, которые часто выкладывают шаблон robots.txt. Правда, они не учитывают страницы, которые возникают после установки темы. В итоге мы исходим из того, что имеем. Потому то и столько разных вариантов, а так как тем очень много и сайты очень разные брать слепо чужой пример будет неправильно.

Итак, запускаем Screaming Frog SEO Spider и парсим сайт.

Парсинг в SEO Frog

Дальше сортируем по названию.

Сортировка SEO Frog

Например, можно закрыть архив и страницу контактов, которая не несет никакой поисковой ценности.

Disallow: /2016/Disallow: /kontaktyi/

Поиск разделов в SEO Frog

Вот еще целый раздел с JS, который не нужен в поиске

Disallow: /wp-includes

Поиск разделов в SEO Frog

Так пробираемся до самого низа. Как я уже подметил SEO Frog пропарсил не весь сайт, особенно сайт WordPress, поэтому дальше ищем руками.

Что еще стоит закрывать?

 

Вебмастер может самостоятельно найти страницы, которые роботу не стоит брать в поиск исходя из общих принципов. В поиске не надо:

  • страница авторизации пользователей
  • страница авторизации администраторов
  • личный кабинет
  • панель администратора
  • результаты поиска по сайту

Страницы, которые можно закрывать в зависимости от ситуации:

  • страницы автора
  • страницы контактов
  • страницы меток
  • файлы pdf, doc и прочие аттачменты
  • картинки
  • страницы архивов
  • любые динамические страницы.

Готовый robots.txt загружается в корневой каталог сайта, чтобы в итоге был доступен по адресу mysite/robots.txt

Заключение

Вместо заключения выкладываю свой роботс на WordPress. Оставляйте в комментариях свои советы и делитесь опытом. Всем советую изучить справки о robots.txt Яндекс и Google.

User-agent: YandexDisallow: /wp-adminDisallow: /wp-includesDisallow: /wp-login.phpDisallow: /wp-register.phpDisallow: /xmlrpc.phpDisallow: /template.htmlDisallow: /searchDisallow: */trackback/Disallow: */feed/Disallow: */feedDisallow: */comments/Disallow: /?feed=Disallow: /?s=Disallow: /?wp-subscription-manager*Disallow: */commentDisallow: */attachment/*Disallow: */page/*Disallow: /contact/Allow: /wp-content/uploads/Host: okulist.com.ua

User-agent: GooglebotDisallow: /wp-adminDisallow: /wp-login.phpDisallow: /wp-register.phpDisallow: /xmlrpc.phpDisallow: /searchDisallow: */trackback/Disallow: */feed/Disallow: */feedDisallow: */comments/Disallow: /?feed=Disallow: *?*Disallow: /?wp-subscription-manager*Disallow: */commentDisallow: */attachment/*Disallow: /wp-includes/Disallow: */page/*Disallow: /contact/Allow: /wp-includes/js/Allow: /wp-content/uploads/

User-agent: *Disallow: /wp-adminDisallow: /wp-includesDisallow: /wp-login.phpDisallow: /wp-register.phpDisallow: /xmlrpc.phpDisallow: /template.htmlDisallow: /searchDisallow: */trackback/Disallow: */feed/Disallow: */feedDisallow: */comments/Disallow: /?feed=Disallow: /?s=Disallow: /?wp-subscription-manager*Disallow: */commentDisallow: */attachment/*Disallow: */page/*Disallow: /contact/Allow: /wp-content/uploads/Sitemap: http://okulist.com.ua/sitemap.xml

User-agent: Googlebot-ImageAllow: /wp-content/uploads/

User-agent: YandexImagesAllow: /wp-content/uploads/

User-agent: Mediapartners-GoogleDisallow:

User-Agent: YaDirectBotDisallow:

wantobe.pro

30+ примеров настройки robots.txt

Как настроить корректную индексацию сайта поисковыми роботами? Как закрыть доступ сканирующих роботов к техническим файлам сайта?

Файл robots.txt ограничивает доступ поисковых роботов к файлам на сервере - в файле написаны инструкции для сканирующих роботов. Поисковый робот проверяет возможность индексации очередной страницы сайта - есть ли подходящее исключение. Чтобы поисковые роботы имели доступ к robots.txt, он должен быть доступен в корне сайта по адресу mysite.ru/robots.txt.

Пример полного доступа на индексацию сайта без ограничений:

User-agent: * Allow: /

Применение в SEO

По умолчанию поисковые роботы сканируют все страницы сайта, к которым они имеют доступ. Попасть на страницу поисковый робот может из карты сайта, ссылки на другой странице, наличии трафика на данной странице и т.п.. Не все страницы, которые были найден поисковым роботом следует показывать в результатах поиска.

Файл robots.txt позволяет закрыть от индексации дубли страниц, технические файлы, страницы фильтрации и поиска. Любая страница на сайте может быть закрыта от индексации, если на это есть необходимость..

Правила синтаксиса robots.txt

Логика и структура файла robots.txt должны строго соблюдаться и не содержать лишних данных:

  • Любая новая директива начинается с новой строки.
  • В начале строки не должно быть пробелов.
  • Все значения одной директивы должны быть размещены на этой же строке.
  • Не использовать кавычки для параметров директив.
  • Не использовать запятые и точки с запятыми для указания параметров.
  • Все комментарии пишутся после символа #.
  • Пустая строка обозначает конец действия текущего User-agent.
  • Каждая директива закрытия индексации или открытия содержит только один параметр.
  • Название файла должно быть написано прописными буквами, файлы Robots.txt или ROBOTS.TXT являются другими файлами и игнорируются поисковыми роботами.
  • Если директива относится к категории, то название категории оформляется слешами "/categorya/".
  • Размер файла robots.txt не должен превышать 32 кб, иначе он трактуется как разрешающий индексацию всего.
  • Пустой файл robots.txt считается разрешающим индексацию всего сайта.
  • При указании нескольких User-agent без пустой строки между ними обрабатываться будет только первая

Проверка robots.txt

Поисковые системы Яндекс и Google дают возможность проверить корректность составления robots.txt:

  • В Вебмастер.Яндекс - анализ robots.txt.
  • В Google Search Console - ссылка, необходимо сначала добавить сайт в систему.

Примеры настройки robots.txt

Первой строкой в robots.txt является директива, указывающая для какого робота написаны исключения.

Директива User-agent

# Все сканирующие роботы User-agent: * # Все роботы Яндекса User-agent: Yandex # Основной индексирующий робот Яндекса User-agent: YandexBot # Все роботы Google User-agent: Googlebot

Все директивы следующие ниже за User-agent распространяют свое действие только на указанного робота. Для указания данных другому роботу следует еще раз написать директиву User-agent. Пример с несколькими User-agent:

Использование нескольких User-agent

# Будет использована основным роботом Яндекса User-agent: YandexBot Disallow: *request_* # Будет использована всеми роботами Google User-agent: Googlebot Disallow: *elem_id* # Будет использована всеми роботами Mail.ru User-agent: Mail.Ru Allow: *SORT_*

Сразу после указания User-agent следует написать инструкции для выбранного робота. Нельзя указывать пустые сроки между командами в robots.txt, это будет не правильно понято сканирующими роботами.

Разрешающие и запрещающие директивы

Для запрета индексации используется директива "Disallow", для разрешения индексации "Allow":

User-agent: * Allow: /abc/ Disallow: /blog/

Указано разрешение на индексацию раздела /abc/ и запрет на индексацию /blog/. По умолчанию все страницы сайта разрешены на индексацию и не нужно указывать для всех папок директиву Allow. Директива Allow необходима при открытии на индексацию подраздела. Например открыть индексацию для подраздела с ужатыми изображениями, но не открывать доступ к другим файлам в папке:

User-agent: * Disallow: /upload/ Allow: /upload/resize_image/

Последовательность написания директив имеет значение. Сначала закрывается все папка от индексации, а затем открывается её подраздел.

Запрещение индексации - Disallow

Директива для запрета на сканирование - Disallow, индексация запрещается в зависимости от параметров, указанных в директиве.

Полный запрет индексации

User-agent: * Disallow: /

Сайт закрывается от сканирования всех роботов.

Существуют специальные символы "*" и "$", которые позволяют производить более тонкое управление индексацией:

Disallow: /cat* Disallow: /cat

Символ звездочка означает любое количество любых символов, которые могут идти следом. Вторая директива имеет тот же смысл.

Disallow: *section_id*

Запрещает индексацию всех Url, где встречается значение внутри звездочек.

Disallow: /section/

Закрывает от индексации раздел и все вложенные файлы и подразделы.

Разрешение индексации - Allow

Задача директивы Allow открывать для индексации url, которые подходят под условие. Синтаксис Allow сходен с синтаксисом Disallow.

User-agent: * Disallow: / Allow: /fuf/

Весь сайт закрыт от индексации, кроме раздел /fuf/.

Директива Host

Данная директива нужна для роботов поисковой системы Яндекс. Она указывает главное зеркало сайта. Если сайт доступен по нескольким доменам, то это позволяет поисковой системе определить дубли и не включать их в поисковый индекс.

User-agent: * Disallow: /bitrix/ Host: mysite.ru

В файле robots.txt директиву Host следует использовать только один раз, последующие указания игнорируются.

Если сайт работает по защищенному протоколу https, то следует указывать домен с полным адресом:

User-agent: * Disallow: /bitrix/ Host: https://domain.ru

Директива Sitemap

Для ускорения индексации страниц сайта поисковым роботам можно передать карту сайта в формате xml. Директива Sitemap указывает адрес, по которому карта сайта доступна для скачивания.

User-agent: * Disallow: /bitrix/ Sitemap: http://domain.ru/sitemap.xml

Исключение страниц с динамическими параметрами

Директива Clean-param позволяет бороться с динамическими дублями страниц, когда содержимое страницы не меняется, но добавление Get-параметра делает Url уникальным. При составлении директивы сначала указывается название параметра, а затем область применения данной директивы:

Clean-param: get1[&get2&get3&get4&..&getN] [Путь]

Простой пример для страницы http://domain.ru/catalog/?&get1=1&get2=2&get3=3. Директива будет иметь вид:

Clean-param: get1&get2&get3 /catalog/

Данная директива будет работать для раздела /catalog/, можно сразу прописать действие директивы на весь сайт:

Clean-param: get1&get2&get3 /

Снижение нагрузки - Crawl-delay

Если сервер не выдерживает частое обращение поисковых роботов, то директива Crawl-delay поможет снизить нагрузку на сервер. Поисковая система Яндекс поддерживает данную директиву с 2008 года.

User-agent: * Disallow: /search/ Crawl-delay: 4

Поисковый робот будет делать один запрос, затем ждать 4 секунды и снова делать запрос.

Типовой robots.txt для сайта на Bitrix

В заключении полноценный файл robots.txt для системы 1С-Битрикс, который включает все типовые разделы:

User-agent: * Disallow: /bitrix/ Disallow: /admin/ Disallow: /auth/ Disallow: /personal/ Disallow: /cgi-bin/ Disallow: /search/ Disallow: /upload/ Allow: /upload/resize_cache/ Allow: /upload/iblock/ Disallow: *bxajaxid* Sitemap: http://domain.ru/sitemap.xml Host: domain.ru

canwas.ru