Индексация сайта в поисковиках - как она происходит и как ее ускорить. Индексация страниц сайта


как проверить и ускорить индексацию страниц (10 способов)

индексация страниц сайта

Приветствую всех! Сегодня тема важная. Да.

  1. Индексация страниц сайта: что это такое и для чего нужна индексация?
  2. Как проверить, проиндексирован ли сайт/страницы сайта?
  3. Как ускорить индексацию страниц сайта?
  4. Почему поисковые системы не индексируют страницы сайта?

Что такое индексация страниц сайта? Зачем сайту индексация? Зачем страницам сайта быстрая индексация?

*rtfm* Индексация — это обход поисковыми роботами  интернет страниц сайта и добавление их (страниц) в свою базу для последующей обработки, систематизации и вывода в результатах поиска.

При индексировании страницы сайта поисковые роботы просматривают содержимое этой страницы и заносят ее в базу данных поисковика. При наличии внутренних ссылок робот переходит и на другие материалы этого же сайта и индексирует их либо обновляет данные в базе.

Послушайте внимательно. Каждый день новые материалы на вашем сайте, которые вы только написали, но которые медленно индексируются, теряют свою уникальность. Почему? Это происходит из-за великого множества сайтов вашей тематики, плюс ежедневно появляются новые сайты, блоги, порталы и они должны наполняться статьями.

Открываю вам глаза:

РАЗ: 99% новых (и старых… очень старых) сайтов публикуют рерайты с других ресурсов, а потому каждая новая написанная статья хоть и немного, но будет похожа на вашу (в скором времени на некоторые темы вообще невозможно будет написать уникальный материал, а значит это в порядке вещей), а отсюда следует, что ваша не проиндексированная статья уже не такая и уникальная будет в момент ее индексации.

ДВА: Есть сайты, на которых админы могут быть злостными нарушителями авторских прав, т.е. они возьмут с вашего неокрепшего сайта уникальную не проиндексированную статью и разместят на своем старом трастовом сайте, короче, нагло сопрут ее, загонят в индекс, поисковые системы ее проиндексируют, посчитают ее оригиналом, а вам останется ПС доказывать что вы не верблюд…

Индексация нужна для подтверждения авторства материалов, размещенных на сайте, и для скорейшей их выдачи при поисковом запросе от пользователя. Ускорить индексацию особенно важно для молодых ресурсов, так как при наличии уникального контента они рискуют стать мишенью для интернет-разбойников.

Например, вы разместили отличный материал, но поисковый робот заглянет к вам только через неделю… За это время какой нибудь жуликоватый вебмастер, владеющий схожим по тематике сайтом или блогом, зайдет к вам в гости, скопирует вашу уникальную статью себе на страницу и проиндексирует ее за несколько часов. Робот присвоит авторство мошеннику, а когда попытается проиндексировать статью на вашем сайте, натолкнется на неуникальный контент. Это прямой путь к бану сайта. Такие вот дела, господа.

Несколько статей по теме воровства статей:

  1. Как защитить контент от воровства
  2. Оригинальные тексты в Яндекс.Вебмастер

Индексация важна если вы в погоне за трафиком. Т.е. чем быстрее статья проиндексируется, тем быстрее ее станут находить через поисковые системы.

Индексация крайне важна если вы торгуете ссылками в GGL (Gogetlinks). На бирже правило, пока статья с размещенной ссылкой не проиндексируется, вы не получите денег. А значит, нужно как можно быстрее загонять в индекс все новые статьи.

В целом и общем, как вы надеюсь сообразили, в условиях высокой и жесть какой конкуренции, одна из первоочередных важностей приобретает скорость индексации страниц вашего сайтов.

Прежде чем включать механизмы ускорения индексации, необходимо подготовить сайт для поискового робота:

  • уберите все дубли адреса главной страницы. Если сайт называется blog.com, то робот не должен натыкаться на blog.com/index.html или подобное.
  • избавьтесь от «битых» ссылок.
  • на каждую страницу вашего сайта пользователь должен переходить не более чем за три клика, и с каждой страницы посетитель должен иметь возможность уйти на главную в один клик.
  • создать правильный файл robots.txt, запрещающий индексацию лишних материалов.
  • пересмотрите контент. Он должен быть уникальным, иначе ваш сайт могут забанить за плагиат.

Как проверить, проиндексирован ли сайт/страница?

как проверить индексацию страницы сайта

  • Самый простой способ проверить индексацию страницы – ввести ее URL в строку поиска Яндекса/Гугла. Она появится в результатах выдачи, если ПС ее проиндексировали в внесли в свою базу.
  • Также можно проверять индексацию сайта с помощью различных интернет-сервисов. Например, http://www.seolib.ru/script/extlfree/
  • Индексацию сайта в Яндексе можно проверить в панели вебмастера этой поисковой системы: webmaster.yandex.ru.
  • Посмотреть, проиндексирована ли страница можно с помощью расширения для браузеров RDS bar.

Если страница еще не попала в БД поисковых систем, есть смысл позаботиться о ее скорейшей индексации.

Медленная индексация: как ускорить?

Существует множество способов ускорения индексации. Некоторые действительно помогают, а некоторые следует использовать только «на всякий случай». Рассмотрим самые эффективные:

 

  1. ПИШИТЕ ЧАЩЕ! Роботы ПС будут «жить» на вашем сайте. Иногда, не получается писать часто, чего уж греха таить…
  2. После написания статьи публикуйте ссылку во все социальные сети. Для этого у вас должны быть на сайте кнопки социальных сетей
  3. Используйте аддурилки (add URL) поисковых систем. Написали статью, опубликовали, скопировали ссылку и добавили в аддурилки. Аддурилка Яндекса — http://webmaster.yandex.ru/addurl.xml Аддурилка Гугла — https://www.google.com/webmasters/tools/submit-url?pli=1
  4. Создайте карту сайта и для поискового робота, и для пользователей. Добавьте  карту сайта в панель вебмастера поисковой системы. Карту сайта для людей поможет сделать плагин для WordPress – DDSitemapGen, а для поисковой системы – плагин Google XML Sitemaps.
  5. Делайте анонсы в социальные сети для вебмастеров. http://subscribe.ru, http://webice.ru/, http://grabr.ru/, http://postpr.ru/ Этим вы не только ускорите индексацию записи, но и увеличите посещаемость вашего сайта. Также постите анонсы в ВК и FB — это существенно ускорит индексацию ваших страниц. Чтобы не искать подходящие паблики вручную — используйте SEO-модуль системы SeoPult.
  6. Сделать внутреннюю перелинковку сайта. В каждой статье должно быть две или больше ссылок на другие статьи с этого же сайта. Так поисковый робот сможет проиндексировать все новые материалы и обновить старые.
  7. Оставлять ссылку на статью на форумах, где постоянно общаетесь – в теле комментария или в подписи.
  8. После публикации статьи сделайте прогон по социальным сетям. Это покупка ретвитов и лайков в фейсбук (Яндекс начал индексировать Facebook), ВКонтакте и Гугл+. Я прогоняю по соц сетям через Форумок (Статья о важности Форумка) Этим шагом не только ускорите индексацию, но и увеличите посещаемость сайта и ранжирование в выдачи. Сделайте на Форумке шаблон один раз, и затем прогон каждой новой статьи будет осуществляться за пол минуты (как сделать шаблон).  Плюс почитайте статью как Твиттер влияет на раскрутку вашего сайта — статья тут
  9. Если у вас сайт на WordPress, то добавьте несколько сервисов для обновления (пинг адресов) через админку WordPress. Идем: Админка → Параметры → Написание → Сервисы обновления и вставляем в форму вот эти адреса и жмем «Сохранить изменения» http://rpc.pingomatic.com/ http://blogsearch.google.ru/ping/RPC2 http://blogsearch.google.com/ping/RPC2 http://ping.blogs.yandex.ru/RPC2

    как ускорить индексацию страниц сайта

  10. Разместить сайт на качественном хостинге (Рекомендую хостинг Бегет. Вот полный обзор хостинга)

Выпадение сайта из индекса поисковой системы или почему поисковые системы не индексируют страницы сайта?

Бывает так, что все затраченные на ускорение индексации сайта усилия пропали даром и сайт (страницы сайта) выпал из индекса. Почему так происходит?

    • Первая причина – неразумная продажа ссылок с сайта. На одну статью должно приходиться не более двух ссылок на сторонние ресурсы, желательно одной тематики с вашим.
    • Тексты должны быть длиннее 2000 символов без пробелов, иначе со временем их уникальность станет практически нулевой, и страница со статьей выпадет из индекса.
    • Flash и Java ссылки
    • Запрет в Robots.txt
    • Бан сайта поисковыми системами
    • Запрет в мета-тегах
    • Вход на страницы через заполнение форм
    • Неуникальный контент
    • Хостинг работает с частыми перебоями

Быстрая индексация сайта – это база для поискового продвижения. Чем быстрее страница попадет в результаты выдачи, тем больше пользователей посетит ваш сайт, и тем выше вероятность, что они купят что-либо (если вы оказываете услуги или производите товары). Вывод прост: чем быстрее индексация, тем больше вы зарабатываете.

Удачи!

По теме: Как запретить индексацию сайта

aimblog.ru

Проверить индексацию сайта и страниц в Яндексе

Индексация сайта в поисковых системах важна для каждого вебмастера. Ведь для качественного продвижения проекта следует следить за его индексацией. Я опишу процесс проверки индексации в Яндексе.

Индексация в Яндекс

Робот Яндекса день за днем просматривает сайты в поисках чего-нибудь «вкусненького». Собирает в топ выдачи те сайты и страницы, которые, по его мнению, наиболее этого заслуживают. Ну или просто Яндекс так захотел, кто его знает 🙂

Мы, как настоящие вебмастера, будем придерживаться теории, что чем качественнее сделан сайт, тем выше его позиции и больше трафик.

Проверить индексацию сайта в Яндексе можно несколькими способами:

  • с помощью Яндекс Вебмастера;
  • с использованием операторов поисковой системы;
  • с помощью расширений и плагинов;
  • с помощью онлайн-сервисов.

Индексация страниц сайта в Яндекс Вебмастер

Чтобы понять, что же там поисковик накопал на наш сайт, нужно зайти в наш любимый Яндекс Вебмастер в раздел «Индексирование».

Статистика обхода в Яндекс Вебмастер

Для начала зайдем в пункт «Статистика обхода». Раздел позволяет узнать, какие страницы вашего сайта обходит робот. Вы можете выявить адреса, которые робот не смог загрузить из-за недоступности сервера, на котором находится сайт, или из-за ошибок в содержимом самих страниц.

Раздел содержит информацию о страницах:

  • новые — страницы, которые недавно появились на сайте либо робот их только что обошел;
  • изменившиеся — страницы, который поисковик Яндекса раньше видел, но они изменились;
  • история обхода — количество страниц, которые обошел Яндекс с учетом кода ответа сервера (200, 301, 404 и прочие).

На графике отражены новые (зеленый цвет) и изменившиеся (синий цвет) страницы.

Яндекс Вебмастер индексация - новые и изменившиеся страницы

А это график истории обхода.

Яндекс Вебмастер индексация - история обхода 

В этом пункте отображены страницы, которые Яндекс нашел.

Яндекс Вебмастер индексация сайта - статистика обхода

N/a — URL не известен роботу, т.е. робот её раньше не встречал. 

Какие выводы из скрина можно сделать:

  1. Яндекс не нашел адрес /xenforo/xenforostyles/, что, собственно, логично, т.к. этой страницы больше нет. 
  2. Яндекс нашел адрес /bystrye-ssylki-v-yandex-webmaster/, что тоже вполне логично, т.к. страница новая.

Итак, в моем случае в Яндекс Вебмастере отражено то, что я и ожидал увидеть: что не надо — Яндекс удалил, а что надо — Яндекс добавил. Значит с обходом все у меня хорошо, блокировок никаких нет.

Страницы в поиске

Поисковая выдача постоянно меняется — добавляются новые сайты, удаляются старые, корректируются места в выдаче и так далее.

Информацию в разделе «Страницы в поиске» вы можете использовать:

  • для отслеживания изменений количества страниц в Яндексе;
  • для слежения за добавленными и исключенными страницами;
  • для выяснения причин исключения сайта из поисковой выдачи;
  • для получения информации о дате посещения сайта поисковиком;
  • для получения информации об изменении поисковой выдачи.

Чтобы проверить индексацию страниц и нужен этот раздел. Здесь Яндекс Вебмастер показывает страницы, добавленные в поисковую выдачу. Если все ваши страницы добавлены в раздел (новый добавятся в течение недели), то значит со страницами все в порядке.

Яндекс Вебмастер страницы в поиске

Проверка количества страниц в индексе Яндекса с помощью операторов

Помимо Яндекс Вебмастера проверить индексацию страницы можно с помощью операторов непосредственно в самом поиске.

Будем использовать два оператора:

  • «site» — поиск по всем поддоменам и страницам указанного сайта;
  • «host» — поиск по страницам, размещенным на данном хосте.

Воспользуемся оператором «site». Заметьте, между оператором и сайтом нет пробела. 18 страниц находится в поиске Яндекса.

Яндекс Вебмастер - оператор site

 

Воспользуемся оператором «host». 19 страниц проиндексировано Яндексом.

Яндекс Вебмастер - оператор host

Проверка индексации с помощью плагинов и расширений

  1. Плагин для браузера RDS bar. Плагин для быстрого анализа показателей сайта и, в том числе, показа проиндексированных страниц в поисковиках Яндекс и Google. RDS bar для просмотра индексации
  2. Букмарклет «Проверка индексации». Перетащите ссылку из открытого файла на панель закладок. Дальше просто откройте нужный сайт и нажмите на эту закладку. Откроется новая вкладка с Google или Яндекс и нужными данными в выдаче.

Проверить индексацию сайта с помощью сервисов

Таких сервисов очень много. На мой взгляд хороший сервис для анализа сайта — это Netpeak Spider. Тем более на момент написания статьи там 14-дневная бесплатная версия.

netpeak_spider_1

Помимо индексации сайта, можно проверить гору других данных:

Ускоренная индексация страниц сайта в Яндекс Вебмастер

Иногда требуется ускорить процесс индексации страниц Яндексом. В Яндекс Вебмастере есть инструмент «Переобход страниц» в разделе «Индексирование».

Яндекс Вебмастер переобход страниц

Здесь нужно добавлять полные адреса страниц, которые вы хотите проиндексировать в первую очередь.

В день можно добавлять до 20 страниц.

Почему не индексируется сайт?

  1. Сайт новый. Поисковику нужно время, чтобы он успел просканировать ваш сайт.
  2. Отсутствует Sitemap. Карта сайт может помочь поисковому роботу быстрее найти страницы и быстрее их отправить в поиск. 
  3. Проблемы с сайтом. В панели Яндекс Вебмастера отображаются все ошибки и нарушения, которые видит поисковик. Проверяйте сервис и решайте проблемы.
  4. Запрет индексации с помощью метатега «robots». Возможно, вы что-то поменяли в своей CMS, а конкретнее что-то с индексацией сделали 🙂 При данной проблеме в коде страниц сайта появляется следующая строка:
  5. Ошибка в файле robots.txt. Если вы нашли конструкцию Disallow: /, то её надо удалить.

 

webmaster-seo.ru

Запрет индексации страниц сайта в robots.txt

Запрет индексации страниц сайта в robots.txt

При посещении сайта, поисковый робот использует ограниченое количество ресурсов для индексации. То есть поисковый робот за одно посещение может скачать определенное количество страниц. В зависимости от частоты обновления, объема, количества документов и многих других факторов, роботы могут приходить чаще и скачивать больше страниц.

Чем больше и чаще скачиваются страницы — тем быстрее информация с Вашего сайта попадает в поисковую выдачу. Кроме того, что страницы будут быстрее появляться в поиске, изменения в содержании документов также быстрее вступают в силу.

Быстрая индексация сайта

Быстрая индексация страниц сайта помогает бороться с воровством уникального контента, позволяет повысить релевантность страницы сайта за счет ее свежести и актуальности. Но самое главное. Более быстрая индексация позволяет отслеживать как те или иные изменения влияют на позиции сайта в поисковой выдаче.

Плохая, медленная индексация сайта

Почему сайт плохо индексируется? Причин может быть множество и вот основные причины медленной индексации сайта.

  • Страницы сайта медленно загружаются. Это может стать причиной полного исключения сайта из индекса.
  • Сайт редко обновляется. Зачем роботу часто приходить на сайт, на котором новые страницы появляются раз в месяц.
  • Неуникальный контент. Если на сайте размещен ворованый контент (статьи, фотографии), поисковая система снизит трастовость (доверие) к вашему сайту и снизит расход ресурсов на его индексацию.
  • Большое количество страниц. Если на сайте много страниц и не настроен last modified, то на индексацию или переиндексацию всех страниц сайта может уйти очень много времени.
  • Сложная структура сайта. Запутанная структура сайта и большие количество вложений сильно затрудняют индексацию страниц сайта.
  • Много «лишних» страниц. На каждом сайте есть целевые страницы, содержание которых статично, уникально и полезно для пользователей и побочные страницы, вроде страниц пагинации, авторизации или страниц фильтров. Если подобные страницы существуют, их как правило очень много, но в индексацию попадают далеко не все. А страницы, которые попадают — конкурируют с целевыми страницами. Все эти страницы регулярно переиндексируются, расходуя и так ограниченый ресурс, выделенный на индексацию вашего сайта.
  • Динамические страницы. Если на сайте существуют страницы, содержимое которых не зависит от динамических параметров (пример: site.ru/page.html?lol=1&wow=2&bom=3), в результате может появиться множество дублей целевой страницы site.ru/page.html.

Есть и другие причины плохой индексации сайта. Однако, самой распространенной ошибкой является плохо настроенный robots.txt.

Убрать из индексации все лишнее

Существует множество возможностей рационально использовать ресурсы, которые выделяют поисковики на индексацию сайта. И широкие возможности для управления индексацией сайта открывает именно robots.txt.

Используя дерективы Allow, Disallow, Clean-param и другие, можно эффективно распределить не только внимание поискового робота, но и существенно снизить нагрузку на сайт.

Для начала, нужно исключить из индексации все лишнее, используя дерективу Disallow.

Например, запретим страницы логина и регистрации:

Disallow: /login Disallow: /register

Запретим индексацию тегов:

Disallow: /tag

Некоторых динамических страниц:

Disallow: /*?lol=1

Или всех динамических страницы:

Disallow: /*?*

Или сведем на нет страницы с динамическими параметрами:

Clean-param: lol&wow&bom /

На многих сайтах, число страниц найденых роботом может отличаться от числа страниц в поиске в 3 и более раз. То есть, более 60% страниц сайта не участвуют в поиске и являются баластом, который нужно либо ввести в поиск, либо избавится от него. Исключив, нецелвые страницы и приблизив количество страниц в поиске к 100% вы увидите существенный прирост к скорости индексации сайта, рост позиций в поисковой выдаче и больше трафика.

Подробнее про индексацию сайта, влияние индексации на выдачу, правильную настройку robots.txt, генерацию sitemap.xml, настройку last modified страниц сайта, другие способы ускорения индексации сайта и причины плохой индексации сайта читайте в следующих постах. А тем временем.

Сбрасывайте ненужный баласт и быстрее идите в топ.

Получайте бесплатные уроки и фишки по интернет-маркетингу

convertmonster.ru

Проверить индексацию страницы в Яндексе или Google

Если вы занимаетесь продвижением сайта, то очень важно, чтобы все страницы вашего сайта были проиндексированы в поисковых системах (Яндекс, Google и т.п.).

  • Во первых, если страницы нет в индексе, значит люди не смогут ее найти и вы зря потратили время (и возможно деньги) на ее создание, наполнение и оформление. Каждая страница в индексе — это источник посетителей.
  • Во вторых, если страницы нет в индексе, это может свидетельствовать о технических проблемах на сайте, например дублирование контента, глюки сайта или хостинга.
  • В третьих, эта страница может играть техническую роль, например, участвовать в схеме перелинковки (или содержать платные ссылки, за которые вы не получите деньги, если страницы нет в индексе).

Ниже я рассмотрю ручные и автоматизированные способы проверки индексации страниц в Яндекс и Google. Покажу, как проверить индексацию сайта в целом и каждой страницы в отдельности.

Содержание:

  1. Узнаем количество фактических страниц
  2. Проверяем индексацию в целом
  3. Проверяем индексацию конкретной страницы
  4. Проверяем индексацию каждой страницы списком

Как узнать количество страниц на сайте

Это можно сделать несколькими путями:

  1. Если вы используете современную систему управления сайтом, то в административной части наверняка можно посмотреть количество страниц. Например, у меня это выглядит так: количество страниц на сайте
  2. Следующий способ подойдет практически всем (при условии что у вас до 500 страниц на сайте, иначе за деньги). Есть отличный сервис http://www.xml-sitemaps.com/, который строит xml-карты сайта. В процессе работы он посчитает и количество страниц вашего сайта. Опять же, пример для моего сайта (совпадает с прошлым способом: 146 страниц, это 113 записей и 33 страницы): количество страниц в карте сайта
  3. Третий способ — это использование программы Xenu (легко ищется в Яндексе). Это программа полностью сканирует ваш сайт, составляет список страниц, список битых ссылок и еще много полезной информации. Потом просто нужно посчитать количество страниц на сайте. Но подойдет не всем, т.к. в ней нужно будет разобраться.

Теперь, когда мы знаем фактическое количество страниц, надо проверить сколько из них проиндексированы в Яндексе и Google

Смотрим индексацию сайта в целом

В данном случае мы узнаем сколько всего страниц сайта проиндексировано в поисковой системе. Что нам это дает? Зная фактическое количество страниц на сайте, мы можем сравнить соответствует ли оно количеству проиндексированных страниц. И если соответствует, значит всё в порядке, а если нет, то нужно разобраться с проблемой и выяснить каких именно страниц не хватает (или какие страницы имеют дубли).

Индексация сайта в Яндексе

Несколько способов.

  • Смотрим приблизительно индексацию страниц в Яндексе вручную. Для этого нужно в поисковой строке ввести конструкцию вида:url:адрес-вашего-сайта*. Обратите внимание, в конце стоит звездочка. Например, в моем случае: url:ilyapronin.ru*.индексация в яндексе
  • Следующий способ — это использование Яндекс.Вебмастера http://webmaster.yandex.ru/. Возможно понадобится подключить ваш сайт к этому сервису, если вы еще этого не сделали. После подключения сайта к Яндекс.Вебмастеру мы можем узнать много полезной информации о сайте и кроме всего прочего — количество проиндексированных страниц:информация в вебмастере

Как видите данные немного отличаются. Это из-за того, что конструкция url:ваш-сайт показывает не только страницы, но другие типы файлов (doc, xls, jpg и т.п.). Вебмастер же показывает именно количество страниц.

Индексация сайта в Google

Здесь аналогично с Яндексом есть 2 способа:

  • Вручную с помощью конструкции site:ваш сайт. Эффект будет примерно такой же, как с Яндексом.
  • Используя инструменты Google для Вебмастеров https://www.google.com/webmasters/ (аналог Яндекс.Вебмастер)

автоматические способы

  • Мне очень нравится бесплатная программа Site Auditor, скачать ее можно здесь: http://www.site-auditor.ru/. Она проверяет индексацию сайта сразу в Яндекс и Google, а так же и другие полезные параметры:программа сайт аудитор
  • Плагин для браузеров — RDS Bar. Его можно добавить в все популярные бразеры (Chrome, Firefox, Opera). После этого у вас появится информационная панель, показывающая информацию о сайте, на котором вы находитесь, в том числе и индексацию страниц:плагин rds-bar

Что дальше

Теперь когда мы знаем, сколько страниц от фактического количества проиндексированы, может быть 3 ситуации:

  1. Количество страниц в поисковиках и на сайте совпадает. Это идеальный вариант, значит с сайтом всё впорядке.
  2. Количество проиндексированных страниц меньше. Значит с сайтом проблемы (наиболее популярная проблема — малоинформативный или неуникальный контент)
  3. Количество проиндексированных страниц больше. Скорей всего у вас проблема с дублированием страниц, т.е. одна страница может быть доступна по нескольким адресам. Это плохо для продвижения, т.к. статический вес страницы размывается и кроме-того получается много страниц с повторяющимся контентом.

Для дальнейшей диагностики сайта, нам понадобится узнать какие страницы точно проиндексированы, а какие не входят в индекс.

Как проверить индексацию одной страницы

Это нам может понадобится, когда мы хотим проверить конкретную страницу на своем сайте (например, недавно опубликованную) или страницу на чужом сайте (например, где мы купили ссылку и ждем, когда она проиндексируется)

  • Ручной способ. Тут всё очень просто. Копируем адрес страницы с сайта и вставляем в поисковую строку Яндекс или Google. Если она проиндексирована, то она окажется на первом месте результатов поиска.индексация конкретной станицы
  • Используя упомянутый уже плагин RDS бар. Он показывает проиндексирована ли страница, на которой вы сейчас находитесь.

Как проверить индексацию всех страниц по отдельности

В данном случае мы будем проверять на проиндексированность сразу все страницы сайта и в результате узнаем какие конкретно страницы не проиндексированы в поисковике.

Здесь нам понадобится не просто знать количество фактических страниц на сайте, но и список адресов этих страниц (их url). Это наверно самое сложное в этой статье. Список страниц мы вроде бы получили, когда генерировали карту сайта, но там адреса содержатся не в чистом виде и нужно уметь работать с какой-нибудь программой по обработке данных, чтобы извлечь их. Поэтому будем использовать еще одну программу.

Как получить список всех страниц сайта

Чтобы получить список всех страниц сайта, будем использовать программу для Windows, которая генерирует карту сайта — Sitemap Generator, взять можно здесь http://www.wonderwebware.com/sitemap-generator/

Перед сбором ссылок нужно настроить параметр Exclude Patterns. Это делается, чтобы исключить при сборе ненужные ссылки, например, в моем случае при сборе собирается очень много адресов вида: http://ilyapronin.ru/prodvizhenie/kak-prodvigayut-sajjty.html?replytocom=324#respond, которые указывают на комментарий на странице. А мне нужен только адрес страницы. Поэтому, я настроил исключение адресов по маске *replytocom*:

sitemap-gen2

Дальше, запускаем сбор url и когда программа закончит их собирать, переходим на вкладку Yahoo Map / Text и копируем адреса оттуда (Кнопка сохранить не работает, т.к. мы используем бесплатную версию программы)

список всех страниц на сайте

Теперь у нас есть адреса всех страниц.

Как проверить индексацию страниц автоматически

Дальше нам понадобится программа YCCY, которую можно скачать здесь: http://www.yccy.ru/soft/yccy

Здесь всё просто. После запуска программы добавляем собранный на прошлом шаге список url вашего сайта и добавляем в список исходных url. Программа позволяет проверять индексацию в Яндекс, Гугл и Rambler, выбираем нужную нам поисковую систему и запускаем проверку:

программа для проверки индексации страниц

После того, как получили список страниц, которые не попали в индекс, нужно понять почему это произошло. Если со страницей всё впорядке, то чтобы она зашла в индекс, можно закупить на нее ссылок или несколько ретвитов с прокаченных аккаунтов.

Заключение

Умение проверить индексацию страниц своего сайта позволит вам продуктивней работать с поисковыми системами, а так же вычислить существующие проблемы с сайтом.

ilyapronin.ru

Индексация сайта в поисковиках - как она происходит и как ее ускорить

После создания собственного сайта многие веб-мастера расслабляются и думают о том, что самое сложное уже позади. На самом деле это не так. В первую очередь сайт создается для посетителей.

Ведь именно посетители будут читать страницы со статьями, покупать товары и услуги, размещенные на сайте. Чем больше посетителей, тем больше прибыль. А трафик с поисковиков – это основа всего, поэтому так важно чтобы индексация сайта проходила быстро и страницы держались в индексе стабильно.

Индексация сайта в поисковиках - как ее ускорить, проверить и запретить

Если трафика нет, то о сайте мало кто вообще узнает, особенно данное положение актуально для молодых интернет-ресурсов. Хорошая индексация способствует скорейшему попаданию страницы в топ  поисковых систем и как следствие, привлечение большого количества целевых посетителей.

Что представляет собой индексация и как она происходит

Для начала нужно понять, что это такое. Индексация сайта - это процесс сбора информации со страниц сайта с последующим занесением ее в базу данных поисковой системы. После этого происходит обработка полученных данных. Далее, через некоторое время, страница появится в выдаче поисковика и люди смогут находить ее, используя данную поисковую систему.

Программы, которые осуществляют сбор и анализ информации, называются поисковыми роботами или ботами. Каждый поисковик обладает собственными роботами. У каждого из них свое название и предназначение.

В качестве примера можно выделить 4 основных типа поисковых роботов Яндекса:

1. Робот, индексирующий страницы сайта. Его задача – обнаруживать и заносить в базу данных найденные страницы с контентом.

2. Робот, индексирующий картинки. Его задача – обнаруживать и заносить в базу поисковика все графические файлы со страниц сайта. Затем эти картинки могут быть найдены пользователями в поиске по изображениям от Google или в сервисе Яндекс.Картинки.

3. Робот, индексирующий зеркала сайтов. Иногда сайты имеют несколько зеркал. Задача данного робота – определять эти зеркала посредством информации из robots.txt, после чего выдавать пользователям, в поиске, лишь главное зеркало.

4. Робот, проверяющий доступность сайта. Его задача – периодически проверять добавленный посредством «Яндекс.Вебмастера» сайт на предмет его доступности.

Помимо вышеперечисленных есть и другие типы роботов. К примеру, роботы, индексирующие видеофайлы и фавиконки на страницах сайта, роботы, выполняющие индексацию «быстрого» контента, а также роботы, проверяющие работоспособность интернет-ресурса, размещенного в Яндекс.Каталоге.

Индексация страниц сайта поисковиками обладает своими особенностями. Если робот обнаруживает на сайте новую страницу, то она заносится в его базу данных. Если же робот фиксирует изменения в старых страницах, то их версии, ранее занесенные в базу данных, удаляются и заменяются новыми. И все это происходит на протяжении определенного периода времени, как правило, 1-2 недель. Такие длительные сроки объясняются тем, что поисковым роботам приходится работать с большим объемом информации (ежедневно появляется большое количество новых сайтов, а также обновляются старые).

Теперь о файлах, которые умеют индексировать боты поисковых систем.

Кроме веб страниц поисковики индексируют и некоторые файлы закрытых форматов, но с определенными ограничениями. Так в PDF роботами считывается лишь текстовое содержимое. Flash-файлы довольно часто не индексируются вообще (либо там индексируется лишь текст, размещенный в специальных блоках). Также роботами не индексируются файлы, обладающие размером больше 10 мегабайт.  Лучше всего поисковые системы научились индексировать текст. При его индексации допускается минимальное количество ошибок, контент заносится в базу в полном объеме.

Если обобщить, то многие поисковики в настоящий момент могут индексировать такие форматы, как TXT, PDF, DOC и DOCX, Flash, XLS и XLSX, PРT и РРТХ, ODP, ODT, RTF.

Индексация сайта

Как ускорить процесс индексации сайта в поисковых системах

Многие веб-мастера задумываются о том, как ускорить индексацию. Для начала следует понять, что такое сроки индексации. Это время между посещениями сайта поисковым роботом. И время это может варьироваться от нескольких минут (на крупных информационных порталах) до нескольких недель или даже месяцев (на забытых и заброшенных маленьких или новых сайтах).

Нередки случаи кражи контента. Кто-то может просто скопировать вашу статью и разместить у себя на сайте. Если поисковик проиндексирует эту статью раньше чем это произойдет на вашем сайте, то автором поисковики будут считать именно этот сайт, а не ваш. И хотя сегодня появились некоторые инструменты позволяющие указать авторство контента, скорость индексации страниц сайта не теряет своей актуальности.

Поэтому ниже дадим советы насчет того, как всего этого можно избежать и ускорить индексацию своего ресурса.

1. Использовать функцию «Add URL» (Добавить URL) - это так называемые аддурилки, представляющие собой формы в которые можно ввести и добавить адрес любой страницы сайта. Страница в этом случае будет добавлена в очередь на индексацию.

Она есть во многих крупных поисковиках. Чтобы вам не пришлось искать все адреса форм для добавления страниц сайта мы их собрали в отдельной статье: "Как правильно зарегистрировать сайт в поисковых системах". Данный метод нельзя назвать 100-процентной защитой от плагиата, но это хороший способ сообщить поисковику о новых страницах.

2. Зарегистрировать сайт в «Инструментах для веб-мастера» от Google и сервисе Яндекс.Вебмастер. Там можно посмотреть, сколько страниц сайта уже проиндексировалось, а сколько не проиндексировалось. Можно добавить страницы в очередь на индексацию и сделать много чего еще, при помощи доступных там инструментов.

3. Сделать карту сайта в двух форматах – HTML и XML. Первая нужна для размещения на сайте и для удобства навигации. Вторая карта нужна для поисковых систем. В ней содержатся текстовые ссылки на все страницы вашего сайта. Следовательно, при индексации робот не упустит ни одну из них. Карту сайта можно сделать при помощи плагинов для CMS или при помощи многочисленных онлайн-сервисов.

В качестве отличных решений для ее создания можно привести следующие:

  • Для CMS Joomla компонент Xmap;
  • Для WordPress плагин Google XML Sitemaps;
  • Для CMS Drupal модуль SitemapXML;
  • Универсальным инструментом для создания карты сайта может послужить сервис www.mysitemapgenerator.com.

 4. Анонс статей в социальных сетях — Google +1, Twitter, Facebook, Vkontakte. Сразу после добавления новой статьи на сайт делайте ее анонс на своей странице Google +, Twitter ленте и страницах в Facebook и Vkontake. Лучше всего поставить на сайт кнопки социальных сетей и добавлять туда анонсы просто нажимая на кнопки. Можно настроить автоматические анонсы в Twitter и Facebook.

5. Выполняйте кросспостинг в различные блог платформы. Можете создать себе блоги на таких сервисах как: Li.ru, Livejournal.com, wordpress.ru, blogspot.com и публиковать там краткие анонсы ваших статей со ссылками на их полные версии на вашем сайте.

6. Сделать RSS ленту сайта и зарегистрировать ее в различных RSS каталогах. Найти их адреса вы можете в статье: "RSS каталоги для добавления RSS ленты вашего сайта".

7. Частота обновлений сайта. Чем чаще на вашем сайте будут появляться новые материалы, тем чаще поисковые роботы будут его посещать. Для нового сайта это лучше всего делать каждый день, ну в крайнем случае через день.

8. Выполняйте грамотно внутреннюю перелинковку. На сайте должна быть грамотная система внутренних ссылок, которая будет связывать все страницы друг с другом. Поисковому роботу в этом случае будет проще переходить с одной страницы на другую. Подробнее о перелинковке: Внутренняя перелинковка - ее разновидности, способы и полезные рекомендации.

9. Размещайте на своем сайте лишь уникальный контент. Это универсальное правило, позволяющее улучшить не только процесс индексации. Чем уникальнее будет материал, тем лучше поисковики будут относиться к вашему сайту. Тем чаще поисковые роботы будут заходить к вам в гости.

Данных методов по ускорению индексации будет вполне достаточно для молодого или среднего по возрасту сайта. Они не будут занимать  у вас много времени и имеют хороший эффект.

Ускорение индексации сайта

Запрет индексации страниц

В некоторых случаях веб-мастеру нужно закрыть сайт от индексации или закрыть его отдельные страницы и разделы. Для чего это может потребоваться? К примеру, часть страниц вашего сайта не содержит полезной информации, это могут быть разного рода технические страницы.  Либо вам нужно закрыть от индексации ненужные внешние ссылки, баннеры и так далее.

1. Robots.txt.

Закрыть отдельные страницы и разделы ресурса от индексации можно посредством файла robots.txt. Он помещается в корневую директорию. Там прописываются правила для поисковых роботов по части индексации отдельных страниц, разделов и даже для отдельных поисковиков.

При помощи специальных директив этого файла можно очень гибко управлять индексацией.

Приведем несколько примеров:

Запретить индексацию всего сайта, всеми поисковыми системами можно при помощи следующей директивы:

User-agent: * Disallow: /

Запретить индексацию отдельной директории:

User-Agent: * Disallow: /files/

Запретить индексацию страниц url которых содержит "?":

User-agent: * Disallow: /*?

И т. д. директив и возможностей у файла robots.txt множество и это тема отдельной статьи.

2. Также есть тег и мета тег noindex и nofollow.

Чтобы запретить индексацию определенного содержимого на странице достаточно его поместить между тегами <noindex> </noindex>, но эти теги работают только для поисковой системы Яндекс.

Если нужно закрыть от индексации отдельную страницу или страницы сайта можно использовать мета-теги. Для этого на странице вашего сайта между тегами <head></head>  необходимо добавить следующее:

<meta name="robots" content="noindex, nofollow" />

Если добавить:

<META NAME="ROBOTS" CONTENT="NOINDEX">

то документ также не будет проиндексирован.

Если добавить:

<META NAME="ROBOTS" CONTENT="NOFOLLOW">

то робот поисковой машины не будет идти по ссылкам размещенным на данной странице, но саму страницу индексировать будет.

При этом то, что будет указанно в мета тегах будет иметь преимущество перед директивами файла  robots.txt. Поэтому если вы запретите индексацию определенной директории вашего сайта в файле robots.txt, а на самих страницах сайта, которые относятся к данной директории  будет указан следующий мета-тег:

<meta name="robots" content="index, follow" />

- то данные страницы все равно будут проиндексированы.

Если сайт построен на какой-то CMS, то в некоторых из них есть возможность при помощи специальных опций закрыть страницу к индексации. В других случаях эти мета теги придется вставлять на страницы сайта в ручную.

В следующих статьях мы подробно рассмотрим процедуру запрета индексации и все, что с этим связано (использование файла robots.txt, а также тегов noindex и nofollow).

Проблемы индексации и выпадения страниц из индекса

Существует множество причин, по которым может не происходить индексация интернет-ресурса. Ниже мы перечислим самые распространенные.

1. Неправильно настроен файл Robots.txt или неверно указаны мета-теги управляющие индексацией.

2. Домен вашего сайта уже использовался для определенного сайта и имеет плохую историю, скорее всего ранее на его был наложен какой-то фильтр. Чаще всего проблемы подобного рода касаются индексации именно Яндексом. Страницы сайта могут при первой индексации попадать в индекс, затем полностью вылетают и больше не индексируются. При обращении в службу поддержки Яндекса, вам скорее всего скажут, чтобы вы развивали сайт и все будет хорошо.

Но как показывает практика и после 6 месяцев публикации на сайте качественного уникального контента движений в позитивную сторону может и не быть. Если у вас подобная ситуация и сайт, не индексируется на протяжении 1 - 2 месяцев, то лучше зарегистрируйте другое доменное имя. Как правило после этого все становится на свои места и страницы сайта начинают индексироваться.

3. Неуникальный контент. Добавляйте на сайт только уникальный материал. Если на страницах вашего сайта размещается большое количество копипаста, то не удивляйтесь, что со временем эти страницы могут выпадать из индекса.

4. Наличие спама в виде ссылок. На некоторых сайтах страницы буквально завалены внешними ссылками. Веб-мастер обычно размещает все это для того, чтобы заработать побольше денег. Однако конечный результат может быть очень печальным – определенные страницы сайта да и весь сайт может быть исключен из индекса, либо могут быть наложены какие-то другие санкции.

5. Размер статьи. Если вы просмотрите исходный код какой-либо страницы вашего сайта, то увидите, что текст самой статьи занимает не так много места по сравнению с кодом других элементов (шапка, футер, сайдбар, меню и т.д.). Если статья будет слишком маленькой, то она и вовсе может потеряться в коде. Поэтому также могут возникнуть проблемы с уникальностью такой страницы. Поэтому старайтесь публиковать заметки, объем текста в которых не меньше 2000 знаков, с таким контентом вряд ли возникнут проблемы.

Как сделать проверку индексации сайта

Теперь поговорим о том, как провести проверку индексации вашего интернет ресурса и узнать, сколько именно страниц проиндексировано.

1. Прежде всего, попробуйте вбить URL адрес интересуемой страницы в простой поиск того же Google или Яндекса. В полученных результатах должна быть данная страница. Если страницы нет, то значит она не проиндексирована.

2. Чтобы проверить индексацию всех станиц сайта в Яндексе достаточно в поисковую строку вставить host:ваш-сайт.ru | host:www.ваш-сайт.ru и произвести поиск. Для Google достаточно вставить в поисковую форму site:ваш-сайт.ru

3. Также можно проверить свой сайт при помощи такого сервиса, как pr-cy.ru. Тут все просто и понятно устроено. Нужно просто вбить адрес вашего ресурса в поле, находящееся по центру, а затем нажать кнопку «Анализировать». После анализа вы получите результаты проверки и узнаете, сколько страниц проиндексировано в том или ином поисковике (сделать это можно в соответствующем разделе под названием «Основные показатели сайта»).

4. Если ваш сайт добавлен в сервис Яндекс Веб-мастер, то там тоже можно отслеживать индексацию страниц  веб-сайта данным поисковиком.

Материалы связанные с индексацией:

Подробности

Опубликовано: 24 Сентябрь 2013

Обновлено: 30 Декабрь 2015

Просмотров: 18958

webmastermix.ru

Индексация страниц и разделов сайта поисковыми роботами Яндекс

Введение

Количество ресурсов, проиндексированных поисковыми системами, постоянно растет. Чтобы ресурс мог попасть в базу поисковой системы, поисковику, как минимум, необходимо сообщить о существовании вашего ресурса. Узнать о нем поисковик может двумя способам:• если вы зарегистрируетесь в поисковой системе;• либо перейдя на ваши страницы по ссылке с ресурсов, уже проиндексированных системой.

После этого поисковый робот будет время от времени возвращаться на ваши страницы, обновляя информацию о них. Постоянная индексация ресурса – один из важнейших элементов в работе поисковых систем. От того, каким образом и в каких поисковых системах проиндексирован ваш сайт, будет зависеть конечный результат продвижения в той или иной поисковой системе.

Успешная индексация сайта роботами поисковых систем – это то, чего вы должны обязательно добиться на начальном этапе продвижения. О том, какими способами добиться корректной индексации сайта, какие сложности могут возникнуть при подготовительной работе, а также о том, как устроены поисковые системы, роботы которых будут обрабатывать ваши страницы, пойдет речь в данном мастер-классе.

Процесс индексации мы будем рассматривать на примере поисковой системы Яндекс. Это вполне логично, поскольку пользователей, владеющих русским языком, используют именно эту поисковую системы для поиска необходимой информации.

Роботы поисковой системы Яндекс

Говоря об индексации, прежде всего, следует рассказать о том, кто ее осуществляет непосредственно, то есть о роботах поисковых систем. На вопрос: “а что такое робот поисковой системы и что он делает?”. Яндекс отвечает следующим образом: «Робот (англ. crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список. Таким образом, любой документ или сайт, на который есть ссылки, может быть найден роботом, а значит, и поиском Яндекса».

Обладая знаниями о них, вы с легкостью сможете подготовить ваш сайт для успешной индексации. Индексация сайта происходит следующим образом: роботы-индексаторы посещают страницы и вносят их содержимое в базу документов, доступных для поиска.

Яндекс появился в 1996 году. Но не в качестве поисковой системы, а в виде нескольких обособленных продуктов. Например, Яndex.Site – программа, производящая поиск на сайте, Яndex.CD – программа поиска документов на сd-диске.

Сама же поисковая система возникла осенью 1997 года. 23 сентября на выставке Softool Яндекс был официально представлен уже в качестве полнофункциональной поисковой системы Интернета. С тех пор объем Рунета непрерывно возрастал, что вынуждало совершенствовать алгоритмы индексирования и поиска информации.

Поэтому в 1999 году был создан новый поисковый робот, который помимо значительного увеличения скорости индексации позволил пользователям искать информацию по разным зонам документа – в URL, в заголовках, в ссылках и т.п.

Сейчас официально анонсировано 11 роботов Яндекса, каждый из которых специализируется на определенной задаче.

1. Yandex/1.01.001 (compatible; Win16; I) – основной индексирующий робот Яндекса. Это самый важный робот, функция которого – поиск и индексирование информации, найденной на просторах российского Интернета. Для всех SEO-специалистов важно отслеживать появление на своих сайтах в первую очередь этого робота-индексатора. Обычно робот заходит со следующих ip-адресов: 213.180.206.4, 213.180.206.1, 213.180.216.4, 213.180.206.248, 213.180.216.28. Поэтому, увидев в логах своего сайта заветное слово yandex, обратите свое внимание на ip-адрес, потому как в интернете сейчас существует достаточное большое количество сервисов тестирования сайта, которые позволяют заходить на странички, представляясь как user agent: Yandex/1.01.001 (compatible; Win16; I) Может оказаться, что вовсе и не Яндекс посетил Ваш сайт.

2. Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок, которые впоследствии будут доступны в поиске Яндекс. Картинки (http://images.yandex.ru). Для поисковой системы самым простым путем определения, соответствует ли картинка запросу пользователя, является анализ тега alt. Второй путь, который как и первый скорее всего использует сервис Яндекс.Картинки – анализ имени файла. Например, посмотрите на лотосы на странице (http://en.npftravel.ru/news/issue_117.html). Ни одного упоминания слова «лотос» в теле документа, однако картинка все-таки была найдена по запросу «лотос» благодаря тому, что файл имеет имя lotos.jpg.

3. Yandex/1.01.001 (compatible; Win16; H) – робот, определяющий зеркала сайтов. Задача этого робота – определение степени схожести двух документов. Если документы очень похожи друг на друга, в результатах выдачи Яндекс, скорее всего, покажет только один сайт, в этом собственно и заключается процесс зазеркаливания. То есть сайт-зеркало представляет собой ничто иное, как полную копию сайта.

4. Yandex/1.03.003 (compatible; Win16; D) – робот, определяющий доступность страницы для индексации при добавлении ее через форму «Добавить URL».

5. Yandex/1.03.000 (compatible; Win16; M) – робот, посещающий страницу при ее открытии по ссылке «Найденные слова», ниже сниппета.

6. YaDirectBot/1.0 (compatible; Win16; I) – робот, индексирующий страницы сайтов, участвующих в рекламной сети Яндекса.

7. Yandex/1.02.000 (compatible; Win16; F) – робот, индексирующий иконки сайтов (favicons), которые показываются потом в результатах поиска слева от ссылки на найденный сайт.

Процесс индексации документа

Процесс индексации документа роботами поисковых систем, как правило, начинается с добавления сайта в форму на специальной странице. Для Яндекса это страница http://webmaster.yandex.ru/. Здесь требуется ввести лишь адрес сайта, никаких дополнительных данных вносить не требуется. В Рамблере, например, требуется указывать еще название сайта, дать краткое описание регистрируемого сайта и контактное лицо.

Если сайт добавляется впервые, то Яндекс выдаст сообщение:«Адрес http://example.com/ успешно добавлен. По мере обхода робота он будет проиндексирован и станет доступным для поиска».

Если сайт уже посещался роботом-индексатором, то появится сообщение:«Документ http://example.com/ уже проиндексирован и доступен для поиска.Вы можете посмотреть, какие страницы сайта http://example.com/ доступны в Яндексе к настоящему времени (* страниц)».

После добавления нового сайта через форму, его тут же посетит робот Yandex/1.03.003 (compatible; Win16; D). Он определит доступность сайта для индексирования, а также установит, удовлетворяет ли сайт требованиям Яндекса, основным из которых является «русскоязычность» ресурса. Поэтому, как пример, может возникнуть такая ситуация:«Адрес http://www.example.com/ не был внесен в базу Яндекса, так как сайт http://www.example.com/ находится вне доменов стран СНГ, при этом наш робот не смог распознать в нем русский текст».

Если же все хорошо, то в логах сайта можно будет обнаружить строку:213.180.206.223 — [18/Jul/2006:10:22:08 +0400] «GET /robots.txt HTTP/1.1» 404 296 «-» «Yandex/1.03.003 (compatible; Win16; D)»213.180.206.223 — [18/Jul/2006:10:22:08 +0400] «GET / HTTP/1.1» 200 2674 «-» «Yandex/1.03.003 (compatible; Win16; D)»

Видно, что сначала робот обратился к файлу robots.txt (его в данном случае просто не существует) чтобы определить, не запрещен ли сайт к индексации. Затем уже обратился к главной странице.

После добавления сайта на странице http://webmaster.yandex.ru/ менее чем через два дня сайт посетит робот-индексатор Yandex/1.01.001 (compatible; Win16; I). И еще через некоторое время сайт будет доступен для поиска в Яндексе.

Управление индексацией

То что Ваш сайт проиндексировался – это еще полдела, гораздо важнее научиться грамотно управлять индексацией. Подумайте, какие бы вы хотели видеть страницы вашего сайта в выдаче поисковых систем: какие из них будут полезны пользователю, а какие из них не несут никакой смысловой нагрузки и используются исключительно как техническая информация, к примеру. Желательно закрыть от индексации административный раздел сайта, директории /images/ (если она названа таким образом), где хранится графическая информация. Владельцам интернет-маагазинов следует закрыть служебные станицы, например, те страницы сайта, через которые осуществляется непосредственная покупка того или иного продукта и т.д. Приняв данные меры, во-первых, вы будете уверены в том, что роботы проиндексируют именно ту информацию, которая на самом деле важна, во-вторых, облегчите роботу роботам, которые не будут посещать все страницы сайта.

1. Управление индексацией при помощи файла robots.txtФайл robots.txt является самым популярным инструмент, посредством которого вы сможете эффективно управлять индексацией вашего сайта. Крайне прост в эксплуатации, не требует специальных навыков. По большому счету, нужен только для того, чтобы запрещать индексацию страниц или разделов сайта для той или иной поисковой системы.

2.Основная информация по файлу robots.txtФайл /robots.txt предназначен для указания всем поисковым роботам, как индексировать информационные сервера.Синтаксис файла позволяет задавать запретные области индексирования, как для всех, так и для определённых, роботов.К файлу robots.txt предъявляются специальные требования, не выполнение которых может привести к неправильному считыванию информации роботом поисковой системы или вообще к недееспособности данного файла.Основные требования:• все буквы в названии файла должны быть прописными, т. е. должны иметь нижний регистр: robots.txt – правильно, Robots.txt или ROBOTS.TXT – не правильно;• файл robots.txt должен создаваться в текстовом формате. При копировании данного файла на сайт, ftp-клиент должен быть настроен на текстовый режим обмена файлами;• файл robots.txt должен быть размещен в корневом каталоге сайта.

2.1. Содержимое файла robots.txtФайл robots.txt обязательно включает в себя две директивы: «User-agent» и «Disallow». Некоторые поисковые системы поддерживают еще и дополнительные записи. Так, например, поисковая система Яндекс использует директиву «Host» для определения основного зеркала сайта.Каждая запись имеет свое предназначение и может встречаться несколько раз, в зависимости от количества закрываемых от индексации страниц или (и) директорий и количества роботов, к которым Вы обращаетесь.Полностью пустой файл robots.txt эквивалентен его отсутствию, что предполагает разрешение на индексирование всего сайта.Директива «User-agent»Запись «User-agent» должна содержать название поискового робота. Пример записи «User-agent», где обращение происходит ко всем поисковым системам без исключений и используется символ «*»:User-agent: *Пример записи «User-agent», где обращение происходит только к роботу поисковой системы Яндекс:User-agent: YandexРобот каждой поисковой системы имеет своё название. Существует два основных способа узнать эти названия:1. На сайтах многих поисковых систем присутствует специализированный раздел «помощь веб-мастеру» (на Яндексе он тоже есть http://webmaster.yandex.ru/faq.xml), в котором часто указываются названия поисковых роботов.2. При просмотре логов веб-сервера, а именно при просмотре обращений к файлу robots.txt, можно увидеть множество имён, в которых присутствуют названия поисковых систем или их часть. Поэтому Вам остается лишь выбрать нужное имя и вписать его в файл robots.txt.Названия основных роботов популярных поисковых систем:Google – «googlebot»;Яндекса – «Yandex»;Рамблера – «StackRambler»;Yahoo! – «Yahoo! Slurp»;MSN – «msnbot».Директива «Disallow»Директива «Disallow» должна содержать предписания, которые указывают поисковому роботу из записи «User-agent», какие файлы или (и) каталоги индексировать запрещено.Рассмотрим различные примеры записи «Disallow».Пример1.Сайт полностью открыт для индексирования:Disallow: /Пример 2. Для индексирования запрещен файл «page.htm», находящийся в корневом каталоге и файл «page2.htm», располагающийся в директории «dir»:Disallow: /page.htmDisallow: /dir/page2.htmПример 3. Для индексирования запрещены директории «cgi-bin» и «forum» и, следовательно, всё содержимое данной директории:Disallow: /cgi-bin/Disallow: /forum/Возможно закрытие от индексации ряда документов и (или) директорий, начинающихся с одних и тех же символов, используя только одну запись «Disallow». Для этого необходимо прописать начальные одинаковые символы без закрывающей наклонной черты.Пример 4. Для индексирования запрещены директория «dir», а так же все файлы и директории, начинающиеся буквами «dir», т. е. файлы: «dir.htm», «direct.htm», директории: «dir», «directory1», «directory2» и т. д:Disallow: /dirНекоторые поисковые системы разрешают использование регулярных выражений в записи «Disallow». Так, например, поисковая система Google поддерживает в записи «Disallow» символы «*» (означает любую последовательность символов) и «$» (окончание строки). Это позволяет запретить индексирование определенного типа файлов.Пример 5. Запрет индексации файлов с расширением «htm»:Disallow: *.htm$Директива «Host»Директива «Host» необходима для определения основного зеркала сайта, то есть, если сайт имеет зеркало, то с помощью директивы «Host» можно выбрать url того сайта, под которым проиндексируется ваш сайт. В противном случае поисковая система выберет главное зеркало самостоятельно, а остальные имена будут запрещены к индексации.В целях совместимости с поисковыми роботами, которые при обработке файла robots.txt не воспринимают директиву Host, необходимо добавлять ее непосредственно после записей Disallow.Пример 6. www.site.ru – основное зеркало:Host: www.site.ruОформление комментариев в файле robots.txtЛюбая строка в robots.txt, начинающаяся с символа «#», считается комментарием. Разрешено использовать комментарии в конце строк с директивами, но некоторые роботы могут неправильно распознать данную строку.Пример 7. Комментарий находится на одной строке вместе с директивой:Disallow: /cgi-bin/ #комментарийЖелательно размещать комментарий на отдельной строке.

2.2 Управление индексацией с помощью мета-теговС помощью мета-тегов тоже можно управлять индексацией страниц сайта. Мета-теги должны находиться в заголовке HTML-документа (между тегами и ).

Наиболее полезные МЕТА-теги, которые помогут поисковикам правильно индексировать страницы вашего сайта:1. или – управление индексацией страниц для поисковых роботов. В данном случае, указывает поисковому роботу, чтобы он не индексировал все страницы.2. – необходим для поисковых систем, чтобы определить релевантна ли страница данному запросу.3. – повышает вероятность нахождения страницы поисковиком по выбранному запросу (ам).4. – управление индексацией страницы для поисковых роботов. Определяет частоту индексации. В данном случае указывается, что ваш документ является динамичным и роботу следует индексировать его регулярно.Есть теги, которые непосредственно к индексации не относятся, но выполняют также важную роль дл удобства работы пользователя с сайтом:1. – контроль кэширования для HTTP/1.0. Не позволяет кэшировать страницы.2. – определение задержки в секундах, после которой браузер автоматически обновляет документ или происходит редирект.3. – указывает, когда информация на документе устареет, и браузер должен будет взять новую копию, а не грузить из кэша.Есть еще один мета-тег revisit-after, по поводу использования, которого ходило раньше много слухов, что он может заставить роботы поисковых систем посещать сайт с определенной периодичностью, однако специалисты Яндекс официально опровергли это.Нет гарантии, что поисковые системы учитывают содержимое мета-тегов, индексируя сайт. Тем более нет гарантии, что эта информация будет учитываться при ранжировании сайта в выдаче. Но мета-теги полезны тем, что при индексации страниц позволяют поисковикам получить необходимую информацию о ресурсе.Для того, чтобы прописать их не нужно много времени, поэтому старайтесь ввести максимально полную мета-информацию о странице.

Проблемы при индексации страниц

Работая в сфере поискового продвижения сайтов, приходится сталкиваться с проблемами индексирования сайтов поисковыми системами, временных «выпадений» некоторых страниц сайтов, и, как следствие, потерей позиций по ключевым словам. Происходит это, в подавляющем большинстве случаев, из-за ошибок веб-мастеров. Ведь далеко не все понимают, что, на первый взгляд, даже незначительная ошибка или упущение может привести к «значительным» последствиям – потере позиций в выдаче поисковых систем. Далее будет рассмотрен список проблем, с которыми Вы можете столкнуться при индексации.

3.1 Динамические страницы, идентификаторы сессий.Проблема. Робот поисковой системы получает одну и ту же страницу с разными идентификаторами сессий. Поисковая система «видит» это как разные страницы. Тоже самое происходит и с динамическими страницами.Описание. На некоторых сайтах существуют динамические страницы с различным порядком параметров, например index.php?id=3&show=for_print и index.php?show=for_print&id=3. Для пользователей – это одна и та же страница, а для поисковых систем – страницы разные. Также можно привести пример со страницей сайта: «версия для печати» с адресом, например index.htm?do=print и самой главной страницей index.htm. По структуре и текстовому наполнению эти страницы практически одинаковы. Однако для поисковой системы – это разные страницы, которые будут «склеены», и, вместо, например, продвигаемой главной страницы в выдаче поисковика будет страница «для печати».Схожая проблема возникает при использовании, по умолчанию, ссылок на директорию и на файл в директории, например /root/ и /root/index.htm. Для пользователей она решается использованием директивы «DirectoryIndex /index.htm» файла .htaccess, либо настройками сервера. Поисковые машины же решают данную проблему сами: с течением времени «склеивают» индексную страницу с «корнем» директории.Один из видов динамических страниц – страницы с идентификаторами сессий. На сайтах, где принято использовать идентификаторы сессий, каждый посетитель при заходе на ресурс получает уникальный параметр &session_id=. Это парамет добавляется к адресу каждой посещаемой страницы сайта. Использование идентификатора сессии обеспечивает более удобный сбор статистики о поведении посетителей сайта. Механизм сессий позволяет сохранять информацию о пользователе при переходе от одной страницы сайта к другой, чего не позволяет делать протокол HTTP. Идентификатор хранится у пользователя в куки или добавляется как параметр в адрес страницы.Однако, так как роботы поисковых систем не принимают куки, идентификатор сессии добавляется в адрес страницы, при этом робот может найти большое количество копий одной и той же страницы с разными идентификаторами сессий. Проще говоря, для поискового робота страница с новым адресом – это новая страница, при каждом заходе на сайт, робот будет получать новый идентификатор сессии, и, посещая те же самые страницы, что и раньше, будет воспринимать их как новые страницы сайта.Известно, что поисковые системы имеют алгоритмы «склейки» страниц с одинаковым содержанием, поэтому сайты, использующие идентификаторы сессий, все же будут проиндексированы. Однако индексация таких сайтов затруднена. В некоторых случаях она может пройти некорректно, поэтому использование на сайте идентификаторов сессий не рекомендуется.Решение.Что касается динамических страниц, то нужно закрывать страницы «версия для печати» и другие дубликаты в файле robots.txt, либо с помощью атрибута мета-тега noindex. Другое решение — заранее создавать функционал сайта, который бы не генерировал динамические страницы с различным порядком параметров.Что касается идентификаторов сессий, то решение данной проблемы простое — прописать с .htaccess следующие команды:php_flag session.use_trans_sid Offphp_flag session.use_only_cookie Onphp_flag session.auto_start On

3.2 Неверная обработка 404 статусаПроблема. Ошибки в обработке 404 статуса сервером, когда вместо 404 кода (страница не существует), сервер отдает код 200 и стандартную страницу ошибки.Описание. Обрабатывать 404 ошибку можно по-разному, но смысл остается один. Основной и самый простой вариант обработки данной ошибки – создание страницы, например 404.htm и запись в файле .htaccess «ErrorDocument 404 /404.htm». Однако так поступают не все веб-мастера, многие настраивают сервер на выдачу главной страницы сайта при 404 ошибке. Вот здесь-то и спрятан «подводный камень». В случае некорректных настроек сервера, для страницы с ошибкой 404 (т.е. в данном случае отданной главной), сервер возвращает 200 OK. Таким образом, можно получить стопроцентный дубликат главной страницы, вследствие чего робот поисковика может «склеить» ее с любой другой страницей сайта.Решение. Выход из данной проблемы таков: грамотная настройка сервера и обработка 404 кода через файл .htaccess путем создания отдельной страницы под обработку ошибки.

3.3 ПлагиатПроблема. Размещение материалов сайта на других сайтах, а, как следствие, – «склеивание» и потеря позиций.Описание. Описание данной проблемы заключено в ее названии, и в современном Интернете всем хорошо известно, что плагиат – это «воровство» контента и «присваивание» авторских прав, а, с точки зрения поисковой оптимизации, – это еще и проблемы с индексацией сайта в виде появления дублей его страниц.Решение. Решение проблемы здесь одно – письмо с жалобой о нарушении авторских прав, хостеру сайта-плагиатора, предварительно предупредив, конечно, виновного в том, что он поступает незаконно.

3.4 Другие проблемыНеиндексация некоторых элементов страницы может быть вызвана несколькими причинами:1. Текст заключен в тег . Это специальный тег, запрещающий индексацию текста роботу Яндекса.2. Текст расположен в скрипте, т.е между тегами3. Текст расположен в комментариях4. Очень маленький размер страницы (Яндекс не индексирует файлы меньше 1 кб)5. Ресурс не содержит русский текст (опять же, это касательно Яндекса)

Заключение

Каждому, кто ведет в Интернете серьезный проект, необходимо понимать, как роботы поисковых систем. Знание о том, когда робот приходит на сайт, что индексирует, что не индексирует, позволит избежать многих проблем, прежде всего технических, уже на стадии создания сайта и далее – при его сопровождении.

Чтобы не задаваться вопросом, почему в очередной раз сайт пропал из выдачи по некоторому запросу, прежде всего, стоит проанализировать, а что же на данный момент проиндексировал робот на сайте? Не могло оказаться так, что некоторая информация стала недоступна роботу по тем или иным причинам?

Знание основ индексирования документа позволит правильно произвести регистрацию ресурса в поисковой системе и грамотно осуществлять его дальнейшее продвижение, чтобы пользователи всегда находили Ваш сайт на просторах Интернета.

www.internet-technologies.ru

Что такое индексация сайта?

Индексация сайта представляет собой процесс внесения информации о контенте сайта в базу поисковых систем. Непосредственно индекс это и есть база данных поисковой системы. Если сайт не проиндексирован, то его страницы не смогут оказаться в поисковой выдаче. Поисковая выдача представляет перечень сайтов, которые выдает поисковая система в ответ на запрос пользователя, чем выше авторитет к ресурсу, тем выше он оказывается в этом перечне.

Индексацией занимаются специальные поисковые роботы. Следуя определенным алгоритмам, они обходят всю страницу целиком, находя при этом разрешенные к индексации ссылки, а также всю информацию и изображения. Таким образом, исследуется весь ресурс. Благодаря индексу ПС максимально быстро и корректно отвечает на пользовательские запросы. Индексация сайта это достаточно важный и первоочередной элемент в оптимизации сайта.

Существует различные способы определения сайта поисковыми системами:

  1. Можно предоставить поисковым ботам возможность самостоятельно определить созданный сайт либо новые его страницы. Естественно данный процесс занимает определенное время. Следует отметить, что индексация произойдет лишь в случае наличия активных ссылок на ваш ресурс с других индексируемых сайтов, в противном случае ПС может и не узнать о сайте, в то время как большое количество внешних ссылок значительно сократит время прихода поискового робота.
  2. Добавление вручную URL на сайт в специальной форме поисковой системы, после чего сайт автоматически оказывается в очереди на индексацию. Достаточно добавить только лишь главную страницу сайта, далее процесс обработки пройдут и все остальные страницы из меню и внутренних ссылок. Способ в некоторых случаях более длительный, но его преимуществом является то, что он наименее энергозатратный и бесплатный.

Процесс индексации в зависимости от различных обстоятельств составляет от нескольких часов до нескольких недель. Следует заблаговременно подготовить сайт к индексации. Основным моментом при этом является правильное заполнение тега <title> и описания сайта. Описание в последующем должно привлекать посетителей на ресурс, убеждать их в уникальности и пользе контента.

Непосредственно управлять индексацией возможно с помощью специального файла robots.txt, либо специального тега NOINDEX и атрибута rel=»nofollow для Яндекса и Google соответственно, которые закрывают страницы для индексации. В дальнейшем необходимо отслеживать процесс индексации ресурса, только так можно добиться увеличения количества посетителей.

seosage.ru