Как провести контент-аудит сайта — пошаговое руководство. Все страницы сайта найти


Как провести контент-аудит сайта — пошаговое руководство — Netpeak Blog

Как понять, что проект нуждается в новых текстах, а того, что написала девочка с биржи за два косаря, недостаточно для счастья читателя и выхода сайта на первые позиции? Проведите контент-аудит. Прочитав этот текст до конца, вы узнаете как.

  1. Как найти все страницы без текстов?
  2. Как проверить, есть ли анализируемые страницы в индексе поисковой системы?
  3. Как проанализировать спрос?
  4. Как провести анализ входящего трафика на страницы фильтров?
  5. Как найти страницы с текстами, которые нуждаются в доработке?
  6. Как проверить тексты на сайте?
  7. Как доработать старые тексты?
  8. Выводы

Как найти все страницы без текстов?

Речь о всех страницах, включая разделы, категории, подкатегории, страницы фильтров. Если сайт небольшой, страницы без текстов можно найти вручную. В других случаях лучше использовать Netpeak Spider.

Для начала выделим потенциально важные типы страниц — разделы/категории/подкатегории.

Например:

С помощью XPath (XML Path Language — язык запросов к элементам XML-документа) спарсим все аналогичные типы страниц. Читайте подробно, как провести парсинг (или скрапинг) сайта.

Находясь на главной странице, кликаем правой кнопкой мыши по первому разделу и нажимаем «Просмотреть код»:

Находим блок со всеми URL-адресами разделов, категорий, подкатегорий:

Копируем путь к этому блоку:

Чтобы спарсить только ссылки, к результату нужно добавить //@href, то есть в итоге получается:

//*[@id="main-nav-menu-list"]//@href

Это и есть наш XPath, его нужно сохранить. Для проверки корректности результата можно использовать браузерное расширение XPath Helper в Chrome.

Теперь можно скопировать список всех URL:

И почистить список от дублей и лишних страниц. Например, нужно удалить URL других сайтов:

Теперь необходимо найти XPath для текстов на всех страницах, так как он может быть разным для отдельных типов страниц.

В зависимости от типа страницы, путь может меняться, поэтому нужно проверить все страницы.

Для этого открываем Netpeak Spider и выбираем способ сканирования «По списку URL»:

Добавляем XPath в настройки:

Добавляем список наших URL и запускаем сканирование:

В самом крайнем столбике (справа) будет выводиться статус присутствия текста на странице:

После того как все страницы будут просканированы, можем выгрузить все страницы без текстов, выполнив сортировку. Страницы без текстов отмечены нулем:

Также можно воспользоваться фильтром:

Важно: все анализируемые страницы должны возвращать код ответа 200.

Допустим, в списке встретились URL-адреса с редиректами:

В таком случае укажите конечные URL и пересканируйте страницы заново:

Как проверить, есть ли анализируемые страницы в индексе?

Необходимо убедиться, что анализируемые страницы есть в индексе поисковых систем. Если поисковик уже добавил страницу в индекс, то с большей вероятностью будет ее ранжировать в результатах поиска.

Отмечу, что описанный в данном разделе метод подходит для страниц фильтров и других посадочных под средне- и низкачастотные запросы.

Откроем Netpeak Checker и добавим туда список наших адресов:

Выбираем: «Google SERP» — «Индексация»:

Берем в работу страницы со статусом «True», со статусом «False» — отбрасываем:

Со страницами, которых нет в индексе, мы также будем работать. Просто на данном этапе это не в приоритете, к ним можно вернуться позже.

Важно учитывать индивидуальные особенности каждого сайта. То есть причин плохой индексации может быть множество. Например, неуместное использование метатега <meta name="robots" content="noindex"/> , HTTP заголовок X-Robots-Tag: noindex, неверно указанные директивы в файле robots.txt, низкое качество контента на странице, высокий уровень вложенности и так далее.

Как проанализировать спрос?

Метод не очень точный, но для быстрого анализа подойдет.

Открываем Netpeak Checker, выбираем параметры: «On-Page» — «значение h2» и выгружаем все заголовки h2 наших страниц:

Включаем сканирование и копируем все заголовки h2:

Пробиваем частотность с помощью Планировщика ключевых слов Google. Чтобы ключи были более коммерческими, добавим в начало фразы «buy».

Важно анализировать частотность на вкладке «Планирование бюджета и получение прогнозов». При этом необходимо указывать ключевые слова в точном соответствии, добавив квадратные скобки для ключевых фраз:

Экспортируем данные и удаляем фразы без частотностей. Оставляем только нужные столбцы, как на картинке:

После этого сопоставляем заголовки с соответствующими URL-адресами — можно использовать функцию vlookup в таблицах Google.

То есть берем выгруженный список URL-адресов и заголовков h2:

Удаляем «buy» (c пробелом) из списка фраз KeywordPlanner, нажав сочетание клавиш «Ctrl +H» и выбрав дипазон нужного столбца:

Далее на нужной вкладке в столбце «Avg. Monthly Searches» прописываем формулу:

=VLOOKUP(B2;'Keyword Planner '!$A$2:$B$172;2;0)

Протягиваем ее вниз и получаем соответствие и частотности искомых ключевых фраз.

Чтобы отсортировать данные по частотности, выделяем столбец с частотностями, нажимаем сочетание клавиш «Сtrl+С» и вставляем столбец на то же место, нажав «Сtrl+Shift+V». Так мы переведем значения в обычный формат.

После этого выделяем столбец с частотностями и выбираем в меню «Данные» — «Сортировать лист по столбцу C, Я-A»:

Получаем таблицу, которая дает ориентировочное представление, какие группы товаров более востребованные.

В Яндексе приоритетные страницы можно быстро определить с помощью Яндекс.Вебмастера. Следует перейти на «Индексирование» — «Важные страницы»:

Как провести анализ входящего трафика на страницы фильтров?

Еще один способ узнать, для каких страниц нужны тексты — проанализировать количество органического трафика, приходящего на конкретную страницу. Для анализа можно использовать Google Analytics или Яндекс.Метрику.

Смотрим количество органического трафика со страниц входа. В Google Analytics для этого нужно перейти на: «Источник трафика» — «Каналы» — «Organic Search» — «Страницы входа».

В Яндекс.Метрике нужно пройти по пути: «Стандартные отчеты» — «Содержание» — «Страницы входа»:

Затем следует выбрать сегмент «Поисковый трафик»:

Пример страниц фильтров с достаточно хорошим трафиком:

Конечно, не для всех страниц нужен текстовый контент, но проведя такой анализ, вы получите готовый полигон для экспериментов с текстами.

Как найти страницы с текстами, которые нуждаются в доработке?

Проанализируем динамику трафика.

В Google Analytics переходим по пути: «Источник трафика» — «Каналы» — «Organic Search» — «Страницы входа». Выбираем анализируемый период и сравнить его с предыдущим годом:

Замечаем страницы, трафик на которые сильно просел:

Также смотрим на изменение показателей отказов, страниц за сеанс, средней длительности сеанса  Все это — аргументы в пользу оптимизации контента данных страниц.

Если вам ближе Яндекс.Метрика, следуйте по пути: «Стандартные отчеты» — «Содержание» — «Страницы входа». Затем выбираем период и сравниваем.

Важно: анализ будет корректен, только если URL-адрес страницы за выбранный период не менялся.

Как проверить тексты на сайте?

Приоритетные страницы, для которых нужны хорошие тексты, определили. Допустим, что на некоторых из них тексты уже есть. Как проверить их качество?

Уникальность текстов должна быть не менее 90%. Можно использовать, например, Advego Plagiatus. Если вы делаете рерайт или темы ваших статей очень похожи, также проверяйте тексты на сайте на схожесть между собой. Вот неплохой сервис: http://utext.rikuz.com.

Допустим, вы делаете описания для похожих моделей телефонов. При трех словах в шингле (фрагменте текста, с которым работает программа проверки уникальности), показатель схожести должен быть не более 10%:

Спамность (плотность) ключевых слов в тексте должна быть не более 3%. Это условный показатель, но на него можно ориентироваться. Проверить вхождение ключевых слов легко с помощью сервиса istio.

Еще один отличный сервис — «Семён-Ядрён» (для регистрации понадобится яндексовская почта). С его помощью удобно проверять работу копирайтеров:

  1. В колонке «Фразы для поиска» добавляем ключевые фразы, которые вы указывали в техзадании для копирайтера.
  2. В колонку «Текст или URL:» вставляем написанный текст или адрес страницы.
  3. Получаем список ключевых слов в тексте.

Оптимальный размер текстов, конечно, отличается от ниши к нише, но недавний эксперимент Алексея Рылко доказывает, что роботы поисковых систем предпочитают тексты объемом более 150 слов. Короткая выдержка из исследования: «Страницы, которые имеют меньше 150 слов текста, краулятся роботом реже всего. А страницы с текстами свыше 1200 слов крауляется в 89% случаев».

Если хотите лучше понять, какого объема тексты вам нужны, можно вручную посчитать объем текстов на релевантных страницах из ТОП-10. Затем рассчитать среднее количество символов и готовить тексты побольше.

Но это, естественно, слишком трудоемкий процесс, если у вас большой проект. В данном случае лучше использовать megaindex — сервис анализирует ТОП-10 по Яндексу/Google, подсчитывая средний объем текстов по заданному региону.

Этот сервис бесплатный, а вот аналог от Seolib обойдется в копеечку.

Алгоритм действий аналогичен:

  1. Нужно добавить анализируемую ключевую фразу.
  2. Выбрать регион.
  3. Поставить галочку рядом со строкой «Объем текста в словах и символах».
  4. Поставить галочку рядом со строкой «Всю страницу».

Результат:

Еще одна программа — Ultimate Keyword Hunter — позволяет анализировать объем контента по ТОПу.

Единственный минус — нельзя выгрузить данные об объеме символов.

Инструмент анализа текстовой релевантности от Serpstat в частности позволяет узнать необходимый размер текста на основании анализа конкурентов. Кроме того, сервис предоставляет данные о релевантности и коэффициенте штиля анализируемых ключевых фраз и дает рекомендации по использованию важных ключевых слов в title, h2 и самом тексте.

Также хорошие результаты дает совмещение двух инструментов: Key Collector (для Яндекса, при анализе до 50 фраз, можно использовать arsenkin.ru) и Netpeak Checker.

Алгоритм действий:

  1. Добавляем максимально релевантные ключевые фразы в Key Collector:

  1. Определяем регион:

  1. Идем по пути: «SERP» — «Получить данные для ПС Google»:

  1. Экспортируем данные:

Получается такой отчет.

  1. Добавляем в Netpeak Checker список найденных URL из ТОПа.

Важно, чтобы URL были конечные, то есть возвращали код ответа 200, иначе Checker не выгрузит количество символов.

  1. Напротив строки «Количество символов» ставим галочку:

Получаем такой отчет.

После этого следует сопоставить полученные данные с нашим списком URL-адресов по ТОПам.

В доксе сопоставим основной список ключей и URL с количеством символов. Для этого используем все ту же функцию vlookup в таблицах Google.

Посчитаем среднее количество символов в ТОП-10 по каждому запросу — для этого нужно использовать функцию =AVERAGE()

Чтобы сосчитать для всех строк, нужно выделить первые десять строк, а затем протянуть курсор вниз до конца списка.

Так же можно находить самые большие тексты и стараться сделать их еще длиннее.

С помощью сочетания клавиш Ctrl+H удаляем из ключевых фраз «buy» с пробелом.

Затем копируем все полученные данные в таблицу с общим списком URL категорий (вставлять данные следует с помощью CTRL+SHIFT+V). И опять с помощью функции =VLOOKUP сопоставляем среднее количество символов с названиями категорий:

В итоге получается такая таблица.

Оформление текста так же важно для оптимизации страницы. Следует учесть технические рекомендации:

1. Не должно быть слишком много ключевых слов, выделенных полужирным (тегами <strong>, <b>):

2. В тексте присутствуют подзаголовки h2, h3...h6.

3. Все списки размечены корректно. Пример некорректной разметки (без <ul> и <ol>):

4. Текст желательно не скрывать:

Скрытый текст весит меньше для поисковых роботов Google

Как доработать старые тексты?

Если у вас информационный ресурс, алгоритм реанимации контента хорошо представлен в этой презентации:

Часть этих советов представлена в материале «Что делать со старыми статьями».

Дооптимизация текстов на страницах товаров

Повышением информативности страниц товаров на сайтах интернет-магазинов обычно занимаются в последнюю очередь (или вообще за это не берутся). Часто оправданно, так как описания одинаковых товаров на сайтах похожи друг на друга.

Чтобы сделать уникальные описания, добавьте к названию товара «отзывы» и введите полученную комбинацию в поисковик. Затем выберите страницы с отзывами. Их легко найти по микроразметке:

Скопируйте полностью все отзывы со страницы и вставьте их в сервис istio.

После этого нужно найти тематические слова, которые часто встречаются в тексте описания:

На сайте с отзывами ищем предложения/вопросы с этими словами:

Видим, что многие интересуются вопросом расширения оперативной памяти на ноутбуке. Соответственно, в описании товара на сайте добавляем информацию о возможностях расширения оперативной памяти.

Отзывы можно использовать и для определения ключевых достоинств и недостатков товара/услуги. Отличная площадка для этого — Яндекс.Маркет:

1. Находим отзывы о товаре на сайте.

2. Копируем весь текстовый контент из графы «Достоинства»:

3. Определяем частотность слов/фраз и составляем список всех достоинств/недостатков продукта.

Наконец, используйте мощь пользовательского контента. Бесплатная идея:

Слишком банально? Ok. Как насчет того, чтобы выводить на странице товара блок с превью информационных статей по заданной теме вместо стандартного текста:

Или, например, показывать отзывы на страницы категорий:

На самом деле все средства хороши, чтобы посетители вашего сайта как можно быстрее нашли желаемое. Так что главный совет: пишите так, чтобы читатели были счастливы.

Выводы

1. Создавать простыни текста важно далеко не во всех нишах и не для каждого бизнеса. Изучайте тематику, анализируйте старые тексты. Легче переписать и дооптимизировать их, чем подготовить ворох новых материалов и неожиданно попасть под «Баден-Баден» из-за некачественных старых статей. В результате вы потратите гораздо больше времени для поиска текстов, из-за которых сайт оказался под санкциями.

2. При поиске страниц, для которых нужны тексты, используйте автоматизированные инструменты. Это значительно сэкономит время.

3. Периодически проводите дооптимизацию существующих статей: исправляйте ошибки, следите за структурой, спамностью, дополняйте текст упущенными ключевыми фразами.

4. Ищите альтернативные способы создания контента: проводите статейные конкурсы, предлагайте скидки за отзывы.

Думаете, на этом контент-аудит завершен? Как бы не так: впереди еще составление техзадания для копирайтеров и комплекс мероприятий по анализу сети для выявления плагиаторов и защиты от них. Но это уже темы для отдельных статей.

netpeak.net

9 популярных ошибок любого сайта. Или почему не растут позиции.

Поисковая оптимизация – большая работа над множеством различных факторов. Дизайн, техническая составляющая, контент. Даже незначительные на первый взгляд детали очень важны для продвижения. О самых частых ошибках в дизайне сайта мы уже говорили. Сегодня разберем 9 фатальных SEO ошибок, способных «угробить» любой сайт.

  • Фильтры и санкции поисковых систем

    Как минимум, раз в неделю рекомендую заглядывать в вебмастера Яндекс и Google для проверки наличия санкций. В Яндексе это можно сделать в разделе Диагностика → Безопасность и нарушения. В Google – Поисковый трафик → Меры, принятые вручную.

    Как показывает наша практика, чаще всего владельцы сайтов даже не догадываются о наложенных ограничениях. Недавний пример из нашей работы:

    Нарушения Яндекс. Малополезный контент

    Большое количество чужих текстов на сайте и открытые исходящие ссылки. Результат на скриншоте.

    До снятия всех ограничений дальнейшего смысла заниматься продвижением нет. Исправляем все ошибки, сообщаем поисковой системе и ждем снятия санкций.

  • Контент

    Мы постоянно говорим о том, как важны тексты. Контент – это то, зачем пользователи заходят на сайты. Неуникальный и неинтересный контент никому не нужен. Поисковые системы занижают подобные ресурсы в выдаче, а клиенты устали читать одни и те же шаблонные тексты на сотне сайтов. Пруф того, что за контент можно вылететь с хороших позиций, тут.

    Проверяйте уникальность текстов перед размещением на text.ru.

    Как писать тексты, на какие страницы и в целом, о контенте, много написано в нашем блоге. Вот хорошая подборка статей от нашего копирайтера Дарьи.

  • Теги Title и Description, заголовки h2-h4

    Основа SEO-продвижения – правильно подобранные ключевые слова. Это очень важный фактор в оценке релевантности вашего сайта поисковому запросу.

    Чаще всего мы сталкиваемся с двумя ошибками. Полное отсутствие ключевых слов в тегах:

    title без ключевых запросов

    Тег Title должен быть заполнен в виде связного предложения с включением ключевых слов.

    Либо переспам ключами в заголовках:

    переспам alt

    Важно найти золотую середину. Теги должны быть полезными не только для поисковых роботов, но и для обычных людей. Не забывайте об информативности. Как правильно писать теги title, description и заголовки h2, хорошо рассказывает наш копирайтер Екатерина в своей статье.

  • Переезд на https

    C января 2017 года браузер Google Chrome (начиная с 56 версии) начал помечать все HTTP-сайты, содержащие любые формы, передающие личные данные пользователей (email, пароли, данные кредитных карт и т.п.) как «небезопасные». Также наличие SSL сертификата является небольшим импульсом в ранжировании в Google.

    Небезопасные сайты

    Всем интернет-магазинам в первую очередь следует перейти на протокол https. При этом очень важно соблюсти правильный алгоритм действий.

    Самая частая ошибка – просто настроить 301-редирект со старой версии http на https после покупки SSL-сертификата. Владельцы сайтов забывают о файле robots.txt, директиве Host, настройке вебмастеров. Сайт с http выпадает из индекса, новый сайт на https еще не проиндексирован. Все позиции моментально улетают в трубу.

    В нашем Блоге есть подробная инструкция, как правильно перенести сайт с http на https. Если останутся вопросы, пишите нам, обязательно поможем.

  • Файл robots.txt

    Текстовый файл, размещенный на сайте и предназначенный для роботов поисковых систем. В этом файле следует указать параметры индексирования своего сайта для поисковых роботов.

    Иногда файл robots.txt отсутствует вовсе.

    Свежий пример из нашей работы. Интернет-магазин станков, работы проводились в рамках услуги поисковое продвижение сайта. Сайт был полностью открыт для индексации поисковым роботам и вовсе не имел файл robots.txt.

    Настроили ему robots, теперь все в порядке:

    Что конкретно мы сделали?

    Закрыли от индексации админ панель сайта, служебные страницы 404 и 403, страницу поиска, корзину. Указали адрес карты сайта, настроили директиву Host.

    Вместе с остальными работами по оптимизации это помогло достичь следующих результатов:

    рост посетителей на сайте

    Еще одна серьезная ошибка – сайт полностью закрыт от индексации. За это отвечают директивы Disallow и Allow, которые запрещают или разрешают индексирование разделов, отдельных страниц сайта или файлов соответственно. Для проверки файла у поисковых систем есть специальные инструменты: Яндекс и Google.

    Проверьте, что у вашего сайта имеется файл robots.txt и заполнен он корректно. От индексации следует закрывать все служебные страницы, страницы поиска и фильтров. Страницы дублей, регистрации, авторизации. Корзину и страницу оформления заказа для интернет-магазинов. Подробнее о robots.txt.

  • Дублирование контента (дубли страниц)

    Дублированный контент или просто дубли – это страницы на вашем сайте, которые полностью (четкие дубли) или частично (нечеткие дубли) совпадают друг с другом, но каждая из них имеет свой URL.

    Одна страница может иметь как один, так и несколько дублей:

    переспам alt

    Поисковые роботы отрицательно относятся к дублированному контенту и могут понизить позиции в выдаче из-за отсутствия уникальности, а следовательно, и полезности для клиента. Нет смысла читать одно и то же на разных страницах сайта.

    Может измениться релевантная страница. Робот может выбрать для выдачи дублированную страницу, если посчитает ее содержание более релевантным запросу. Сайт потеряет позиции и просядет в выдаче. В 90% случаев дубли мешают продвижению, и после их устранения позиции сайта улучшаются.

    Как найти и убрать дубли на сайте, рассказываем в данной статье.

  • Зеркала сайта

    Зеркалами считаются сайты, являющиеся полными копиями друг друга, доступные по разным адресам. Все зеркала сайта важно склеить через 301 редирект.

    Показатели тИЦ, вес внешних ссылок не должны растекаться, а они будут, т.к. поисковики считают разными ресурсами сайты, расположенные по разным адресам. Возможна подмена релевантной страницы в поисковой выдаче, дублирование контента. 100% мешает росту сайта в выдаче.

    Сайт не должен открываться по разным адресам, с www и без www, просто site.ru и site.ru/index.php, по http и https и т.д.:

    Чек-лист для проверки:

    • Сайт должен быть доступен только по одному протоколу http или https.
    • Выбрано главное зеркало сайта, с www или без www, указано в Вебмастере.
    • Настроен 301 редирект со всех зеркал.
    • Главная страница сайта доступна по одному адресу, без /index.php, /index.html и т.п.
  • Адаптивная верстка (версия сайта для мобильных устройств)

    100% Must-have для всех сайтов в 2017 году. Сегодня рост мобильного трафика опережает компьютерный. Число пользователей, использующих смартфоны для совершения покупок, в мире растет с каждым днем. Алгоритмы поисковых систем учитывают адаптивность при ранжировании сайта в мобильной выдаче.

    Google уже с 2015 года использует алгоритм Google mobile-friendly.

    Яндекс год назад запустил алгоритм Владивосток.

    Если ваш сайт все еще не адаптирован под мобильные устройства – каждый день вы теряете до половины своих клиентов. Подробнее о том, зачем нужна оптимизация.

  • Скорость загрузки сайта

    Тут все просто. Пользователям не нравятся медленные сайты. Поисковые системы так же отдают предпочтение быстрым, оптимизированным сайтам. Проверить скорость загрузки своего сайта можно с помощью инструмента Google. Красный – медленно, важно срочно увеличивать скорость, желтый – нормально, но можно оптимизировать, зеленый – отлично.

    скорость загрузки сайта

    Разберем на конкретном примере

    Помните, в начале статьи мы упоминали интернет-магазин станков. Что мы исправили из фатальных ошибок:

    • Неуникальный контент

    Написали хороший продающий, уникальный текст на главную страницу сайта.

    До проведения работ:

    Текст на главной

    После оптимизации:

    Текст на главной странице сайта
    • Ошибки оптимизации

    Скорректировали теги title и description, заголовки h2.

    До проведения работ:

    ТТекст на главной странице сайта

    После оптимизации:

    ТТекст на главной странице сайта
    • Отсутствие файла robots.txt

    Создали и настроили файл robots.txt. Сейчас сайт правильно индексируется поисковыми системами. До этого, как писали выше, данного файла не было на сайте вовсе.

    • Наличие не склеенных зеркал

    Склеили зеркала сайта. Сайт был доступен по двум адресам с www и без.

    • Некорректный ответ сервера для несуществующих страниц

    Создали отдельную страницу 404 и настроили правильный ответ сервера для несуществующих страниц.

    До выполнения работ несуществующие страницы через 302 редирект перенаправляли пользователя на главную страницу сайта.

    Результаты:

    Положительная динамика роста посещаемости из поисковых систем:

    Рост посещаемости

    Трафик из Google вырос в два раза:

    Рост трафика из Google

    Результат за 3 месяца:

    +8 запросов у Яндекса, +6 у Google в топ-5

    +19 запросов у Яндекса, +9 у Google в топ-10

    +25 запросов у Яндекса, +11 у Google в топ-20

    +14 запросов у Яндекса, +4 у Google в топ-50

    Посмотреть позиции до и после »

    Хотите так же? Проверьте, может данные ошибки есть и на вашем сайте. Если нет времени и желания разбираться, заказывайте поисковое продвижение у нас, с радостью поможем.

  • 1ps.ru

    Все о том, как найти дубли страниц на сайте… и убрать

    Все, что вы хотели найти про дубли страниц на сайте и дублирование контента. Узнайте 7 методов, чтобы проверить, найти и убрать все, что мешает развитию.

    Неважно какой движок у вашего сайта: Bitrix, WordPress, Joomla, Opencart… Проверка сайта на дубли страниц может выявить эту проблему и её придется срочно решать.

    Дублирование контента, равно как и дубли страниц на сайте, является большой темой в области SEO. Когда мы говорим об этом, то подразумеваем наказание от поисковых систем.

    Этот потенциальный побочный эффект от дублирования контента едва ли не самый важный. Даже с учетом того, что Google по сути почти никогда не штрафует сайты за дублирование информации.

    Наиболее вероятные проблемы для SEO из-за дублей:

    Потраченный краулинговый бюджет.Если дублирование контента происходит внутри веб-ресурса, гарантируется, что вы потратите часть краулингового бюджета (выделенного лимита на количество индексируемых за один заход страниц) при обходе дублей страниц поисковым роботом. Это означает, что важные страницы будут индексироваться менее часто.

    Разбавление ссылочного веса.Как для внешнего, так и для внутреннего дублирования контента разбавление ссылочного веса является самым большим недостатком для SEO. Со временем оба URL-адреса могут получить обратные ссылки. Если на них отсутствуют канонические ссылки (или 301 редирект), указывающие на исходный документ, вес от ссылок распределится между обоими URL.

    Только один вариант получит место в поиске по ключевой фразе.Когда поисковик найдет дубли страниц на сайте, то обычно он выберет только одну в ответ на конкретный поисковый запрос. И нет никакой гарантии, что это будет именно та, которую вы продвигаете.

    Любые подобные сценарии можно избежать, если вы знаете, как найти дубли страниц на сайте и убрать их. В этой статье представлено 7 видов дублирования контента и решение по каждому случаю.

    Стоит заметить, что дубли контента могут быть не только у вас на сайте. Ваш текст могут просто украсть. Начнем разбор с этого варианта.

    1 Копирование контента

    Скопированное содержание в основном является неоригинальной частью контента на сайте, который был скопирован с другого сайта без разрешения. Как я уже говорилось ранее, Google не всегда может точно определить, какая часть является оригинальной. Так что задачей владельца сайта является поиск фактов копирования контента и принятие мер, если обнаружится факт кражи контента.

    Увы, это не всегда легко и просто. Но иногда может помочь маленькая хитрость.

    Отслеживайте сохранение уникальности ваших документов (если у вас есть блог, желательно это контролировать) с помощью каких-либо сервисов (например, text.ru) или программ. Скопируйте текст своей статьи и запустите проверку уникальности.

    Конечно, если сайт содержит сотни статей, то проверка займет много времени. Поэтому я установил на данный сайт комментарии «Hypercomments» и включил функцию фиксации цитирования. Каждый раз, как кто-то скопирует кусок текста, он появляется во вкладке цитаты. Мне сразу видно, что был скопирован весь текст такой-то статьи. Это повод проверить её уникальность через некоторое время.

    Найти дубли контента на чужом сайте легко

    Таким образом вы найдет все сайты, которые содержат текст полностью или частично взятый с вашего сайта. В таком случае необходимо первым делом обратиться к веб-мастеру с просьбой удалить позаимствованный контент (или поставить каноническую ссылку, если это для вашего бизнеса работает и его сайт не слишком плохой в плане SEO). Если консенсус не будет достигнут, вы можете сообщить о копии в Google: отчет о нарушении авторских прав.

    2 Синдикация контента

    Синдикация – это переиздание содержания на другом сайте с разрешения автора оригинального произведения. И хотя она является законным способом получения вашего контента для привлечения новой аудитории, важно установить рекомендации для издателей, чтобы синдикация не превратилась в проблемы для SEO.

    В идеале, издатель должен использовать канонический тег на статью, чтобы указать, что ваш сайт является первоисточником. Другой вариант заключается в применении тега noindex к синдицированному контенту.

    Вариант 1: <link rel=»canonical» href=»http://site.ru/original-content» />Вариант 2: <div rel=»noindex»>Синдицированный контент</div>

    Всегда проверяйте это вручную каждый раз, когда разрешаете дублирование вашего контента на других сайтах.

    3 HTTP и HTTPS протоколы

    Одной из наиболее распространенных внутренних причин дублирования страниц на сайте является одновременная работа сайта по протоколам HTTP и HTTPS. Эта проблема возникает, когда перевод сайта на HTTPS реализован с нарушением инструкции, которую можно прочитать по ссылке. Две распространенные причины:

    Отдельные страницы сайта на протоколе HTTPS используют относительные URL

    Это часто актуально, если использовать защитный протокол только для некоторых страниц (регистрация/авторизация пользователя и корзина покупок), а для всех остальных – стандартный HTTP. Важно иметь в виду, что защищенные страницы могут иметь внутренние ссылки с относительными URL-адресами, а не абсолютными:

    Абсолютный: https://www.homework-cool.ru/category/product/Относительный: /product/

    Относительные URL не содержат информацию о протоколе. Вместо этого они используют тот же самый протокол, что и родительская страница, на которой они расположены. Если поисковый бот найдет такую внутреннюю ссылку и решит следовать по ней, то перейдет по ссылке с HTTPS. Затем он может продолжить сканирование, пройдя по нескольким относительным внутренним ссылкам, а может даже просканировать весь сайт с защитным протоколом. Таким образом в индекс попадут две совершенно одинаковые версии ресурса.

    В этом случае необходимо использовать абсолютные URL-адреса вместо относительных для внутренних ссылок. Если боту уже удалось найти дубли страниц на сайте, и они отобразились в панели вебмастера в Яндексе или Google, то установите 301 редирект, перенаправляя защищенные страницы на правильную версию с HTTP. Это будет лучшим решением.

    Вы полностью перевели сайт на HTTPS, но HTTP версия все еще доступна

    Это может произойти, если есть обратные ссылки с других сайтов, указывающие на HTTP версию, или некоторые из внутренних ссылок на вашем ресурсе по-прежнему содержат старый протокол.

    Чтобы избежать разбавления ссылочного веса и траты краулингового бюджета используйте 301 редирект с HTTP и убедитесь, что все внутренние ссылки указаны с помощью относительных URL-адресов.

    Чтобы быстро проверить дубли страниц на сайте из-за HTTP/HTTPS протокола, нужно проконтролировать работу настроенных редиректов.

    4 Страницы с WWW и без WWW

    Одна из самых старых причин для появления дублей страниц на сайте, когда доступны версии с WWW и без WWW. Как и HTTPS, эта проблема обычно решается за счет включения 301 редиректа. Также необходимо указать ваш предпочтительный домен в панели вебмастера Google.

    Чтобы проверить дубли страниц на сайте из-за префикса WWW, так же редирект должен корректно работать.

    5 Динамически генерируемые параметры URL

    Динамически генерируемые параметры часто используются для хранения определенной информации о пользователях (например, идентификаторы сеансов) или для отображения несколько иной версии той же страницы (например, сортировка или корректировка фильтра продукции, поиск информации на сайте, оставление комментариев). Это приводит к тому, что URL-адреса выглядят следующим образом:

    URL 1: https:///homework-cool.ru/position.html?newuser=trueURL 2: https:///homework-cool.ru/position.html?older=desc

    Несмотря на то, что эти страницы будут содержать дубли контента (или очень похожую информацию), для поисковых роботов это повод их проиндексировать. Часто динамические параметры создают не две, а десятки различных версий страниц, которые могут привести к значительному количеству напрасно проиндексированных документов.

    Найти дубли страниц на сайте можно с помощью панели вебмастера Google в разделе «Вид в поиске — Оптимизация HTML»

    поиск дублей страниц на сайте в панели google

    Яндекс Вебмастер покажет их в «Индексирование – Страницы в поиске»

    поиск дублей страниц на сайте в панели yandex

    Для конкретного случая в индексе Google находятся четыре страницы пагинации с одинаковым метаописанием. А скриншот из Яндекса наглядно показывает, что на все «лишние» атрибуты в ссылках настроен редирект, включая теги.

    Проверка сайта на дубли страниц

    Еще можно прямо в поисковике ввести в строку:

    site:domen.ru -site:domen.ru/&

    Таким образом можно найти частичные дубли страниц на сайте и малоинформативные документы, находящиеся в индексе Google.

    Если вы найдете такие страницы на вашем сайте, убедитесь, что вы правильно классифицируете параметры URL в панели вебмастера Google. Таким образом вы расскажите Google, какие из параметров должны быть проигнорированы во время обхода.

    6 Подобное содержание

    Когда люди говорят про дублирование контента, они подразумевают совершенно идентичное содержание. Тем не менее, кусочки аналогичного содержания так же попадают под определение дублирования контента на сайте от Google:

    «Если у вас есть много похожих документов, рассмотрите вопрос о расширении каждого из них или консолидации в одну страницу. Например, если у вас есть туристический сайт с отдельными страницами для двух городов, но информация на них одинакова, вы можете либо соединить страницы в одну о двух городах или добавить уникальное содержание о каждом городе»

    Такие проблемы могут часто возникать с сайтами электронной коммерции. Описания для аналогичных продуктов могут отличаться только несколькими специфичными параметрами. Чтобы справиться с этим, попробуйте сделать ваши страницы продуктов разнообразными во всех областях. Помимо описания отзывы о продукте являются отличным способом для достижения этой цели.

    На блогах аналогичные вопросы могут возникнуть, когда вы берете старую часть контента, добавите некоторые обновления и опубликуете это в новый пост. В этом случае использование канонической ссылки (или 301 редиректа) на оригинальный пост является лучшим решением.

    7 Страницы версий для печати

    Если страницы вашего сайта имеют версии для печати, доступные через отдельные URL-адреса, то Google легко найдет их и проиндексирует через внутренние ссылки. Очевидно, что содержание оригинальной статьи и её версии для печати будет идентичным – таким образом опять тратится лимит индексируемых за один заход страниц.

    Если вы действительно предлагаете печатать чистые и специально отформатированные документы вашим посетителям, то лучше закрыть их от поисковых роботов с помощью тега noindex. Если все они хранятся в одном каталоге, таком как https://homework-cool.ru/news/print/, вы можете даже добавить правило Disallow для всего каталога в файле robots.txt.

    Disallow: /news/print

    Подведем итоги

    Дублирование контента и скрытые дубли страниц на сайте могут обернуться головной болью для оптимизаторов, так как это приводит к потере ссылочного веса, трате краулингового бюджета, медленной индексации новых страниц.

    Помните, что вашими лучшими инструментами для борьбы с этой проблемой являются канонические ссылки, 301 редирект и robots.txt. Не забывайте периодически проверять и обновлять контент вашего сайта с целью улучшения индексации и ранжирования в поисковых системах.

    Какие случаи дублей страниц вы находили на своем сайте, какие методы используете, чтобы предотвратить их появление? Я с нетерпением жду ваших мыслей и вопросов в комментариях.

    comments powered by HyperComments

    homework-cool.ru

    Как узнать какие страницы в поиске яндекса или это секрет

    Все мы знаем, что Яндекс.Вебмастер показывает какие страницы проиндексированы, но к сожалению не показывает, какие из них не попали в поиск.

    Лично у меня уже много месяцев, сервис Яндекс.Вебмастер показывает мне очень непонятную картину:

    Загружено роботом 93694Страниц в поиске 3215Исключено роботом 178

    Делаем подсчет: 93694 - 3215 - 178 = 90301 интересно, что с этими страницами не так, про них забыли?

    С этим вопросом я решил разобраться и побеседовал с представителем яндекса (далее Яндекс).

    Конечно я прочитал страницу http://help.yandex.ru/webmaster/?id=995383 и возможно их не видно по одной из описанных причин.

    Однако, если это так, то хотелось бы узнать, собирается ли Яндекс сделать полную раскладку по страницам, которые не попадают в поиск?

    А именно, мне бы хотелось видеть в Яндекс.Вебмастер такую картинку:

    дубликаты уже показанных страниц: 111содержат поисковый спам: 222содержат ненужный пользователям контент: 333

    Яндекс: (ответил к сожалению сухо) приведите, пожалуйста, несколько примеров страниц, которые отсутствуют в поиске, чтобы я мог прокомментировать, с чем это может быть связано.

    Я: подскажите, а как я могу узнать эти несколько страниц? Дело в том, что Яндекс.Вебмастер не показывает эти данные. Я даже залез в раздел Индексирование сайта - Страницы в поиске, и попытался собрать базу всех страниц, которые есть в поиске, но на 40 странице все заканчивается и внизу страницы написано: Показаны первые 1000 из 3202 страниц. Вот и получается, что этот раздел недоработан. Может быть Вы знаете другой способ узнать страницы сайта, которые не попали в Поиск яндекса?

    Яндекс: в Вебмастере, как и в поиске, предоставляется информация о 1 000 страниц в поиске. Это не ошибка.

    Чтобы проверить наличие в поиске страницы или раздела сайта, рекомендую Вам использовать оператор поисковых запросов ( http://help.yandex.ru/search/?id=1111369 ) url.

    К примеру, так Вы сможете определить, присутствует ли главная страница Вашего сайта в поиске: http://yandex.ru/yandsearch?text=url%3Ayapro.ruТаким образом можно найти и любую другую страницу.

    А так: http://yandex.ru/yandsearch?text=url%3Ayapro.ru%2Fweb-master* - можно просмотреть страницы раздела web-master, добавив на конце запроса символ *

    Я: т.е. Вы предлагаете мне вручную перебирать все 93782 страницы сайта? И всё это ради того, чтобы найти хотя бы 1 страницу, которая проиндексирована, но которой нет в поиске? Вы представляете сколько у меня времени уйдет на это? Или может быть я что-то не понял?

    Яндекс: рекомендуем Вам для начала проверить, есть ли в поиске, самые Важные страницы Вашего сайта, которые, к примеру, ранее хорошо находились в поиске. К сожалению, мы не сможем Вам помочь в поисках страниц, которые отсутствуют, так как это выходит за рамки наших задач.

    Вывод: Яндекс может, но не хочет реализовывать данную возможность, скорее всего преследуя свои возможно коммерческие цели.

    p.s. написал свою идею сюда в официальный блог яндекс-поиска, посмотрим, может что-нибудь ответят.

    yapro.ru

    8 способов найти удаленный сайт или страницу

    Сервисы и трюки, с которыми найдётся ВСЁ.

    Зачем это нужно: с утра мельком прочитали статью, решили вечером ознакомиться внимательнее, а ее на сайте нет? Несколько лет назад ходили на полезный сайт, сегодня вспомнили, а на этом же домене ничего не осталось? Это бывало с каждым из нас. Но есть выход.

    Всё, что попадает в интернет, сохраняется там навсегда. Если какая-то информация размещена в интернете хотя бы пару дней, велика вероятность, что она перешла в собственность коллективного разума. И вы сможете до неё достучаться.

    Поговорим о простых и общедоступных способах найти сайты и страницы, которые по каким-то причинам были удалены.

    1. Кэш Google, который всё помнит

    Google специально сохраняет тексты всех веб-страниц, чтобы люди могли их просмотреть в случае недоступности сайта. Для просмотра версии страницы из кеша Google надо в адресной строке набрать:

    http://webcache.googleusercontent.com/search?q=cache:http://www.iphones.ru/

    Где http://www.iphones.ru/ надо заменить на адрес искомого сайта.

    2. Web-archive, в котором вся история интернета

    Во Всемирном архиве интернета хранятся старые версии очень многих сайтов за разные даты (с начала 90-ых по настоящее время). На данный момент в России этот сайт заблокирован.

    3. Кэш Яндекса, почему бы и нет

    К сожалению, нет способа добрать до кэша Яндекса по прямой ссылке. Поэтому приходиться набирать адрес страницы в поисковой строке и из контекстного меню ссылки на результат выбирать пункт Сохраненная копия. Если результат поиска в кэше Google вас не устроил, то этот вариант обязательно стоит попробовать, так как версии страниц в кэше Яндекса могут отличаться.

    4. Кэш Baidu, пробуем азиатское

    Когда ищешь в кэше Google статьи удаленные с habrahabr.ru, то часто бывает, что в сохраненную копию попадает версия с надписью «Доступ к публикации закрыт». Ведь Google ходит на этот сайт очень часто! А китайский поисковик Baidu значительно реже (раз в несколько дней), и в его кэше может быть сохранена другая версия.

    Иногда срабатывает, иногда нет. P.S.: ссылка на кэш находится сразу справа от основной ссылки.

    5. CachedView.com, специализированный поисковик

    На этом сервисе можно сразу искать страницы в кэше Google, Coral Cache и Всемирном архиве интернета. У него также еcть аналог cachedpages.com.

    6. Archive.is, для собственного кэша

    Если вам нужно сохранить какую-то веб-страницу, то это можно сделать на archive.is без регистрации и смс. Еще там есть глобальный поиск по всем версиям страниц, когда-либо сохраненных пользователями сервиса. Там есть даже несколько сохраненных копий iPhones.ru.

    7. Кэши других поисковиков, мало ли

    Если Google, Baidu и Yandeх не успели сохранить ничего толкового, но копия страницы очень нужна, то идем на seacrhenginelist.com, перебираем поисковики и надеемся на лучшее (чтобы какой-нибудь бот посетил сайт в нужное время).

    8. Кэш браузера, когда ничего не помогает

    Страницу целиком таким образом не посмотришь, но картинки и скрипты с некоторых сайтов определенное время хранятся на вашем компьютере. Их можно использовать для поиска информации. К примеру, по картинке из инструкции можно найти аналогичную на другом сайте. Кратко о подходе к просмотру файлов кэша в разных браузерах:

    Safari

    Ищем файлы в папке ~/Library/Caches/Safari.

    Google Chrome

    В адресной строке набираем chrome://cache

    Opera

    В адресной строке набираем opera://cache

    Mozilla Firefox

    Набираем в адресной строке about:cache и находим на ней путь к каталогу с файлами кеша.

    Что делать, если вообще ничего не помогло

    Если ни один из способов не дал результатов, а найти удаленную страницу вам позарез как надо, то остается только выйти на владельца сайта и вытрясти из него заветную инфу. Для начала можно пробить контакты, связанные с сайтом на emailhunter.com.

    Источник: iphones.ru

    internetua.com