Индексация сайта в поисковых системах - что это такое, как работает

Что такое индексация в поисковых системах

Индексирование сайта — это процесс, в ходе которого поисковые системы получают и обрабатывают информацию о страницах ресурса. Эти данные хранятся в базе, которая называется поисковым индексом. Таким образом Яндекс, Google и другие поисковики узнают, что сайт существует и наполнен каким-то контентом. Индексация необходима для того, чтобы юзеры могли быстро найти страницы при поиске, а на формирование результатов выдачи уходили всего доли секунды.

Индексация контента — основная часть работы по продвижению ресурса. Лишь позже добавляются все остальные элементы по оптимизации сайта. Если у веб-страницы есть проблемы с индексированием, бизнес не получит клиентов с сайта и, соответственно, будет нести убытки.

Для индексирования поисковик — Яндекс или Google — отправляет на сайт роботов, которые считывают код, а впоследствии регулярно посещают страницы ресурса. Периодичность зависит от того, с какой частотой меняется контент, от количества страниц и объема трафика.

Упорядочивание и учет: индексация позволяет создать “БД” для последующего моментального поиска по заранее известным данным.

Как происходит индексация

Рассмотрим, как происходит процесс индексирования страниц сайта.

  1. Поисковый робот (краулер) обходит ресурс и находит на нем новую страницу.
  2. Данные анализируются: проводится очистка контента от ненужной информации, формируется список лексем. Лексема — совокупность всех значений и грамматических форм слова в языке.
  3. Вся информация упорядочивается, лексемы расставляются по алфавиту. Одновременно с этим происходит обработка данных, поисковая машина относит информацию к соответствующим темам.
  4. Формируется индексная запись.

Это стандартный процесс индексации документов для поисковых систем. При этом у Яндекса и Google есть некоторые отличия в технических моментах.

Сканирование страниц

Сканирование страниц — это главная задача поискового робота. Когда он попадает на новую страницу, то получает два набора данных:

  1. Содержание, информацию о сервере и служебные данные.
  2. Основные метаданные и Robots Meta (команды для робота)
  3. Список ссылок на страницах.

После этого робот передает данные в обработку, а затем сохраняет их в базе. Наиболее простой способ индексации страниц в рамках домена — создание карты сайта sitemap.xml.

Подробнее о XML карте вы можете прочитать в отдельной статье

Чтобы Google и Яндекс могли увидеть ваш сайт, нужно в первую очередь добавить его в сервисы, а после этого прикрепить ссылку на файл Sitemap в Google Search Console и Яндекс.Вебмастере. Это специальные сервисы для вебмастеров, которые помогают работать с индексацией и отслеживать ошибки на сайте.

Чтобы добавить файл Sitemap в Google Search Console, нужно зайти в сервис, добавить свой сайт и перейти в раздел «Индекс». В пункте «Файлы Sitemap» нужно выбрать «Добавить файл Sitemap» и вставить ссылку на файл Sitemap.

Добавление карты сайта в Search Console

В Яндекс.Вебмастере путь примерно такой же: зайдите в аккаунт, выберите нужный сайт. После этого в левом меню нажмите на раздел «Индексирование» и выберите вкладку «Файлы Sitemap». В строку «Добавить файл Sitemap» нужно вставить ссылку файла и нажмите «Добавить». Кстати, если вы внесли какие-либо в карту сайта, просто отправьте карту на перепроверку, нажав на стрелки рядом с файлом Sitemap.

Добавление XML карты в Вебмастер

Обработка страниц

После сбора роботами информация будет обработана, а затем попадет в базу данных. Это важно для ускорения дальнейшего поиска.

Сначала программа формирует страницу со всем содержимым: скрипты, эффекты, стили. Очень важно, чтобы робот имел полный доступ ко всем файлам, поскольку без них индексатор не сможет точно увидеть структуру.

Вы можете посмотреть, одинаково ли отображается страница для пользователей и поискового робота. Для этого нужно зайти в Google Search Console и выбрать отчет «Посмотреть как Googlebot» в разделе «Сканирование».

После этого робот анализирует текст страницы: упрощает слова и определяет частоту упоминания ключевого слова, проверяет уникальность. Если размещенный контент уже индексировался в интернете, у страниц будет низкая уникальность. Следовательно, робот может не добавить их в поисковый индекс. Поэтому важно наполнять свой сайт преимущественно уникальным и полезным контентом

Технологии и алгоритмы индексации

Важно понимать, что точные алгоритмы индексирования — это строго закрытая коммерческая информация. Поисковые системы тщательно охраняют эти данные.

«Яндекс» при индексации ориентируется преимущественно на файл robots.txt, а Google — на файл sitemap.xml.

Google

Главным отличием считается использование технологии Mobile-first. Она предполагает первоочередное сканирование и индексацию мобильной версии сайта. В индексе хранится именно мобильная версия. Получается, если страница сайта при показе на мобильных устройствах будет содержать мало важной информации или в целом проигрывать основной версии по качеству, высок риск, что в индекс она не попадет.

Кроме этого, Google подтверждает наличие «краулингового бюджета» — регулярности и объема посещения сайта роботом. Чем больше краулинговый бюджет, тем быстрее новые страницы будут оказываться в индексе. Увы, точных данных о способах расчета данного показателя в компании не раскрывают. По наблюдениям специалистов, в этом случае существенное влияние оказывают возраст сайта и частота обновлений.

«Яндекс»

В «Яндексе» главной версией сайта считается десктопная, поэтому в первую очередь сканироваться будет именно она. Официально краулингового бюджета нет, поэтому индексирование проводится вне зависимости от траста и других показателей ресурса. Еще влиять может количество выложенных в сеть страниц. Речь идет о страницах, которые конкуренты и другие пользователи публикуют одновременно с вами.

Приоритет при индексации имеют сайты с большей посещаемостью. Чем выше посещаемость, тем быстрее новая страница будет отображаться в поисковой выдаче.

Отдельно отметим, что Яндекс не индексирует документы с весом более 10 Мб. Это следует учитывать при создании страниц сайта.

Как эффективно проиндексировать сайт

Чтобы сайт начал как можно быстрее индексироваться поисковыми системами, его следует добавить в базу поисковиков через инструменты для вебмастеров.

Добавьте сайт в Яндекс.Вебмастер

Для начала нужно зайти в личный кабинет в сервисе и добавить сайт в главном меню.

Добавление нового сайта в Вебмастер

На следующем шаге нужно скопировать код подтверждения и добавить его в исходный код страниц сайта в раздел <head>.

Код подтверждения в конце тега <head>

Для повышения точности данных нужно привязать Яндекс.Метрику к сайту в пункте Настройки -> Привязка к Яндекс.Метрике. Информацию из Метрики робот будет использовать во время обходов.

Привязка к Яндекс.Метрике

Чтобы проверить, проиндексированы ли те или иные страницы на текущий момент, нужно перейти в меню Индексирование -> Проверить статус URL.

В том же меню можно увидеть информацию о том, когда и с каким результатом робот обходил страницы, какие из них присутствуют в поиске. Там же есть функция добавления Sitemap, запуска переобхода и настройки скорости обхода.

Добавьте сайт в Google Search Console

Нужно перейти на https://search.google.com/search-console/welcome и войте в учётную запись. Добавьте сайт в систему.

Добавление сайта в Google Search Console

Как и в Яндекс.Вебмастере, инструмент предлагает большое количество отчетов о состоянии индексации сайта. Можно увидеть, какие страницы проиндексированы и добавлены в поиск, какие есть внутренние и внешние ссылки и многое другое.

Если Яндекс автоматически обнаруживает файлы Sitemap и имеет довольно гибкие настройки переиндексации, то у Google Search Console с этим могут возникнуть проблемы. Иногда он не может увидеть файлы Sitemap — тогда их следует загрузить вручную. Настройки повторного обхода страниц после обновлений не столь удобны — в первую очередь необходимо проверить конкретный URL, а лишь после этого появится кнопка “Запросить индексирование”.

Добавление сайта в прочие поисковые системы

В российском сегменте интернета доля поисковых систем, кроме Яндекса и Google, близка к нулю. Тем не менее, пренебрегать ими не стоит, если сайт является важным имиджевым элементом крупной компании или проекта.

  1. Рамблер. Этот поисковик основан на тех же данных индексации, которые собирает Яндекс — в этом случае дополнительные настройки не нужны.
  2. Mail.ru. У него есть свой кабинет для вебмастеров — https://webmaster.mail.ru/. В нём предлагается минимальный набор инструментов для управления и отслеживания индексации в системе.
  3. Yahoo и Bing. В определённый момент Bing, который принадлежит Microsoft, поглотил поисковый движок Yahoo, объединив их сервисы для вебмастеров — https://www.bing.com/toolbox/webmaster/.

Как проверить индексацию

Есть три способа проверки того, отображается ли сайт в поисковиках: запрос в поисковой системе, использование бесплатных сервисов для автоматической проверки, а также специальные сервисы для веб-мастеров.

Поисковая строка

Наиболее простой и быстрый способ проверки индексации. Яндекс и Google поддерживают оператор site, который отображает проиндексированные страницы. Базовый синтаксис использования: site:sitename.com

Например: site:mosreg.ru

Однако поисковые системы могут ограничить работу этих операторов для снижения нагрузки. Поэтому лучше использовать дополнительные способы проверки.

Бесплатные плагины

Можно использовать бесплатные сервисы, например, BE1 и PR-CY. Для проверки нужно ввести адрес сайта в специальную строку и нажмите «Проверить». Обычно такие сервисы, кроме количества страниц в индексе популярных поисковиков, предоставляют еще много полезных и интересных данных.

Анализ показателей сайта через сервис Be1, в том числе количество проиндексированных страниц

Как ускорить индексацию сайта

Современные поисковые роботы достаточно быстро собирают информацию о ресурсе: обычно новые страницы появляются в индексе уже через 20–40 минут. Но так бывает не всегда, поскольку может произойти сбой или другая нештатная ситуация, и страница будет индексироваться очень долго.

Стоит учесть, что появление адреса в списке проиндексированных страниц «Яндекс.Вебмастера» не совпадает с реальным моментом индексации. На практике URL оказывается в индексе намного раньше, а в кабинете — лишь при очередном апдейте.

При этом есть ситуации, когда индексирование важно ускорить:

  1. Сайт выходит из-под фильтров.
  2. Молодой ресурс обладает небольшим краулинговым бюджетом.

В обоих случаях можно и нужно “подтолкнуть” поисковых роботов. Отметим, что для «Яндекса» и Google подход будет отличаться.

Начнем с российской поисковой системы. Заходим в «Яндекс.Вебмастер» и в меню слева, во вкладке «Индексирование», находим ссылку «Переобход страниц». Переходим по ней.

На следующей вкладке нужно ввести URL новой страницы, а затем нажать кнопку «Отправить». Отследить статус заявки можно в списке ниже.

Яндекс.Вебмастер — «Переобход страниц»

То же самое можно делать не только с новыми страницами, но и с уже имеющимися, если в них были изменения. Нужно помнить, что количество отправок в сутки ограничено, и все зависит от возраста и траста сайта.

В самом «Вебмастере» для ускорения индексирования рекомендуется подключать переобход по счетчику «Яндекс.Метрики». Это не самое хорошее решение. Все потому, что поисковый робот может ходить по всем страницам — даже тем, которые не требуется индексировать, причем в приоритете будут наиболее посещаемые документы. Может возникнуть ситуация, когда старые страницы робот обошел, а новые — не увидел. Или вовсе в поиск попадут технические страницы: например, страница авторизации или корзина интернет-магазина.

У Google ускорение индексации состоит из двух этапов. Сначала нужно перейти в Search Console, где на главной странице вверху можно увидеть поле «Проверка всех URL». В него следует вставить адрес страницы, которую требуется проиндексировать. Далее нажимаем на клавиатуре «Enter».

Ждем около минуты. Некоторое время поисковая машина будет проверять, можно ли проиндексировать адрес. Если все прошло успешно, Google сообщит, что страница отправлена на индексирование. Остается лишь дождаться результатов.

При отправке на индексирование страниц сайта важно помнить, что Google до сих пор очень ценит ссылки. Поэтому есть и другой способ ускорения индексации — Twitter. Сразу после публикации страницы можно отправиться в Twitter и сделать твит с нужным адресом. Буквально через полчаса URL будет уже в индексе Google.

Лучше всего использовать эти способы совместно — так надежнее.

Как закрыть сайт от индексации

Закрыть сайт от индексации — значит, запретить поисковым роботам доступ к сайту, к некоторым его страницам, части текста или изображению. Как правило, это делается, чтобы скрыть от публичного доступа определенную секретную информацию, технические страницы, сайты на уровне разработки, дублированные страницы и проч.

Сделать это можно несколькими способами:

1. С помощью robots.txt можно запретить индексацию всего сайта или определенных страниц. Для этого в корне веб-сайта нужно создать текстовый документ, в котором будут указаны правила для роботов поисковых систем. Они состоят из двух частей: первая (User-agent) указывает на адресата, а вторая (Disallow) запрещает индексацию того или иного объекта.

Например, запрет индексации всего сайта для всех поисковых ботов выглядит так:

User-agent: *

Disallow: /

2. При помощи мета-тега robots, который считается наиболее правильным для закрытия одной конкретной страницы от индексирования. Теги noindex и nofollow помогут запретить роботам любых поисковых систем индексировать сайт, страницу или часть текста.

Запись для запрета индексации всего документа будет выглядеть так:

<meta name="robots" content="noindex, nofollow"/>

Можно создать запрет для определенного робота:

<meta name="googlebot" content="noindex, nofollow"/>

Что делать, если сайт не индексируется

Есть большое количество причин, почему сайт не индексируется. Условно их можно разделить на технические и контентные.

Технические причины

Сайт может быть случайно закрыт от сканирования роботами, например, из-за ошибки разработчиков. Это можно обнаружить, если проверить:

  1. Директиву Disallow в файле robots.txt. Она, как мы говорили ранее, закрывает конкретные страницы от индексации.
  2. Мета-теги в разделе <head> HTML-документа, например, <meta name="robots" content="noindex" />. Они помогают определить отношение к сканированию контента в документе.
  3. HTTP-заголовок X-Robot-Tag — информация о запрете или разрешении индексации сайта в HTTP-заголовках ответа сервера.
  4. Код ответа сервера. В индекс попадают лишь доступные страницы с кодом ответа сервера 200 Ок, а ресурсы с другими кодами ответа удаляются. Изменение кода ответа — один из способов управления индексацией.
  5. Настройки сервера. Для разных IP адресов, User-agent и иных параметров серверная часть ресурса может регулировать как скорость, так и саму отдачу информации о странице и ее содержимом.
  6. Отсутствие входящих внутренних или внешних ссылок (так называемые страницы-сироты). Индекс может исключать их.
  7. Низкий трафик. Это может быть следствием недостаточно полезной страницы или отсутствием семантического спроса со стороны пользователей по конкретному контенту.

Контентные причины

Стоит помнить, что индексация всегда занимает определенное время. Поэтому, если страницы нет в индексе, иногда это может говорить о том, что роботы поисковых систем просто не успели до нее дойти. Также есть риск, что присутствуют ошибки в контентном наполнении страниц:

  1. Отсутствие индексируемого контента. Контент может быть реализован на технологии, которую поисковые системы не способны считывать или плохо воспринимают к индексации. Так векторная графика, например, Flash, не индексируется.
  2. Контент без пользы или вредный для пользователей. Сюда относятся спам, малый по объему контент, устаревшая информация, которая не будет пользоваться популярностью, наличие вирусов или фишинга.
  3. Дублирующийся контент. Поисковые системы обычно не индексируют или удаляют из выдачи страницы, которые содержат одинаковую информацию.

Иные причины

Более редкие случаи неиндексации бывают связаны, например, с фильтром «для взрослых».

Возможен редкий случай неиндексации — «плохая история» домена. В этом случае, например, был куплен домен, на котором ранее был поисковый спам, плохие ссылки, adult-контент. Также он мог быть ранее замечен в других черных способах продвижения, поэтому сайт сразу окажется под фильтром. Поэтому перед покупкой домена стоит проверить его историю.

Выводы

Индексация страниц сайта проводится, как правило, достаточно быстро. При правильной настройке документы могут попадать в индекс поиска уже спустя полчаса после размещения.

Настройка сводится к созданию правильных конфигурационных файлов, а также удобных условий для поискового робота для перехода по страницам сайта. Вот какие шаги следует предпринять для правильной индексации:

  • Создать и правильно настроить файл robots.txt.

Подробнее о robots.txt вы можете прочитать в другом материале

  • Создать файл sitemap.xml.
  • Зарегистрировать сайт в сервисах Google Search Console и «Яндекс.Вебмастер».
  • Каждый раз после размещения новой статьи или страницы отправлять URL на проверку.
  • Использовать дополнительные инструменты: размещение ссылок в Twitter и на других трастовых ресурсах.
  • Проводить контроль качества HTML верстки. Большое количество ошибок в HTML коде часто приводит к некорректной индексации документа.
  • Проводить проверку внутренней оптимизации: перелинковка страниц
  • Проводить работы над уникальностью контента на страницах. Яндекс часто исключает страницы с неуникальным контентом из индекса и помечает их как “малополезные”.

После этого вероятность возникновения проблем с индексированием будет минимальной. Теперь можно переходить к наращиванию позиций в топе, но это уже тема другой статьи.

Оставить комментарий
Комментарии

Пусто

Артем Опарин

Обсудим ваш проект бесплатно

Сделайте заказ прямо сейчас, и уже сегодня мы приступим к работе!
Заполняя данную форму вы соглашаетесь на обработку персональных данных в соответствии с законом №152-ФЗ "О персональных данных"