Услуги по интернет рекламе, созданию и продвижению сайтов.Создание и продвижение сайтов в  Интернет. Интернет реклама. Создание семантического ядра страниц.Продвижение в поисковых системах.
"Роботы поисковой" - что это?

Роботы поисковой системы, "пауки" (crawler) - это программные модули, занимающиеся поиском веб-страниц. Как они работают в действительности? Почему они так важны?

Учитывая весь шумиху поднятую вокруг поисковой оптимизации и индексных баз данных поисковиков, вы думаете, что роботы что-то очень навороченное, умное, и все знающее? Фигня это. Роботы - обладают лишь базовыми функциями, которыми обладали одни из первых броузеров, в отношении того, какую информацию они могут распознать на сайте. Как и первые броузеры, роботы попросту не могут делать многие вещи. Роботы не понимают фреймов, Flash анимаций, изображений или JavaScript. Они не могут зайти в разделы, находящиеся под паролем, не могут нажимать на все те кнопочки, котоыми любят так украшать (особенно анимированными) начинающие пользователи. Они могут затормозиться (причем надолго) в процессе индексирования динамических адресов URL и работать очень медленно, вплоть до остановки и безсилием над JavaScript-навигацией.

Как работают роботы поисковой ?
Поисковые роботы надо воспринимать, как программы автоматизированного получения данных, путешествующие по сети в поисках информации и ссылок на информацию.

Когда, зайдя на страницу "Submit_URL", вы добавляете очередную страницу в поисковик - в очередь для просмотра сайтов роботом добавляется новый URL. Даже если вы не регистрируете страницу, множество роботов найдет ваш сайт, поскольку существуют ссылки из других сайтов, ссылающиеся на ваш. Вот одна из причин, почему важно строить ссылочную популярность и размещать ссылки на других тематических ресурсах.

Зайдя на сайт, робот сначала проверяет, есть ли файл "robots.txt". Этот файл сообщает роботам, какие разделы вашего сайта не подлежат индексации. Обычно это могут быть директории, содержащие файлы, которыми робот не интересуется или ему не следовало бы знать.

Роботы хранят и собирают ссылки с каждой страницы, которую они посещают, а позже проходят по этим ссылкам на другие страницы. Вся всемирная сеть построена из ссылок. Начальная идея создания Интернет сети была в том, что бы была возможность перемещаться по ссылкам от одного места к другому, на три "уровня" (обычно) в пределах одного сайта. Вот так перемещаются и роботы.

"Продвинутость" при индексировании страниц в реальном режиме времени зависит от программистов поисковых машин, которые придумывают методы, используемые для оценки информации, получаемой роботами поисковика, так называемый "алгоритм". Будучи внедрена в базу данных поисковой машины, информация доступна пользователям, которые осуществляют поиск. Когда пользователь поисковой машины вводит поисковый запрос , производится ряд быстрых вычислений для уверенности в том, что выдается действительно правильный набор сайтов для наиболее релевантного ответа.

Можете просмотреть, какие страницы вашего сайта уже посетил поисковый робот, по лог-файлам сервера, или по результатам статистики лог-файла. Идентифицируя роботов, вы увидите, когда они посетили ваш сайт, какие страницы и как часто это происходило. Некоторые роботы легко идентифицируются по своим именам, как Google's "Googlebot". Другие более "хитрые", как, например, Inktomi's "Slurp". Другие роботы так же могут встречаться в логах и не исключено, что вы не сможете сразу их идентифицировать - некоторые из них могут даже оказаться броузерами, которыми управляют люди.

Кроме идентификации уникальных поисковых роботов и подсчета количества их визитов, статистика также может показать вам агрессивных, поглощающих всю ширину канала пропускания роботов или роботов, нежелательных для посещения вашего сайта. Как они читают страницы вашего web-сайта?
Когда поисковой робот посещает страницу, он просматривает ее видимый текст, содержание различных тегов в исходном коде вашей страницы ( title tag, meta tags , и т.д.), а так же гиперссылки на странице. Судя по словам ссылок, поисковая машина решает, о чем страница. Есть много факторов, используемых для вычисления ключевых моментов страницы "играющих роль". Каждая поисковая машина имеет свой собственный алгоритм для оценки и обработки информации. В зависимости от того, как робот настроен, информация индексируется, а затем доставляется в базу данных поисковой системы.

После этого, информация, доставленная в индексные базы данных поисковой системы, становится частью поисковой системы и процесса ранжирования в ее базе. Когда посетитель существляет запрос, поисковая просматривает всю базу данных для выдачи конечного списка, релевантного поисковому запросу.

Базы данных поисковых систем подвергаются тщательной обработке и приведению в соответствие. Если вы уже попали в базу данных, роботы будут навещать вас периодически для сбора любых изменений на страницах и уверенности в том, что обладают самой последней информацией. Количество посещений зависит от установок поисковой машины, которые могут варьироваться от ее вида и назначения.

Иногда поисковые роботы не в состоянии проиндексировать веб-сайт. Если ваш сайт упал или на сайт идет большое количество посетителей, робот может быть безсилен в попытках его индексации. Когда такое происходит, сайт не может быть переиндексирован, что зависит от частоты его посещения роботом. В большинстве случаев, роботы, которые не смогли достичь ваших страниц, попытаются позже, в надежде на то, что ваш сайт в ближайшее время будет доступен.

Многие поисковые роботы не могут быть идентифицированы, когда вы просматриваете логи. Они могут посещать вас, но логи утверждают, что кто-то использует Microsoft броузер и т.д. Некоторые роботы идентифицируют себя использованием имени поисковика (googlebot) или его клона (Scooter = AltaVista).
В зависимости от того, как робот настроен, информация индексируется, а затем доставляется в базы данных поисковой машины.
Базы данных поисковых машин подвергаются модификации в различные сроки. Даже директории, имеющие вторичные поисковые результаты используют данные роботов как содержание своего веб-сайта.

Собственно, роботы не используются поисковиками лишь для вышеизложенного. Существуют роботы, которые проверяют баз данных на наличие нового содержания, навещают старое содержимое базы, проверяют, не изменились ли линки, загружают целые сайты для просмотра и т. д.