Механизм индексации страниц. Исторический экскурс плюс выводы

Данная статья позволит понять механизм индексации сайтов и ранжирования страниц. Вопрос Зачем нужен тИЦ и PR для Вашего сайта (блога)? рассматривается в другой статье (см. ссылку).

Вначале исторического пути Интернета проблемы с ранжированием страниц не было, в связи с их относительно малым количеством. И располагались они так, как сейчас можно наблюдать в существующих каталогах статей. Сортировка проводилась или по алфавиту, или по темам или по любому другому случайному признаку. Очевидно, что при таких условиях все страницы были абсолютно равноправны между собой.

Но с течением времени ситуация, как вы можете заметить, заметно изменилась. Страниц стало появляться всё больше и больше. И совершенно очевидно, что какие-то из найденных веб-страниц более информативны для конкретного пользователя, а какие-то – менее. Соответственно откапывать пользователю полезную для себя информацию в этой “куче мусора” становилось всё труднее и труднее, назрела необходимость провести сортировку страниц, каким-то образом их упорядочить и организовать в зависимости от их значимости для пользователей (то есть провести ранжирование страниц).

Первым, кто неплохо решил эту проблему, был Google.

Ларри Пейдж (один из основателей Google), в ходе работы над своей докторской диссертацией принялся изучать и разрабатывать структуру ссылок в Интернет и в ходе работы обратил особое внимание на так называемые обратные ссылки (это ссылки ведущие на вашу страницу с других ресурсов). В итоге он пришёл к идее о рейтинге и ранжировании Web-страниц, основанном на ссылках. Несколько позже к исследованиям Ларри Пейдж присоединился Сергей Брин (второй из основателей) и они вдвоём начали разрабатывать систему оценки авторитетности веб-ресурсов.

Система, в конце концов положенная в основу поисковой машины Google, изначально получила название BackRub, а в последствии была усовершенствована и переименована в PageRank. И что интересно - первое слово в этом втором названии вовсе не "страница", как привыкло думать большинство, а... фамилия его создателя - Ларри Пейджа (Page).

По аналогии со сложившейся в научном мире практикой, они взяли и приравняли гиперссылки (т.е. ссылки из-за пределов веб-страницы, или веб-документа) к цитированию в научных трудах. А как известно, в научном мир более авторитетным признаётся тот труд, который чаще и больше других цитируется в других источниках. Точно так же теперь и в поисковых системах, более авторитетной считается та веб-страница, на которую ведет большее количество ссылок.

Конечно экскурсы это интересно, но попробуем найти и практическую пользу делая выводы!

И так ВЫВОД 1. Более авторитетным будет считается тот сайт или ресурс, на который ведёт большее количество ссылок.

Ларри Пейдж и Сергей Брин сделали своими силами небольшую поисковую систему, реализовав в ней задуманный алгоритм, которая базировалась в Стэндфордском университете, где они занимались. Целью её создания с одной стороны была практическая отработка алгоритма, а с другой дать студентами и сотрудниками университета так необходимый поиск нужных документов. Успех созданной системы настолько превзошёл все ожидания, что их даже попросили убрать эту систему из университета, так как внутренняя сеть университета из-за слишком частых и массовых обращений к созданному поисковику стала часто зависать.

Но к сожалению обычный простой подсчёт всех ссылающихся ресурсов не даёт внятного представления о ценности какой-либо страницы. Представьте только себе, что есть две ссылки на один и тот же ресурс: одна, например, какого-то студента и вторая – авторитетного академика, какая из них будет более ценная? Поэтому Google принимает в расчёт, кроме общего числа ссылок, еще и авторитетность страницы, с которой ведёт эта ссылка.

Отсюда ВЫВОД 2. Более ценны те ссылки которые идут с более авторитетных ресурсов.

Для понимания дальнейшего немного усложним ситуацию: предположим, что со страницы академика ведет сотня ссылок на различные другие ресурсы. Такая ситуация может возникнуть когда у него на странице какие-то сайты перечислены списком (предположим это был список литературы). А вот со страницы, скажем, кандидата наук – одна единственная ссылка, причем из статьи которая посвящена, например, обзору Вашей страницы. Как вы думаете, какая ссылка окажется более ценная: та которая в списке или та которая единственная да ещё и с обзором?

Согласитесь, что на глазок это определить трудно, тем более крайне трудно это сделать в отношении миллиардов различных страниц. Поэтому в PageRank алгоритм ранжирования был ещё несколько усовершенствован...

Алгоритм индексирования страниц Google

Google считает, что каждая веб-страница, в том числе и только что созданная и даже на каком-нибудь молодом ресурсе, всегда имеет вес, отличный от нуля.
Google принимает за основу, что часть веса страницы передается по имеющимся гиперссылкам другим веб-страницам.
Из того веса, который передаётся часть отдаётся по внутренним ссылкам на другие страницы Вашего же сайта (но надо иметь в виду, что в рамках Вашего сайта этот вес никуда не исчезает, а просто перераспределяется), а часть отдаётся на другие (сторонние) сайты.
Так же Google принимает за основу, что часть веса страницы, которая передаётся другим сайтам всегда одна и та же, не взирая на то сколько бы ссылок не было поставлено странице.
Отсюда следствие: вес одной ссылки, которая ведет на другой сайт, прямо зависит от количества ссылок имеющихся на странице: чем больше исходящих ссылок, тем меньший вес на другой сайт передается по одной ссылке, следовательно тем меньше ссылка весит.

ВЫВОД 3. Если Вы ссылаетесь на какую-то страницу, то, следовательно, часть авторитетности (веса) своей страницы Вы тем самым отдаете чужим ресурсам. При чем неважно, сколько это будет ссылок, вес всегда будет отдан один и тот же.

ВЫВОД 4. Если доведётся покупать ссылки на других ресурсах, необходимо обращать внимание на количество имеющихся исходящих ссылок со страницы - донора.

А исходя из уже сделанных выводов можно задумываться Как оформить главную страницу своего сайта.

И хоть система уже и так достаточно усложнилась, но если бы дело обстояло только так, как описано выше, то получилось бы, что в так называемом ТОПе стали бы находиться только самые богатые сайты, имеющие возможность купить большее количество ссылок. И ни о какой ценности страниц для пользователя не было бы и речи. Поэтому описанный выше алгоритм был ещё очень сильно усложнен. И ко всему прочему, эти поисковые алгоритмы продолжают постоянно меняются, дополняются и совершенствуются. Да Вы и сами наверно замечали.

С Google вроде так начерно всё понятно, а что же с Яндексом? Ну с Яндексом дела обстоят примерно так же, но сказывается наш родной менталитет. (Я не хочу сказать, что он там хуже или лучше, но он действует несколько по другому и не всегда эти действия очевидны!)

Известные различия в индексировании у Google и Яндекса

— Яндекс определяет значение авторитетности всего сайта в целом, а Google – каждой страницы в отдельности;

Подробнее читать Механизм индексации страниц. Исторический экскурс, плюс наши выводы

"Ваш мастер" - Скорая компьютерная помощь

Страницы на сайте

четверг, 21 февраля 2013 г.