четверг, 21 февраля 2013 г.

Механизм индексации страниц. Исторический экскурс плюс выводы

     Данная статья позволит понять механизм индексации сайтов и ранжирования страниц. Вопрос Зачем нужен тИЦ и PR для Вашего сайта (блога)? рассматривается в другой статье (см. ссылку).
    Вначале исторического пути Интернета проблемы с ранжированием страниц не было, в связи с  их относительно малым количеством. И располагались они так, как сейчас можно наблюдать в существующих каталогах статей. Сортировка проводилась или по алфавиту, или по темам или по любому другому случайному признаку. Очевидно, что при таких условиях все страницы были абсолютно равноправны между собой.

    Но с течением времени ситуация, как вы можете заметить,  заметно изменилась. Страниц стало появляться всё больше и больше. И совершенно очевидно, что какие-то из найденных веб-страниц более информативны для конкретного пользователя, а какие-то – менее. Соответственно откапывать пользователю полезную для себя информацию в этой “куче мусора” становилось всё труднее и труднее, назрела необходимость провести сортировку страниц, каким-то образом их упорядочить и организовать в зависимости от их значимости для пользователей (то есть провести ранжирование страниц).
Первым, кто неплохо решил эту проблему, был Google.
    Ларри Пейдж (один из основателей Google), в ходе работы над своей докторской диссертацией  принялся изучать и разрабатывать структуру ссылок в Интернет и в ходе работы  обратил  особое внимание на так называемые обратные ссылки (это ссылки ведущие на вашу страницу с других ресурсов). В итоге он пришёл к идее о рейтинге и ранжировании Web-страниц, основанном на ссылках. Несколько позже к  исследованиям Ларри Пейдж присоединился Сергей Брин (второй из основателей) и они вдвоём начали разрабатывать систему оценки авторитетности веб-ресурсов.
  Система, в конце концов положенная в основу поисковой машины Google, изначально получила название BackRub, а в последствии была усовершенствована и переименована в PageRank. И что интересно - первое слово в этом втором названии вовсе не "страница", как привыкло думать большинство, а... фамилия его создателя - Ларри Пейджа (Page).
   По аналогии со сложившейся в научном мире практикой,  они взяли и приравняли гиперссылки (т.е. ссылки из-за пределов веб-страницы, или веб-документа) к цитированию в научных трудах. А как известно, в научном мир более авторитетным признаётся тот труд, который чаще и больше других цитируется в других источниках. Точно так же теперь и в поисковых системах, более авторитетной считается та веб-страница, на которую ведет большее количество ссылок.
     Конечно экскурсы это интересно, но попробуем найти и практическую пользу делая выводы!
И так ВЫВОД 1. Более авторитетным будет считается тот сайт или ресурс, на который ведёт большее количество ссылок.
Ларри Пейдж и Сергей Брин сделали своими силами небольшую поисковую систему, реализовав в ней задуманный алгоритм, которая базировалась в Стэндфордском университете, где они занимались. Целью её создания с одной стороны была практическая отработка алгоритма, а с другой дать студентами и сотрудниками университета так необходимый поиск нужных документов. Успех созданной системы настолько превзошёл все ожидания, что их даже попросили убрать эту систему из университета, так как внутренняя сеть университета из-за слишком частых и массовых обращений к созданному поисковику стала часто зависать.
    Но к сожалению обычный простой подсчёт всех ссылающихся ресурсов не даёт внятного представления о ценности какой-либо страницы. Представьте только себе, что есть две ссылки на один и тот же ресурс: одна, например, какого-то студента и вторая – авторитетного академика, какая из них будет более ценная? Поэтому Google принимает в расчёт, кроме общего числа ссылок, еще и авторитетность страницы, с которой ведёт эта ссылка.
Отсюда ВЫВОД 2. Более ценны те ссылки которые идут с более авторитетных ресурсов.
    Для понимания дальнейшего немного усложним ситуацию: предположим, что со страницы академика ведет сотня ссылок на различные другие ресурсы. Такая ситуация может возникнуть когда у него на странице какие-то сайты перечислены списком (предположим это был список литературы). А вот со страницы, скажем, кандидата наук –  одна единственная ссылка, причем из статьи которая посвящена, например, обзору Вашей страницы. Как вы думаете, какая ссылка окажется более ценная: та которая в списке или та которая единственная да ещё и с обзором?
Согласитесь, что на глазок это определить  трудно, тем более крайне трудно это сделать в отношении миллиардов различных страниц. Поэтому в  PageRank  алгоритм ранжирования был ещё несколько усовершенствован...

Алгоритм индексирования страниц Google

  1. Google считает, что каждая веб-страница, в том числе и только что созданная и даже на каком-нибудь молодом ресурсе, всегда имеет вес, отличный от нуля.
  2. Google принимает за основу, что часть веса  страницы передается по имеющимся гиперссылкам другим веб-страницам. 
  3. Из того веса, который передаётся часть отдаётся по внутренним ссылкам на другие страницы Вашего же сайта (но надо иметь в виду, что в рамках Вашего сайта этот вес никуда не исчезает, а просто перераспределяется), а часть отдаётся на другие (сторонние) сайты.
  4. Так же Google принимает за основу, что часть веса страницы, которая передаётся  другим сайтам всегда одна и та же, не взирая на то сколько бы ссылок не было поставлено странице.
  5. Отсюда следствие: вес одной ссылки, которая ведет на другой сайт, прямо зависит от количества ссылок имеющихся на странице: чем больше исходящих ссылок, тем меньший  вес на другой сайт передается по одной ссылке, следовательно тем меньше ссылка весит.
ВЫВОД 3. Если Вы ссылаетесь на какую-то страницу, то, следовательно, часть авторитетности (веса) своей страницы Вы тем самым отдаете чужим ресурсам. При чем неважно, сколько это будет ссылок, вес всегда будет отдан один и тот же.
ВЫВОД 4. Если доведётся покупать ссылки на других ресурсах, необходимо обращать внимание на количество имеющихся исходящих ссылок со страницы - донора.
А исходя из уже сделанных выводов можно задумываться Как оформить главную страницу своего сайта.
    И хоть система уже и так достаточно усложнилась, но если бы дело обстояло только так, как описано выше, то получилось бы, что в так называемом ТОПе стали бы находиться только самые богатые сайты, имеющие возможность купить большее количество ссылок. И ни о какой ценности страниц для пользователя не было бы и речи. Поэтому описанный выше алгоритм был ещё очень сильно усложнен. И ко всему прочему, эти поисковые алгоритмы продолжают постоянно меняются, дополняются и совершенствуются. Да Вы и сами наверно замечали.
      С Google вроде так начерно всё понятно, а что же с Яндексом? Ну с Яндексом  дела обстоят примерно так же, но сказывается наш родной менталитет. (Я не хочу сказать, что он там хуже или лучше, но он действует несколько по другому и не всегда эти действия очевидны!) 

Известные различия в индексировании у Google и Яндекса

— Яндекс определяет значение авторитетности всего сайта в целом, а Google – каждой страницы в отдельности;












Комментариев нет:

Отправить комментарий