02.02.07
Резко возросшее в 2006 году количество поискового спама заставляет разработчиков поисковых машин искать более изощренные решения для автоматического определения качественных страниц и их ранжирования.
Google столкнулся с этой проблемой чуть раньше, поэтому успел разработать два алгоритма, обход которых с целью спама - или учет с целью оптимизации - (нужное подчеркнуть) представляется уже далеко не простой задачей.
Это идеи TrustRank и PhraseRank. В какой стадии внедрения находится каждый из алгоритмов, сказать сложно, Гугл, как и остальные поисковые системы, не стремится полностью выложить все свои секреты веб-мастерам. Но картина нашего "алгоритмического будущего" рисуется уже более отчетливо. Очевидно, что работы в этом направлении будут идти, если уже не идут полным ходом, и в Яндексе.
Вопрос на заметку.
Как определить, какие слова и словосочетания веб-страницы поисковая система сочтет значимыми?...
Для выделения терминов используется ассоциативная информация об их совместной встречаемости. Значимыми считаются только те термины, у которых имеются достаточно сильные ассоциативные связи с другими терминами. По этой причине в процессе отбора значимых терминов строятся ассоциативные отношения между ними, т.е. фактически формируется ассоциативный словарь из слов и словосочетаний.
Вопрос на заметку.
На основании какого корпуса текстов поисковая система будет формировать ассоциативный словарь из слов и словосочетаний?...
С помощью ассоциативного словаря может быть обнаружен и спам - вернее, та его разновидность, при которой страница составляется из многих терминов (например, названий товаров), относящихся к определенной тематике. Все эти термины совместно встречаются в разных сочетаниях, но не все сразу. Обнаружение спама выполняется следующим образом. Из страницы выделяются термины (слова и словосочетания). Если достаточно много этих терминов связано ассоциативными отношениями со многими другими терминами страницы, то страница считается спамом. Для нормальной страницы число ассоциативных отношений между ее терминами намного меньше, чем для спамной страницы. На данном предположении и основывается обнаружение спама.
Вопрос на заметку. Проще говоря, будут автоматически отфильтрованы "речитативные" страницы, с текстами, похожими на заклинания, типа
"если вы хотите поменять свою кухонную мебель и мебель в гостиной, то наша кухонная мебель - идеальное решение, а гостиная мебель - совершенно идеальное; кухня - понятие неотделимое от кухонной мебели, а красивая гостиная мебель украсит вашу гостиную комнату точно так же, как наша кухонная мебель украсит вашу кухню..." От чтения таких "творений SEO-копирайтеров" в больших количествах в голове остается сплошное "го... го... го... хня... хню... хней..."
Еще один вид спама обнаруживается неявно - подозрительные страницы получают пониженный вес при ранжировании. Достигается это следующим образом. При вычислении веса найденной страницы используется метод под названием PhraseRank. В рамках этого метода высокий вес может получить только та страница
http://www.subscribe.seo-info.ru/rv165/