Техническая поддержка сервиса Quadro.Boards

Герда · [1990-05-17]

Поисковая машина - это программа, которая составляет и хранит предметный указатель Интернета, а так же находит в нем заданные ключевые слова. Для этого программа составляет так называемый индекс.

Рассмотрим процесс составления индекса и поиска по нему.

Сбор адресов страниц в интернете.

Чтобы составить индекс по страницам, нужно сначала составить список страниц - набор адресов тех страниц, по которым будет составляться индекс.

Поскольку сайты и их страницы беспорядочно разбросаны в интернете, поисковой машине нужно с чего-то начинать. Разработчики поисковиков погружают в него какой-то изначальный список адресов страниц сайтов, а затем поисковой робот собирает все гипертекстовые ссылки с каждой страницы на другие страницы и добавляет все найденные в ссылках адреса к своему первоначальному набору.
Таким образом, первоначальный набор адресов страниц быстро увеличивается за счет внутренних и внешних ссылок на страницы сайтов.

ВАЖНО ЗНАТЬ! Малоизвестный страницы, на которые никто не ссылается, имеют очень мало шансов автоматически попасть в индекс поисковой машины.
Поэтому не проиндексированным сайтам и форумам стоит прибегать к средствам регистрации новых веб-страниц, которые есть во всех поисковиках.

Выкачивание страниц.

Для того, чтобы составить индекс из страницы, внесенной в набор адресов поисковика, поисковой робот (он же - поисковой "паук") выкачивает содержимое страниц и сохраняет его на своих серверах (то бишь компьютерах).

Составление индекса (индексирование)

Чтобы составить индекс, индексный робот поисковой машины должен отобрать все слова из всех выкаченных текстов веб-страниц и разной служебной информацией о страницах, с которых они были взяты (например адрес, описание сайта и т.п.)
Для этого индексный робот перебирает все выкаченные страницы, нумерует их, удаляет из теста "мусор" например html-теги), затем извлекает из текста слова и помещает их в индекс.

Подробнее об индексе: как устроениндекс поисковой машины.

Шаг 1. Конверсия в чистый текст.
Для начала поисковая машина очищает тест от нетекстовых элементов: резметки (тегов) язка html, графических элементов и т.п.

Шаг 2. Выборка слов.
Индексному роботу нужно выбрать из текста все слова и расположить их по алфавиту. Для этого поисковик должен знать, что считается словом - последовательность букв, числа, буквенно-цифровые последовательности, слова с дефизом и т.п. А так же, что словом НЕ считается - пробелы, знаки препинания и прочее.
У каждого поисковика есть свое определение того, что считать словом в тексте.
Стандарта здесь, увы, не существует.

Шаг 3. Лингвистическая обработка.
В поисковых машинах слова НЕ заносятся в индекс в том виде, в котором они приведены в тексте.
Наравне с этапом выборки слов поисковая машина применяет свой алгоритм лингвистической обработки слов: приведение слов к их начальной грамматической форме, к основам (грубо говоря, к именительному падежу).
Этот алгоритм называется машинной марфологией.

Шаг 4. Составление индекса.
Собранные вместе основы всех слов из всех текстов сводятся в индекс - своеобразный словарь, в котором основы упорядоченны по алфавиту, а при каждой основе записан номер страницы, с которой она взята (номер страницы) и на каком месте на этой странице она располагалась (номер вхождения).

Таким образом, индексная запись имеет следующую структуру:
ОСНОВА / номер страницы+номер вхождения / номер страницы+номер вхождения / номер страницы+номер вхождения / ....

(конечно, на деле для удобства хранения таких огромных объемов информации и поиска по ним всячески оптимизируют и усложняют. но если объяснять "на пальцах" - суть индекса именно такова, как описано выше.)

Примечание: прямой индекс.
А откуда берется цитата в поисковых результатах? Неужели поисковик восстанавливает текст страницы по вывернотому "наизнанку" индексу?
Нет, хотя это технически возможно. Но гораздо проще хранить еще и второй индекс - прямой индекс. Этот индекс есть, по сути, сжатая текстовая копия всего интернета.

Поиск.

Все описанные выше шаги незаметны для пользователя поисковой машины. А вот сам поиск - это как раз то, что видит пользователь. Он вводит в поисковую строку свой запрос (слово или словосочетание), и поисковая машина - о, чудо! - выдает список ссылок на страницы в интернете.

Как же это работает?
Когда пользователь вводит какое-нибудь слово в строку запроса поисковика, поисковая машина обращается к индексу, находит запись о заданном слове, извлекает все номера страниц, относящиеся к заданному слову, и показывает пользователю результаты поиска, т.е. список страниц.

В списке результатов обычно отображается заголовок страницы (титул страницы), дата создания страницы, ее адрес, цитата из текста страницы с подсвеченным искомым словом.

Если же в запросе было несколько слов, то поисковая машина сравнивает списки ссылок на страницы для каждого слова и выбирает только те страницы, номера которых повторяются, т.е. встречаются в каждом списке страниц для каждого слова. Таким образом, выбираются только те страницы, на которых одновременно встречаются все слова запроса.

(конечно, тут изложена сама суть механизма, а на деле разработчики поисковиков используют множество дополнительных ухищрений)

Поисковик тем лучше, чем более "правильные" страницы он показывает пользователю в ответ на запрос. "Правильные" страницы называются релевантными (то бишь относящимися к делу, уместными)
источник

Отредактировано Герда (07.12.2010 01:47:35)

0

Timon · [1990-04-11]

Любой поисковик работает благодаря следующим составным:

Spider (паук) - браузероподобная программа, которая скачивает веб-страницы.

Crawler (краулер, «путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице.

Indexer (индексатор) - программа, которая анализирует веб-страницы, скаченные пауками.

Database (база данных) – хранилище скачанных и обработанных страниц.

Search engine results engine (система выдачи результатов) – извлекает результаты поиска из базы данных.

Web server (веб-сервер) – веб-сервер, который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы.

+1

MD_eAEAea

+1

0

Hase

Здравствуйте,извиняюсь,если не в ту тему пишу. Последнее время заметила переходы с Яндекса, адрес страницы начинался "yandex.ru/clck/jsredir" ну и далее весь адрес (большой).
Пробовала перейти - Яндекс пишет, что wrong url. В статистике таких переходов полно. Что это может быть?

0

summer

Hase
Это скрипт, который перенаправляет пользователя по ссылке в найденных запросах поисковика. Иными словами, Яндекс так скрывает поисковое слово, по которому пользователь нашёл ваш сайт посредством их поисковика. "Новшество" появилось ещё в августе прошлого года.

0

Hase

summer

Спасибо.А почему по этой ссылке нельзя перейти? Не означает ли это,что люди тоже по этой ссылке не могут перейти? Ибо резко сократилось количество посещений.Такого просто так не может быть.

0

summer

Hase
Потому-что это ридерект. На майббе тоже есть страница переадресации - попробуйте перейти на неё, тоже не сможете.
Ваши гости успешно переходят на форум, просто Яндекс не говорит, по каким ключевым словам они его нашли.

0

Hase

summer

Спасибо за разъяснения.Просто у нас три дня падала резко посещаемость,я полезла в статистику и обнаружила новые для меня вещи. Так бы и внимания не обратила. Сегодня опять все в порядке с посещаемостью.

0

Советы: Как бесплатно раскрутить свой форум	Архив	06.06.2011
Законы Мерфи для веб-мастеров	Комната отдыха	18.10.2014
метатеги	Продвижение и раскрутка	31.12.2009
Sitemaps и метатеги для лучшего индексирования	Новости сервиса	08.10.2013
Позор RedFF.ru	Корзина	15.02.2009

Техническая поддержка сервиса Quadro.Boards

Меню навигации

Пользовательские ссылки

Объявление

Новости сервиса

О форуме

Полезные ссылки

Информация о пользователе

Как работает поисковая машина

Сообщений 1 страница 8 из 8

Поделиться107.12.2010 01:41:56

Поделиться210.04.2011 17:29:09

Перевести Поделиться331.05.2011 12:13:02

Поделиться424.02.2014 03:23:38

Поделиться524.02.2014 06:49:08

Поделиться624.02.2014 12:03:38

Поделиться724.02.2014 22:28:50

Поделиться825.02.2014 02:02:43

Похожие темы

Техническая поддержка сервиса Quadro.Boards

Меню навигации

Пользовательские ссылки

Объявление

Новости сервиса

О форуме

Полезные ссылки

Информация о пользователе

Как работает поисковая машина

Сообщений 1 страница 8 из 8

Поделиться107.12.2010 01:41:56

Поделиться210.04.2011 17:29:09

ПеревестиПоделиться331.05.2011 12:13:02

Поделиться424.02.2014 03:23:38

Поделиться524.02.2014 06:49:08

Поделиться624.02.2014 12:03:38

Поделиться724.02.2014 22:28:50

Поделиться825.02.2014 02:02:43

Похожие темы

Перевести Поделиться331.05.2011 12:13:02