Как сайты выглядят внутри поисковых систем

С целью удобства дальнейшей обработки данных поисковая система вносит все найденные в сети Интернет страницы в свой индекс, который служит для сжать объемов информации и оптимизации хранения. Для того, чтобы понять за счет чего осуществляется сокращение объема информации стоит знать, каким образом документ представляется внутри поисковой системы.

Вначале происходит очистка страницы от разнообразных нетекстовых элементов – графики, HTML-тегов и т.п. В итоге остается «чистый» текст для последующей обработки.

На следующем этапе все слова из текста сортируются в алфавитном порядке, а остальные элементы, не являющимися словами (знаки препинания, пробелы и т.п.) отбрасываются. Нюансом является тот факт, что поисковая машина не вносит слова в индекс в первичной форме из текста. При помощи специального лингвистического алгоритма все слова приводятся к начальной грамматической форме или основе. Это дет возможность сократить занимаемое место в индексе поисковика и делать поиск более точным. Из отобранных основ складывается некое подобие словаря, в которое указывается адрес страницы и каждое конкретное место расположения основы (ее номер вхождения). В поисковом индексе сохраняются исключительно номера основ, а сами основы идут отдельно. В случае многократного вхождения одного слова в индексе указывается номер данной страницы и каждое вхождение этого слова. Выходит такая себе обратная копия всех страниц из сети Интернет. Такой индекс поисковой системы носит наименование инвертированного или же инверсного.

При этом поисковые роботы так же сохраняют прямой индекс. Прямой индекс выглядит как сжатая текстовая копия всех страниц сети Интернет. Это существенно экономит время в случае показа цитат. Сохраненная копия сайта не что иное, как страница в прямом индексе поисковика.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.

%d такие блоггеры, как: