| Для поиска информации в Интернете используются специальные поисковые сервера, которые содержат постоянно обновляемую информацию о Web-сайтах, файлах, e-mail адресах и других информационных ресурсах Интернета. Различные поисковые сервера могут использовать различные механизмы поиска, хранения и предоставления пользователю информации. Поисковые сервера Интернета можно разделить на две группы: поисковые системы общего назначения и специализированные поисковые системы. 1. Поисковые системы общего назначения Поисковые системы общего назначения позволяют находить документы во Всемирной паутине по ключевым словам, которые вводятся в поле поиска и/или с помощью иерархической системы каталогов. Поисковые машины. Автоматическое заполнение баз данных поисковых систем производится роботизированными системами (Search Engines). Специальная программа-робот, которую называют паук (spider), постоянно обходит Интернет в поисках новой информации, которую она вносит в базу данных. База данных содержит URL-адреса и проиндексированную информацию, связанную с этими адресами. Мощная поисковая машина обходит весь Интернет за несколько дней. При этом составляется новый индекс - опись доступных ресурсов. При каждом новом цикле обхода индекс обновляется, и старые недействительные адреса удаляются. При поиске по ключевым словам в поле поиска вводится одно или несколько ключевых слов, которые, по мнению пользователя, являются главными для искомого документа. Можно также использовать сложные запросы, использующие логические операции, шаблоны и т.д. Каталоги. Каталоги составляются редакторами, просматривающими каждый новый сайт до его включения в индекс. В процессе наполнения каталогов могут участвовать и сами разработчики сайтов при его регистрации в поисковой системе. Каталоги обычно организованы в соответствии с предметной классификацией. Качество систематизации сайтов при этом выше, чем у поисковых машин, но люди не могут успеть за темпами расширения и изменения Интернета: индекс популярного каталога Yahoo! содержит лишь немногим более миллиона записей. Интерфейс каталогов содержит список разделов, в которые сгруппированы ссылки на URL-адреса наиболее важных документов. Каждая ссылка обычно аннотирована, т.е. содержит краткое описание содержания документа. Наиболее популярными поисковыми системами общего назначения в рускоязычном Интернете (Рунете) являются Яндекс (www.yandex.ru), Rambler (www.rambler.ru) и Апорт (www.aport.ru), а в англоязычном - Yahoo! (www.yahoo.com). Важными показателями качества поискового сервера являются: - объем базы данных (количество документов); - скорость обхода Интернета программным роботом (с этим связана скорость обновления информации в базе данных); - алгоритм индексации (только по ключевым словам Web-страницы или по всему тексту); - возможности расширенного поиска с использованием языка запросов; - структура системы каталогов. Таблица 1. Сравнительные характеристики поисковых серверов Рунета | | Яндекс | Rambler | Апорт! | | Объем базы на начало 2001 года | Более 31 миллионов документов | Более 12 миллионов документов | Более 14 миллионов документов | | Наличие сервисов | Система объединяет поисковую машину и каталог. | | Каталоги | 10 основных разделов и 7 комбинированных. | 56 разделов. | 14 разделов верхнего уровня, каталог ресурсов по регионам. | | Язык запросов | Логическое И | | пробел, & | AND, &, пробел | И, AND, пробел | | Логическое ИЛИ | | | | OR, | | ИЛИ, OR, | | | Язык документа | выбор: любой, кириллица, латиница | выбор: любой, русский, английский | выбор: русский, английский | |