ПОИСК ИНФОРМАЦИИ В ИНТЕРНЕТЕ
Средства поиска информации в Интернете
В настоящее время рост информационных ресурсов Интернета происходит высокими темпами. Всемирная сеть напоминает читальный зал библиотеки, где хранятся гигантские объемы текстовых, графических, мультимедийных, архивных и прочих файлов. Этот зал невозможно обойти полностью. Здесь все ежечасно меняется, число разнообразных документов возрастает каждую секунду. Найти необходимую информацию становится все труднее. Различные печатные справочники устаревают еще до их выхода в свет. Единственным надежным способом поиска информации является использование специальных поисковых систем, которые постоянно отслеживают изменения информации в сети.
Поисковые системы — это специальное программное обеспечение, основная задача которого заключается организации наиболее оптимального поиска информации в Интернете.
Известные на сегодняшний день поисковые системы южно условно разделить на следующие основные группы:
• поисковые системы общего назначения (автоматические индексы);
• тематические каталоги (справочники) Интернета;
• специализированные поисковые системы;
• метапоисковые системы.
Поисковые системы общего назначения
Создание универсального поискового сервиса, позволяющего находить информацию из различных ресурсов Интернета, стало возможным лишь с появлением в началe 90-х годов серверов World Wide Web. Одновременно с появлением серверов Всемирной паутины были созданы специальные поисковые серверы, основная функция которых состоит в поиске информации среди различных информационных ресурсов Интернета, включая серверы World Wide Web, FTP, Gopher, телеконференции Usenet, списки адресов E-mail.
Стратегия работы современных поисковых серверов базируется на двух подходах. В первом случае создаются и непрерывно пополняются огромные базы данных, хранящие информацию о миллионах документов, имеющихся в Интернете. Сбор информации автоматически выполняется специальными программами (их называют роботами, пауками и т. п.), которые просматривают серверы Интернета, копируют документы, анализируют встречающиеся слова и выполняют индексацию.
Индексация заключается в выборе всех значащих слов, называемых ключевыми. Одни поисковые системы обрабатывают весь документ, другие только отдельные части документа: названия, заголовки, начальные слова разделов. Сформированные таким образом индексы документов — базы данных ключевых слов — добавляются к уже существующим и хранятся на поисковых серверах. Обычно этот процесс не требует никаких усилий со стороны человека, так как данные инструменты полностью скрывают от пользователя способ организации базы данных и ее содержимое. Поисковые системы такого рода чаще всего называют поисковыми системами общего назначения или автоматическими индексами. Автоматический индекс состоит из трех частей:
• программы-робота;
• базы данных, собираемой этим роботом;
• интерфейса для осуществления поиска в базе данных.
Типичными представителями автоматических индексов являются, например, Alta Vista и Lycos. С точки зрения пользователя автоматические индексы работают достаточно просто: пользователь задает ключевое слово или фразу, построенную из ключевых слов по определенным правилам, а поисковая машина в ответ на запрос выдает списки и точные адреса (URL) тех документов, которые соответствуют этому, запросу.
Тематические каталоги
Другой подход предполагает организацию поискового сервера как предметно-ориентированной системы, где информация по отдельным темам собрана в соответствующих каталогах. Примерами могут служить серверы Yahoo и Galaxy. Поисковые системы такого рода часто называют предметными или тематическими каталогами. Тематические каталоги используют в тех случаях, когда сформулировать запрос с помощью ключевых слов трудно в силу специфики разыскиваемой информации или недостаточности знаний по интересующей теме.
В каталог информация заносится по инициативе человека. Добавляемая страница должна быть жестко привязана к принятым в каталоге категориям. Результатом является постоянно обновляющийся древовидный каталог, на верхнем уровне которого собраны самые общие категории, такие, как «бизнес», «наука», «образование» и т. п., а элементы самого нижнего уровня представляют собой ссылки на отдельные Web-страницы и Web-узлы вместе с кратким описанием их содержимого.
Выбрав нужный раздел, пользователь получает список подразделов, сужающий круг, и так до тех пор, пока не попадет на страницу, содержащую ссылки на нужную информацию. Тематические каталоги не могут конкурировать с поисковыми машинами по широте охвата информации. Их преимущество заключается в том, что вероятность обращения к информации, не имеющей отношения к теме поиска, очень мала. Для облегчения просмотра информационных ресурсов многие тематические каталоги имеют собственные простые поисковые системы, позволяющие проводить поиск по ключевым словам внутри самого каталога. Только поиск осуществляется не в содержимом самих Web-серверов по всему миру, а в их кратких описаниях, хранящихся в базе данных каталога. Отметим, что старейший каталог Yahoo представляет собой иерархически организованный Web-каталог, который генерируется полуавтоматически. Ссылки на различные ресурсы собираются двумя способами: присылаются пользователями и извлекаются программами-роботами.
Специализированные поисковые системы
В ту пору, когда в Интернете еще не существовали серверы World Wide Web, поиск информации в глобальной сети уже был доступен с помощью нескольких сетевых поисковых систем, каждая из которых вела поиск только в своей области: поиск в архивах Usenet, поиск адресов электронной почты и т. п. Такие системы используются до сих пор и называются специализированными поисковыми системами. Например, для нахождения файлов по их именам на FTP-серверах применяется система Archie. Программа Veronica осуществляет аналогичную функцию среди серверов, обслуживаемых системой Gopher.
В специализированных поисковых системах используется достаточно простая технология поиска. Главное их достоинство заключается в высокой степени соответствия найденной информации запросам пользователя. Однако такие специализированные каталоги и индексы системы работают медленнее, чем популярные поисковые системы общего назначения.
Метапоисковые системы
Если один и тот же запрос направить различным поисковым инструментам, то результат поиска будет разным и по количеству найденных документов, и по их соответствию сделанному запросу. Метапоисковые системы, или метаиндексы, позволяют усовершенствовать поиск путем передачи запроса одновременно нескольким поисковым системам. Полученные в результате поиска документы объединяются в общий упорядоченный определенным способом список.
Метапоиск экономит время, так как нет необходимости опрашивать каждую поисковую систему отдельно, и увеличивает вероятность получения нужной пользователю информации. Недостатком метапоиска является то, что при обращении к разным поисковым машинам запрос приходится формулировать в форме, понятной всем машинам. Это не позволяет использовать тонкие индивидуальные настройки и возможности каждой отдельной машины.
Вопросы
1. Какие виды поисковых систем используются для поиска информации в сети Интернет?
2. Опишите принципы работы автоматических индексов.
3. Что такое метапоисковые системы?
4. Каковы достоинства и недостатки метапоисковых систем?
5. Для чего используются специализированные поисковые системы?
Технология поиска информации в Интернете
Первые шаги по поиску необходимой информации определяются тем, в какой мере пользователь владеет изучаемой темой. Если имеется только общее представление о теме, то естественно начинать поиск с тематических каталогов. Здесь особых проблем не возникает. Пользователь обязательно найдет ссылки на информационные базы данных или отдельные документы.
В тех случаях, когда пользователь владеет терминологией и ищет оригинальные, специфические документы, удобнее проводить поиск с помощью поисковых систем общего назначения.
Требования к поисковым системам общего назначения
С точки зрения пользователя общение с поисковыми машинами должно быть простым, не требующим подготовки и специальных навыков. Пользователь должен иметь возможность.
1. Сделать запрос на родном языке в естественной форме. Например, «Использование компьютеров для проведения уроков истории в средней школе».
2. Ограничить область поиска документов. Это ограничение может определяться местом и временем создания документа, языком, на котором он написан, тематикой разыскиваемой информации. 3. В ответ на запрос получить перечень найденных документов с кратким их описанием. Документы должны максимально соответствовать запросу.
4. При необходимости загрузить нужные документы на свой компьютер для дальнейшего использования.
Действия поисковой машины, скрытые от пользователя, должны сводиться к следующему.
1. Перевод ключевых слов на заданный язык.
2. Подбор синонимов к ключевым словам.
3. Учет морфологических вариантов слов. Например, искать документы, содержащие не только слово «автомобиль», но и «автомобили», «автомобилей» и т. д.
4. Проведение поиска на указанных пользователем языках.
5. Смысловой отбор найденных документов по соответствию их тематике запроса.
6. Систематизация документов по степени их соответствия запросу.
7. Представление найденных документов в удобном и понятном для пользователя виде.
Каждая из поисковых систем предлагает два способа поиска — простой и сложный.
Простой поиск заключается в том, что запрос состоит из набора ключевых слов, а поисковая машина возвращает документы, содержащие хотя бы одно из этих слов. Понятно, что при таком поиске будет найдено множество лишних документов, не представляющих интерес для пользователя.
Для повышения эффективности поиска необходимо использовать развитые средства поиска, позволяющие формулировать точные сложные запросы. Правила построения сложных запросов можно найти в справочных файлах каждой поисковой системы.
Рассмотрим далее основные принципы систематического поиска, используемые в той или иной степени практически всеми современными поисковыми машинами.
Поиск всех форм слова
Для поиска всех слов, имеющих общий корень, используется знак *. Например, в результате поиска по запросу компьютер* будут найдены документы, содержащие слова: компьютер, компьютеры, компьютером, компьютерные и т. д. Ряд поисковых систем делают это автоматически, разыскивая документы, содержащие все морфологические формы ключевого слова.
Поиск фразы
Для поиска в документе фразы или словосочетания используются двойные кавычки. По запросу «информационные технологии» будут найдены документы, содержащие это словосочетание без вариантов.
Включение и исключение ключевых слов
Знак плюс, указанный перед словом или фразой без пробела, требует включения этого слова (фразы) в документ, а знак минус — его исключения. Это означает, что по запросу «Поиск в Интернете» — «поисковые машины» из списка документов, найденных по запросу «Поиск в Интернете», будут исключены документы, содержащие фразу «поисковые машины».
Логические запросы
В таких запросах применяются логические операторы OR, AND, NOT и NEAR, связывающие несколько слов или фраз в один запрос.
OR (или)
Когда элементы запроса связаны оператором OR, это означает, что в любом из найденных документов должен присутствовать хотя бы один из них. Пример: сыщик OR детектив. По этому запросу будут найдены документы, содержащие как оба слова, так и каждое из них в отдельности.
AND (и)
Этот логический оператор употребляется в том случае, когда необходимо присутствие всех соединенных им слов. Пример: информационные AND технологии. В найденных документах будут присутствовать оба слова. Но это не означает, что они находятся в тексте близко друг от друга или связаны по смыслу.
NOT (не)
Слова или фразы, перед которыми стоит этот оператор, будут исключены из результатов поиска. Пример: «поиск в Интернете» NOT «поисковые машины». Такой запрос аналогичен запросу +«поиск в Интернете»-«поисковые машины».
NEAR
Оператор указывает на то, что два слова должны быть разделены не более чем десятью словами. В ряде поисковых систем для запроса на поиск слов, расположенных на определенном расстоянии, применяются фигурные и квадратные скобки.
Вывод результатов поиска
Каждая поисковая система по-разному представляет пользователям результаты поиска. Обычно это нумерованный список найденных по запросу документов. Для каждого документа, как правило, сообщается его название, URL, размер, время обновления документа и несколько первых фраз текста, по которым можно судить о его содержании. Ряд поисковых систем дают краткое резюме, из которого можно получить представление о том, в каком контексте употребляются ключевые слова.
Название документа и его URL оформляются в виде гиперссылки, по которой пользователь имеет возможность загрузить документ на свой компьютер для прочтения, сохранения и печати. Поисковая система оценивает результаты поиска и выводит список документов в определенном порядке (ранжирует документы). Таким образом, в начале списка будут находиться документы, имеющие более высокую степень соответствия запросу.
Каждая поисковая система использует собственные критерии ранжирования документов как при анализе результатов поиска, так и при формировании индекса. Вследствие этого результат поиска по одинаковому запросу будет различным для каждого поискового инструмента.
Пользователь может сам повлиять на порядок ранжирования документов, указав в соответствующем окне наиболее значимые слова и фразы. В этом случае ранжирование будет проводиться таким образом, чтобы в начале списка оказались документы, содержащие именно эти слова и фразы.
Вопросы
1. В каких случаях целесообразно использовать тематические каталоги для поиска информации в сети Интернет?
2. Какие возможности поиска должна предоставлять пользователю поисковая система общего назначения?
3. Составьте запрос на поиск документов, содержащих слово фрукты и одно из слов свежие или экзотические.