Практическое занятие № 24.
Гипертекстовое представление информации.
Цель занятия: получить представление об OCR – программах распознавания текста, познакомиться с возможностями данных программ, научиться распознавать отсканированный текст, передавать и редактировать его в MS Word, научиться формировать гипертекстовое представление информации.
Оборудование: ПК.
Программное обеспечение: Microsoft Office: MS Word.
Теоретические сведения
Для связи основных разделов и понятий в тексте используется гипертекст.
Гипертекст позволяет структурировать документ путем выделения в нем слов-ссылок (гиперссылок). При активизации гиперссылки, например, щелчком мыши, происходит переход на фрагмент в тексте, заданный в ссылке.
Гиперссылка состоит из двух частей:
указатель ссылки – это объект (фрагмент текста или рисунок), который визуально выделяется в документе (обычно синим цветом и подчеркиванием);
адресная часть – название закладки в документе, на которую указывает ссылка (закладка – это элемент документа, которому присвоено уникальное имя).
Указателем ссылки и закладкой может быть фрагмент текста, графическое изображение, управляющий элемент. Такая гипертекстовая структура используются в документах различных типов. В Интернете они образуют Всемирную паутину, связывающую Web-страницы на миллионах серверов в единое целое. Компьютерные словари и системы машинного перевода текстов.
В настоящее время существуют тысячи словарей для перевода между сотнями языков (англо-русский, немецко-французский и другие), причем каждый из них может содержать десятки тысяч слов. В бумажном варианте словарь – это толстая книга с большим количеством страниц, поиск в нем довольно трудоемкий процесс. Компьютерные словари (например, Lingvo, «Контекст») тоже содержат перевод слов, но они предоставляют дополнительные возможности.
Компьютерные словари в основном являются многоязычными, то есть дают пользователю возможность выбрать языки и направление перевода (например, англо- русский, испано-русский и другие).
Кроме основного словаря общеупотребительных слов, часто они содержат десятки специализированных словарей по областям знаний (техника, медицина, информатика и другие).
Они обеспечивают быстрый поиск словарных статей: «быстрый набор», когда в процессе набора слова возникает список похожих слов; доступ к часто используемым словам по закладкам; возможность ввода словосочетаний.
Некоторые компьютерные словари предоставляют пользователю возможность прослушивания слов в исполнении дикторов, носителей языка, то есть являются мультимедийными.
Кроме того, существуют системы машинного перевода, позволяющие переводить не только отдельные слова и словосочетания, но и целый документ (текст) с высокой скоростью, и Web-страницу в режиме реального времени.
Лучшими среди российских систем машинного перевода считаются PROMT и «Сократ». Системы машинного перевода осуществляют перевод текстов, основываясь на формальном «знании» языка (синтаксиса языка – правил построения предложений, правил словообразования) и использовании словарей. Программа-переводчик сначала анализирует текст на одном языке, а затем конструирует этот текст на другом языке.
Современные системы машинного перевода используются для перевода технической документации, деловой переписки и других специализированных текстов, но они неприменимы для перевода художественной литературы, так как им недоступны аллегории, метафоры и другие элементы художественного творчества человека.
Системы оптического распознавания документов.
Переход от бумажного документа к электронному состоит из двух этапов.
1. Сканирование. С помощью сканера получается изображение страницы текста в графическом файле.
2. Распознавание текста. Для преобразования элементов графического изображения в последовательности символов используются системы оптического распознавания символов. Запустив такую систему, сначала надо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и так далее. Далее текстовые фрагменты графического изображения страницы преобразовываются в текст.
Существует два метода распознавания:
1. Метод сравнения с растровым шаблоном. Используется, если исходный документ имеет типографическое качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов и исправлений). Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов (см. рис.), имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством отличных от входного изображения точек.
2. Метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и других). Используется при распознавании документов с низким качеством печати (машинописный текст, факс и так далее). Любой символ можно описать через эти элементы и значения параметров их взаимного расположения. Например, буквы «Н» и «И», состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различаются же эти буквы величиной углов, которые образуются третьим отрезком с двумя другими.
Современные системы оптического распознавания (FineReader, CuneiForm) используют оба метода и являются «самообучающимися» (то есть для каждого конкретного документа они создают соответствующий набор символов, поэтому скорость и качество распознавания постепенно возрастают).
Для распознавания бланков (форма), заполненных рукопечатным текстом (данные вводятся в поля печатными буквами от руки), используются системы оптического распознавания форм. Эта задача сложнее, так как печатные символы, написанные от руки разными людьми, сильно отличаются, к тому же необходимо определить, к какому полю относится распознаваемый текст.
В последнее время создаются системы распознавания рукописного текста, но они очень несовершенны.
1 ABBYY FineReader и CuneiForm
2 Существует онлайн-версия FineReader. Сервис платный. На данный момент до 10 страниц в день можно распознавать бесплатно.
CuneiForm распространяется свободно.
3 Омнифонтовая система позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Гипертекстовое представление информации. Гипертекстом, в общем понимании, называют любой набор текстов, содержащий узлы перехода от одного текста к какому-либо другому, позволяющие избирать читаемые сведения или их последовательность.
В компьютерной терминологии, гипертекст – текст, сформированный с помощью языка разметки (например, HTML), потенциально содержащий в себе ссылки.
В толковом словаре по информатике гипертекст трактуется как информационный массив, на котором заданы и автоматически поддерживаются ассоциативные и смысловые связи между выделенными элементами, понятиями, терминами или разделами.
Возможны варианты:
1. Создание настроенной гиперссылки на документ, файл или веб-страницу
2. Создание гиперссылки на пустое сообщение электронной почты
3. Вставка гиперссылки на элемент текущего документа или веб-страницы
4. Указание местоположения гиперссылки
5. Вставка закладки.
6. Применение стиля заголовков.
7. Вставка гиперссылки на элемент другого документа или веб-страницы
Задания для выполнения за компьютером
Задание 1. Наберите текст по образцу:
The British Museum
The British Museum has one of the largest libraries in the world. It has a copy of every book that is printed in the English language, so that there are more than six million books there. They receive nearly two thousand books and papers daily.
Переведите первое предложение.
Расположите предложение-перевод на отдельной странице. Для создания новой страницы используйте команду Вставка/Разрыв/Новая страница/Ок (поставьте курсор в после текста, выполните команду).
Создайте закладку для предложения-перевода (Вставка/Закладка), дайте ей имя «перевод первого предложения».
Создайте гиперссылку первого предложения (Вставка/Гиперссылка), связать с «местом в документе», выберите нужную закладку.
Проделайте аналогичные действия с каждым предложением.
Задание 2. Наберите текст по образцу:
Задайте уровни для заголовков (Абзац/Уровень), Пример текста – Уровень 1, Ввод букв – Уровень 2. Создайте оглавление (Ссылки/Оглавление).

Задание 3. Письменно в тетради ответьте на контрольные вопросы:
1. Какие упоминаются программы для распознавания текстов?
2. Какие из этих программ являются платными/бесплатными?
3. Что означает понятие «омнифонтовая система»?
4. Опишите правила создания оглавления текста.
5. Опишите возможные варианты создания гиперссылок.