СДЕЛАЙТЕ СВОИ УРОКИ ЕЩЁ ЭФФЕКТИВНЕЕ, А ЖИЗНЬ СВОБОДНЕЕ

Благодаря готовым учебным материалам для работы в классе и дистанционно

Скидки до 50 % на комплекты
только до

Готовые ключевые этапы урока всегда будут у вас под рукой

Организационный момент

Проверка знаний

Объяснение материала

Закрепление изученного

Итоги урока

Практическое занятие № 24

Категория: Информатика

Нажмите, чтобы узнать подробности

Практическое занятие № 24.

Гипертекстовое представление информации.

 

Цель занятия:получить представление об OCR – программах распознавания текста, познакомиться с возможностями данных программ, научиться распознавать отсканированный текст, передавать и редактировать его в MS Word, научиться формировать гипертекстовое представление информации.

Просмотр содержимого документа
«Практическое занятие № 24»

Практическое занятие № 24.

Гипертекстовое представление информации.


Цель занятия: получить представление об OCR – программах распознавания текста, познакомиться с возможностями данных программ, научиться распознавать отсканированный текст, передавать и редактировать его в MS Word, научиться формировать гипертекстовое представление информации.

Оборудование: ПК.

Программное обеспечение: Microsoft Office: MS Word.


Теоретические сведения

Для связи основных разделов и понятий в тексте используется гипертекст.

Гипертекст позволяет структурировать документ путем выделения в нем слов-ссылок (гиперссылок). При активизации гиперссылки, например, щелчком мыши, происходит переход на фрагмент в тексте, заданный в ссылке.

Гиперссылка состоит из двух частей:

 указатель ссылки – это объект (фрагмент текста или рисунок), который визуально выделяется в документе (обычно синим цветом и подчеркиванием);

 адресная часть – название закладки в документе, на которую указывает ссылка (закладка – это элемент документа, которому присвоено уникальное имя).

Указателем ссылки и закладкой может быть фрагмент текста, графическое изображение, управляющий элемент. Такая гипертекстовая структура используются в документах различных типов. В Интернете они образуют Всемирную паутину, связывающую Web-страницы на миллионах серверов в единое целое. Компьютерные словари и системы машинного перевода текстов.

В настоящее время существуют тысячи словарей для перевода между сотнями языков (англо-русский, немецко-французский и другие), причем каждый из них может содержать десятки тысяч слов. В бумажном варианте словарь – это толстая книга с большим количеством страниц, поиск в нем довольно трудоемкий процесс. Компьютерные словари (например, Lingvo, «Контекст») тоже содержат перевод слов, но они предоставляют дополнительные возможности.

 Компьютерные словари в основном являются многоязычными, то есть дают пользователю возможность выбрать языки и направление перевода (например, англо- русский, испано-русский и другие).

 Кроме основного словаря общеупотребительных слов, часто они содержат десятки специализированных словарей по областям знаний (техника, медицина, информатика и другие).

 Они обеспечивают быстрый поиск словарных статей: «быстрый набор», когда в процессе набора слова возникает список похожих слов; доступ к часто используемым словам по закладкам; возможность ввода словосочетаний.

 Некоторые компьютерные словари предоставляют пользователю возможность прослушивания слов в исполнении дикторов, носителей языка, то есть являются мультимедийными.

Кроме того, существуют системы машинного перевода, позволяющие переводить не только отдельные слова и словосочетания, но и целый документ (текст) с высокой скоростью, и Web-страницу в режиме реального времени.

Лучшими среди российских систем машинного перевода считаются PROMT и «Сократ». Системы машинного перевода осуществляют перевод текстов, основываясь на формальном «знании» языка (синтаксиса языка – правил построения предложений, правил словообразования) и использовании словарей. Программа-переводчик сначала анализирует текст на одном языке, а затем конструирует этот текст на другом языке.

Современные системы машинного перевода используются для перевода технической документации, деловой переписки и других специализированных текстов, но они неприменимы для перевода художественной литературы, так как им недоступны аллегории, метафоры и другие элементы художественного творчества человека.

Системы оптического распознавания документов.

Переход от бумажного документа к электронному состоит из двух этапов.

1. Сканирование. С помощью сканера получается изображение страницы текста в графическом файле.

2. Распознавание текста. Для преобразования элементов графического изображения в последовательности символов используются системы оптического распознавания символов. Запустив такую систему, сначала надо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и так далее. Далее текстовые фрагменты графического изображения страницы преобразовываются в текст.

Существует два метода распознавания:

1. Метод сравнения с растровым шаблоном. Используется, если исходный документ имеет типографическое качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов и исправлений). Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов (см. рис.), имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством отличных от входного изображения точек.

2. Метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и других). Используется при распознавании документов с низким качеством печати (машинописный текст, факс и так далее). Любой символ можно описать через эти элементы и значения параметров их взаимного расположения. Например, буквы «Н» и «И», состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различаются же эти буквы величиной углов, которые образуются третьим отрезком с двумя другими.

Современные системы оптического распознавания (FineReader, CuneiForm) используют оба метода и являются «самообучающимися» (то есть для каждого конкретного документа они создают соответствующий набор символов, поэтому скорость и качество распознавания постепенно возрастают).

Для распознавания бланков (форма), заполненных рукопечатным текстом (данные вводятся в поля печатными буквами от руки), используются системы оптического распознавания форм. Эта задача сложнее, так как печатные символы, написанные от руки разными людьми, сильно отличаются, к тому же необходимо определить, к какому полю относится распознаваемый текст.

В последнее время создаются системы распознавания рукописного текста, но они очень несовершенны.

1 ABBYY FineReader и CuneiForm

2 Существует онлайн-версия FineReader. Сервис платный. На данный момент до 10 страниц в день можно распознавать бесплатно.

CuneiForm распространяется свободно.

3 Омнифонтовая система позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Гипертекстовое представление информации. Гипертекстом, в общем понимании, называют любой набор текстов, содержащий узлы перехода от одного текста к какому-либо другому, позволяющие избирать читаемые сведения или их последовательность.

В компьютерной терминологии, гипертекст – текст, сформированный с помощью языка разметки (например, HTML), потенциально содержащий в себе ссылки.

В толковом словаре по информатике гипертекст трактуется как информационный массив, на котором заданы и автоматически поддерживаются ассоциативные и смысловые связи между выделенными элементами, понятиями, терминами или разделами.

Возможны варианты:

1. Создание настроенной гиперссылки на документ, файл или веб-страницу

2. Создание гиперссылки на пустое сообщение электронной почты

3. Вставка гиперссылки на элемент текущего документа или веб-страницы

4. Указание местоположения гиперссылки

5. Вставка закладки.

6. Применение стиля заголовков.

7. Вставка гиперссылки на элемент другого документа или веб-страницы




Задания для выполнения за компьютером


Задание 1. Наберите текст по образцу:


The British Museum

The British Museum has one of the largest libraries in the world. It has a copy of every book that is printed in the English language, so that there are more than six million books there. They receive nearly two thousand books and papers daily.


  • Переведите первое предложение.

  • Расположите предложение-перевод на отдельной странице. Для создания новой страницы используйте команду Вставка/Разрыв/Новая страница/Ок (поставьте курсор в после текста, выполните команду).

  • Создайте закладку для предложения-перевода (Вставка/Закладка), дайте ей имя «перевод первого предложения».

  • Создайте гиперссылку первого предложения (Вставка/Гиперссылка), связать с «местом в документе», выберите нужную закладку.

  • Проделайте аналогичные действия с каждым предложением.


Задание 2. Наберите текст по образцу:

Задайте уровни для заголовков (Абзац/Уровень), Пример текста – Уровень 1, Ввод букв – Уровень 2. Создайте оглавление (Ссылки/Оглавление).

Задание 3. Письменно в тетради ответьте на контрольные вопросы:


1. Какие упоминаются программы для распознавания текстов?

2. Какие из этих программ являются платными/бесплатными?

3. Что означает понятие «омнифонтовая система»?

4. Опишите правила создания оглавления текста.

5. Опишите возможные варианты создания гиперссылок.

© 2016 4869 166