Тема урока: «Системы перевода и распознавания текста»
Цели урока:
Образовательная: Дать представление о системах распознавания и перевода текста, сформировать навыки перевода текста.
Развивающая: Развивать познавательный интерес, внимание, самоконтроль.
Воспитательная: Воспитывать информационную культуру, усидчивость.
Тип урока: изучение нового материала
Форма урока: синтетическая.
Место урока в учебной теме: вводный
Методы и методические приемы:
1 Информационно - рецептивный:
а) словесный: рассказ - объяснение, описание.
б) наглядный: иллюстрации, демонстрация, ТСО.
Приемы обучения: изложение информации, объяснение, активизация внимания и мышления, получение из текста и иллюстраций новых знаний, работа с раздаточным материалом.
2. Репродуктивный.
Приемы обучения: подача материала в готовом виде, конкретизация и закрепление уже приобретенных знаний.
3. Визуальный: составление схем, таблиц, логических цепочек.
4. Суггестивный: применение различных видов искусства.
7. Перцептивный (восприятие и связь с жизнью):
8. Релаксопедический: психологическая разгрузка.
Межпредметные связи: математика, русский язык
Материалы и оборудование: презентация, интерактивная доска, раздаточный материал
Основные понятия и термины: сканер, текст, документ, перевод
Ход урока
Организационный момент
Здравствуйте! Кто сегодня отсутствует?
Актуализация опорных знаний учащихся
Знание хотя бы одного иностранного языка необходимо сегодня всем. В особенности пользователям компьютеров: ведь избежать столкновения с английским языком при работе на компьютере, увы, невозможно. Неудобно, если вы не знаете иностранного языка... Однако отчасти вам может помочь установка на компьютер одной из специализированных программ-переводчиков. При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов. Итак, сегодня мы узнаем о системах перевода и распознавания текста.
Восприятие и усвоение учащимися нового материала
Компьютерные словари.
Словари необходимы для перевода текстов с одного языка на другой. Первые словари были созданы около 5 тысяч лет назад в Шумере и представляли собой глиняные таблички, разделенные на две части. В одной части записывалось слово на шумерском языке, а в другой — аналогичное по значению слово на другом языке, иногда с краткими пояснениями.
Современные словари построены по такому же принципу. В настоящее время существуют тысячи словарей для перевода между сотнями языков (англо-русский, немецко-французский и так далее), причем каждый из них может содержать десятки тысяч слов. В бумажном варианте словарь представляет собой толстую книгу объемом в сотни страниц. Как вы думаете, удобно ли это? Если нет, то чем удобней пользоваться?
Компьютерные словари могут содержать переводы на разные языки сотен тысяч слов и словосочетаний, а также предоставляют пользователю дополнительные возможности.
Во-первых, компьютерные словари могут являться многоязычными, так как дают пользователю возможность выбрать языки и направление перевода (например, англо-русский, испано-русский и так далее).
Во-вторых, компьютерные словари могут кроме основного словаря общеупотребительных слов содержать десятки специализированных словарей по областям знаний (техника, медицина, информатика и др.).
В-третьих, компьютерные словари обеспечивают быстрый поиск словарных статей: «быстрый набор», когда в процессе набора слова возникает список похожих слов; доступ к часто используемым словам по закладкам; возможность ввода словосочетаний и др.
В-четвертых, компьютерные словари могут являться мультимедийными, то есть предоставлять пользователю возможность прослушивания слов в исполнении дикторов, носителей языка.
Системы машинного перевода.
Происходящая в настоящее время глобализация нашего мира приводит к необходимости обмена документами между людьми и организациями, находящимися в разных странах мира и говорящими на различных языках.
В этих условиях использование традиционной технологии перевода «вручную» тормозит развитие межнациональных контактов. Перевод многостраничной документации вручную требует длительного времени и высокой оплаты труда переводчиков. Перевод полученного по электронной почте письма или просматриваемой в браузере Web-страницы необходимо осуществить немедленно, и нет возможности и времени пригласить переводчика.
Системы машинного перевода позволяют решить эти проблемы. Они, с одной стороны, способны переводить многостраничные документы с высокой скоростью (одна страница в секунду) и, с другой стороны, переводить Web-страницы «на лету», в режиме реального времени. Лучшими среди российских систем машинного перевода считаются PROMT и «Сократ».
Системы машинного перевода осуществляют перевод текстов, основываясь на формальном «знании» языка (синтаксиса языка — правил построения предложений, правил словообразования) и использовании словарей. Программа-переводчик сначала анализирует текст на одном языке, а затем конструирует этот текст на другом языке.
Современные системы машинного перевода позволяют достаточно качественно переводить техническую документацию, деловую переписку и другие специализированные тексты. Однако они неприменимы для перевода художественных произведений, так как не способны адекватно переводить метафоры, аллегории и другие элементы художественного творчества человека.
Системы распознавания текста.
С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Однако работать с таким текстом невозможно: как любое сканированное изображение, страница с текстом представляет собой графический файл - обычную картинку. Текст можно будет читать и распечатывать, но нельзя будет его редактировать и форматировать. Для получения документа в формате текстового файла необходимо провести распознавание текста, то есть преобразовать элементы графического изображения в последовательности текстовых символов.
Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR).
Современная OCR должна уметь многое: распознавать тексты, набранные не только определенными шрифтами, но и самыми экзотическими, вплоть до рукописных. Уметь корректно работать с текстами, содержащими слова на нескольких языках, корректно распознавать таблицы. И самое главное — корректно распознавать не только четко набранные тексты, но и такие, качество которых, очень плохое. Например, текст с пожелтевшей газетной вырезки или третьей машинописной копии. Так же не менее важно обеспечить возможность сохранения результата в файле популярного текстового (или табличного) формата — скажем, формата Microsoft Word.
Как видим, для того, чтобы получить электронную, готовую к редактированию копию любого печатного текста, программе OCR необходимо выполнить «цепочку» из множества отдельных операций.
Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и так далее. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст.
Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством отличных от входного изображения точек. При распознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего соответствует распознаваемому символу. Какие вы знаете системы оптического распознавания текста? Наиболее распространенные системы оптического распознавания символов: FineReader, CuneiForm, используют как растровый, так и структурный методы распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретного документа они создают соответствующий набор шаблонов символов) и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.
Обобщение и систематизация знаний
Практическая работа за компьютером
Задание № 1.
Откройте поочередно программы Блокнот, Microsoft Word, Microsoft Publisher.
И сравните их по схеме, заполнив таблицу (Если присутствует знак «+», если нет знак «-»)
Операции | Блокнот | Microsoft Word | Microsoft Publisher |
Выбор шрифта | | | |
Выбор цвета | | | |
Вставка рисунков | | | |
Работа с несколькими форматами файлов | | | |
Какая из программ имеет наименьшие возможности?
Задание № 2.
Используем справочную систему
Запустите Word.
В правом углу под знаком закрытия окна есть вопросительный знак, который вызывает справочную систему программы.
Задание 2.1: Используя справочную систему программы, выясните, как можно копировать файлы. Результат запишите в тетрадь
Использование разделов справки
Задание 2.2 С помощью справки выясните как можно вставить символ или специальный знак.
Практическое задание:
Загрузите текстовый процессор Word 2007 удобным для Вас способом.
Создайте новый документ
Введите свою фамилию, имя, отчество.
Сохраните созданный документ в свою папку под именем ПР_1
Закройте текстовый процессор.
Загрузите текстовый процессор и откройте свой документ
Введите в своем документе сегодняшнюю дату.
Сохраните измененный документ в собственную папку в новом файле под названием ПР_2 с расширением *.doc
Сравните размеры полученных файлов.
Сделайте выводы
Подведение итогов урока
Сегодня на уроке мы познакомились с системами перевода и распознавания текста. Для чего используются системы перевода текста? Перечислите дополнительные возможности компьютерного словаря. Как называются лучшие российские системы машинного перевода? В каких ситуациях систему машинного перевода лучше не применять? Как сокращенно называют специальные программы распознавания текста? Что должны уметь современные OCR? Назовите более распространенные системы оптического распознавания текстов. Что-то новое сегодня узнали на уроке? Все было понятным? Вопросы есть?
Подача и объяснение домашнего задания
§ 17 стр. 97 100
Задание 6 стр. 100
Подготовка к контрольной работе