СДЕЛАЙТЕ СВОИ УРОКИ ЕЩЁ ЭФФЕКТИВНЕЕ, А ЖИЗНЬ СВОБОДНЕЕ

Благодаря готовым учебным материалам для работы в классе и дистанционно

Скидки до 50 % на комплекты
только до

Готовые ключевые этапы урока всегда будут у вас под рукой

Организационный момент

Проверка знаний

Объяснение материала

Закрепление изученного

Итоги урока

Лингвостатистический анализ учебника по английскому языку

Нажмите, чтобы узнать подробности

Исследовательская работа по английскому языку ученика 7кл. 

Просмотр содержимого документа
«Лингвостатистический анализ учебника по английскому языку»

I.Введение


Информационные технологии в настоящее время являются неотъемлемой частью любой сферы профессиональной деятельности. В настоящее время использование компьютерных технологий стало практически необходимым для реализации самых разных исследовательских задач. 

В нашей работе мы выдвинули гипотезу: возможно, что существуют определенная наука, совмещающая лингвистику и компьютерные возможности.

Актуальность исследования состоит в том, что в современной лингвистике особую остроту приобретает проблема применения цифровых технологий для обработки письменных и устных текстов.

Целью нашей работы является выявление лингвостатистических особенностей учебника английского языка с помощью компьютерных программ.

Задачи данной исследовательской работы:

1. Изучить необходимую информацию по данной проблеме;

2. Провести компьютерный анализ текста учебника английского языка.

Для решения поставленных задач был использован автоматический метод обработки текста.

Объектом исследования является компьютерная лингвистика.

Предметом исследования является компьютерный анализ печатного текста. Базой для практического анализа послужил учебник английского языка 7 класса.

Теоретическая значимость заключается в предоставлении таких новых данных, которые соответствуют современному этапу развития информационных технологий и компьютеризации. Такие положения могут служить основой для дальнейшего развития области языковой науки. Практическая значимость заключается в выявлении практических методов компьютерной лингвистики, которые могут быть использованы на практике. 




II. Теоретическая часть


1. Что такое Компьютерная лингвистика?


Лингви́стика (языкозна́ниеязыкове́дение; от лат. lingua — язык) — наука, изучающая языки. Это наука о естественном человеческом языке вообще и обо всех языках мира как индивидуальных его представителях.

Компьютерная лингви́стика  - направление лингвистики, ориентированное на использование компьютерных инструментов – программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах


2. История развития компьютерной лингвистики


История началась в Соединённых Штатах Америки в 1950-х годах. С появлением нового поколения компьютеров, а также первых языков программирования, начались эксперименты с машинным переводом. В 1960-х годах подобные исследования проводились и в СССР (например, статья о переводе с русского на армянский в сборнике «Проблемы кибернетики» за 1964 год). Однако качество машинного перевода до сих пор сильно уступает качеству перевода, произведённого человеком. С 15 по 21 мая 1958 года в I МГПИИЯ состоялась первая Всесоюзная конференция по машинному переводу. 

Итак, компьютерная лингвистика родилась в январе 1954 года, когда в Джорджтаунском университете (США) был проведен первый в мире публичный эксперимент по машинному переводу. 
В конце 80-х гг. связи с развитием сети Интернет и Всемирной паутины объем доступных в электронном виде текстов возрос в разы. Это привело к качественному скачку в технологиях информационного поиска. Возникли совершенно новые задачи и технологии обработки текстов на естественном языке. Необходимость быстрой обработки огромного потока неструктурированных данных привела к тому, что основной интерес в сфере автоматической обработки естественного языка переместился на разработку статистических методов.

3. Направления компьютерной лингвистики
  • Обработка естественного языка (natural language processing)

  • Анализ экстралингвистических данных

  • Корпусная лингвистика

  • Создание электронных словарей, тезаурусов, лингвистических онтологий

  • Информационный поиск

  • Машинный перевод

  • Автоматическая проверка грамотности (спеллчекеры)

  • Автореферирование, порождение текстов, аннотирование

  • Определение тональности текста

  • Построение систем управления знаниями (онтологии, экспертные системы)

  • Оптическое распознавание символов

  • Автоматическое распознавание речи

  • Digital Humanities (автоматические подсказки, социальные сети)

  • Автоматический синтез речи

  • Создание диалоговых систем

  • Искусственный интеллект

  • Нейролингвистика

4. Программы лингвистического анализа и обработки текста

Автоматизированная обработка текста обычно включает проведение анализа текста на нескольких уровнях. Уровни представления анализа текста:

1. Морфологический — выделение грамматической основы слова, определение частей речи, приведение слова к словарной форме.

2. Графематический — выделение слов и предложений из массива данных.

3. Синтаксический — выявление синтаксических связей меж­ду словами в предложении, определение синтаксической структуры предложения.

4. Семантический — нахождение семантических связей меж­ ду словами и семантических отношений. Группы компьютерных программ, которые используются для автоматической обработки текста

Лингвистические технологии и системы


Название,  автор(ы)

Комментарий

AskNet

ПОЛИГЛОТ

Семантические вопросно-ответные поисковые системы AskNet и инструментарий разработчика, реализующий полный лингвистический анализ текстов на русском и (или) английском языках. Модули лингвистического анализа включают в себя морфологию (словарную и бессловарную),синтаксиссемантику (включая толково-комбинаторные словари). Имеется модуль семантической рубрикации текстов. Программные продукты представлены коробочными версиями корпоративнойсайтовой и персональной поисковой системы. Вопросно-ответный поиск по Интернету реализован на базе метапоисковой системы www.asknet.ru. Разрабатывается аналитическая поисковая система AQUA, позволяющая находить семантические ответы на основе автоматического обобщения системой текстовой информации и проведения логического вывода. Программы и SDK  распространяются на коммерческой основе. Уровни лингвистического анализа: графематическийморфологическийсинтаксическийсемантический.

Ontos

Ontos

Программные продукты предназначены для анализа текстовых документов, составления аннотаций, обработки данных (OntosMinerLightOntos for WorkgroupsOntos SOATAIS Ontos). Алгоритмы функционирования основаны на графематическом, морфологическом и семантическом анализе текстовой информации. Системы используют морфологические словари и семантические картриджи для основные языков (английского, немецкого, французского, русского). Обеспечивается выявление фактографической информации и представление ее в форме различного вида отчетов, в том числе в виде графа связей объектов. Тестирование системы показало, что семантический поиск таковым на самом деле не является, так как сводится к поиску по ключевым словам с использованием тематических синонимов. Программы реализованы на Java, .NET и используют Microsoft SQL Server. Уровни лингвистического анализа: графематический, морфологический, семантический – на уровне использования тематических синонимов.


2. Утилиты лингвистического анализа текста (морфология, синтаксис)

Название,  автор(ы)

Комментарий

Link Grammar Parser for Russian

Сергей Протасов

On-line программа синтаксического анализа предложений русского языка. Создана по образу Link Grammar Parser. Алгоритм работы синтаксического анализатора основан на использовании разработанной грамматики связей для русского языка. Доступен для тестирования web интерфейс программы. Алгоритм работы синтаксического анализатора основан на использовании грамматики связей. Морфологический словарь используется от aot.ru. Программа реализована на unix C, Perl под лицензией Apache License. Программа и исходные коды распространяются на коммерческой основе. 

АОТ (автоматическая обработка текста)


Комплекс программ автоматической обработки текстов, включающий:
- морфологические словари для русского, немецкого и английского языков;
- модуль графематического анализа текста;
- синтаксические словари;
- модуль снятия омонимии;
- модуль первичного семантического анализа;
- система лингвистического поиска (конкорданс);
- различные тезаурусы и словники.
Часть модулей доступна для загрузки.

Mystem Илья Сегалович,
Виталий Титов (Яndex)

Программа морфологического анализа текстов на русском языке. Для слов, отсутствующих в словаре, порождаются гипотезы. Реализована на основе словаря Зализняка. Доступны для загрузки версии для Windows и Linux. Работает как консольное приложение и имеет различные режимы представления результатов. 
Версия программы предназначена для некоммерческого использования.

 LingSoft


Программные модули графематического и морфологического анализа, лемматизации для текстов на английском, немецком, финском, датском, норвежском, шведском, и эстонском языке, а также распознавания речи. Программные модули могут быть использованы при разработке лингвистических систем.

Синтаксический анализатор


От-line синтаксический анализатор естественного текста на русском языке. Программа находится в разработке. Версия программы показывает наличие множества "неизвестных" ей слов. Синтаксические связи определяются не для всех слов предложения.


3. Утилиты статистического анализа текста

Название,  автор(ы)

Комментарий

TextAnalyst 2.0

МикроСистемы

Программа построения семантической сети понятий, выделяемых из обрабатываемого текста, со ссылками на контекст. Позволяет анализировать текст путем построения иерархического дерева тем/подтем, затрагиваемых в тексте. Также имеется возможность реферирования текста. Лингвистический анализ проводится в основном на основе стемминга. Морфологический анализ реализован для сравнительно небольшого количества слов. Из лингвистического анализа исключаются не только стоп-слова, но и все глаголы. При поиске не учитывается порядок слов. Синтаксический и семантический машинный анализ тестов не реализован.
SDK реализует функции лемматизации для русского и английского языков, построения частотных списков понятий, поиска слов в контексте. TextAnalyst Lib реализует создание гипертекстовых связей выявляемых понятий.

WordSmith Tools

Mike Scott

Программы построения конкордансов. Функциональность аналогична MonoConc.

Paai's text utilities

Dr. J.J. Paijmans

Сборник утилит и Unix-скриптов для обработки текстов в ASCII кодировке для использования под Linux.

Свежий взгляд / Fresh Eye
v.1.21, 1995

Дмитрий Кирсанов

Утилита DOS, OS/2 реализующая стилистическую проверку русскоязычных текстов. Программа отыскивает в тексте места, где фонетически и морфологически схожие слова расположены в непосредственной близости, что порождает так называемую паронимию или "нечаянную тавтологию". Программа распространяется без ограничений вместе с исходным текстом на C.

URS v. 1.1
от 05.04.2001

М.А.Бендерский,
("НООЛаб")

Утилита для построения и обработки словарных частотных индексов. Позволяет обрабатывать входные документы в форматах обычного текста, HTML и MS Word для Win9x/NT/2000. Обеспечивает анализ и обработку пар словарных индексов как двух множеств, экспорт результатов в файл.

WordStat

А.Г.Дубинский

Утилита подсчета частоты встречаемости различных слов в текстовых или html-файлах. Обрабатывает основные русские кодировки, игнорирует html-разметку. Бесплатная.

Программа предназначена для поиска дубликатов текстов. Приведен алгоритм и исходный код программы (на FoxPro) сравнения двух текстов.

FRQDictW

Александр Челмодеев

Программа построения частотного словаря для заданного текста. Теоретически может работать с любыми файлами, содержащими ASCII-текст в кодировке Win-1251. Работает в ОС Windows 9x/ME/NT/XP как консольное приложение.



III. Практическая часть

Для лингвостатистического анализа, который предполагает  установление статистических закономерностей текста, мы использовали компьютерные программы автоматического анализа печатного текста.  

MS Word

С помощью функции «Статистика» можно определить количество слов, абзацев, строк и знаков. Итак, мы выяснили в учебнике английского языка в первой части 31000 слов.

С помощью функции «Автореферат» можно выделить ключевые слова и основную мысль текста. Чтобы показать эту функцию на практике мы взяли несколько текстов из учебника. Результаты представлены в таблице 1.

Таблица 1.

Исходный текст

Автореферат

Jason Ronald goes to school in the city where he lives. “I love the long summer vacation' and never want to go back to school when it finishes. I try to arrive at school before the bell rings and find my friends. The first days of school are like a big party because everybody sees their friends again.

Jason Ronald goes to school in the city where he lives.

In the 16th century the people who lived in Europe didn’t know English. They couldn’t understand English words. Now English is the language of science, business, and sport. People use English as the first language or mother tongue in the English-speaking countries. Then there is English as a foreign language. People teach and learn English as a foreign language in Europe and Asia, in Africa and South America, in other words, all over the world.


People use English as the first language or mother tongue in the English-speaking countries.


Программа Wordstat

 Представляет собой компактную программу, которая позволяет копирайтеру или рерайтеру подсчитать, как часто встречается в тексте конкретные слова или фразы. Проанализировав текст учебника, мы получили следующие результаты (выделим только некоторые):

the 1625

to 994

a 973

in 693

some 91

year 91

speak 88

new 86

children 85

write 84

them 83

never 81

Work 80


Так же можно сказать, что самым частотным словом оказался определенный артикль the – 1625 раз, по одному разу встретились такие слова, как keys, invite, jacket, joy.




Онлайн программа «Миратекст»

Семантический анализ текстов, анализирует такие параметры, как длина текста, количество слов, тошнота, плотность ключевых слов, вода в тексте (водность), и другие полезные мелочи. Чтобы продемонстрировать возможности данной программы, возьмем текст из учебника.

Общая статистика текста

Параметр

Значение

Количество символов с пробелами

1929

Количество символов без пробелов

1570

Количество слов

346

"Тошнота" текста

5.2

"Водянистость" текста

0%

Качество текста по закону Ципфа

73%


Слово

повторений

плотность




the

27

7.8%



Количество повторений (словосочетание из двух слов)

Слово

повторений

плотность




is the

4

2.31%

in the

3

1.73%

the echidna

3

1.73%

the duckbill

3

1.73%

the red

2

1.16%

the world

2

1.16%

the emu

2

1.16%

the kookaburra

2

1.16%

the koala

2

1.16%

of the

2

1.16%



IV. Заключение

Итак, наша гипотеза «возможно, что существуют определенная наука, совмещающая лингвистику и компьютерные возможности» подтвердилась.

1. C появление сети Интернет и бурный рост доступной текстовой информации значительно ускорило развитие научной области известной, как компьютерная лингвистика (Computational Linguistics).

2. Компьютерная лингвистика это междисциплинарная наука: лингвистика, математика и информатика. Компьютерная лингвистика дает лингвостатистический анализ письменного или устного текста.

Компьютерная лингвистика демонстрирует вполне осязаемые результаты в различных приложениях по автоматической обработке и анализу текстов. Большинстве приложений не смотря на свою простоту дают приемлемые или даже хорошие результаты; нередко качество результатов достигает экспертного уровня — обычно там, где мнения экспертов могут расходиться.






V. Список использованных источников

1. «Автоматическая обработка текстов на естественном языке и анализ данных» /Большакова Е.И.- 2017г.

2. «Обзор современных лингвистических технологий и систем» /Якбовский К.И.

3. http://asknet.ru/analytics/programms.htm

4. https://miratext.ru/seo_analiz_text

5. https://ru.wikipedia.org/wiki/





12