Перейти к содержанию

Компьютерные технологии в филологии

Материал из Викиучебника — открытых книг для открытого мира

Это — свободный викиучебник по компьютерным технологиям в филологии. Пожалуйста, не стесняйтесь исправлять и улучшать существующие страницы и добавлять новые. Часть требуемых информационных источников сможете найти в Интернете, воспользовавшись викиучебником Поиск информации в Интернете.

Филоло́гия (от греч. φιλολογία, буквально — любовь к слову) — содружество гуманитарных дисциплин — языкознания, литературоведения, текстологии, источниковедения, палеографии и других, изучающих духовную культуру человека через языковой и стилистический анализ письменных текстов. Текст во всей совокупности своих внутренних аспектов и внешних связей — исходная реальность филологии.

Использование компьютерных технологий расширяет возможности филологов, позволяя автоматизировать рутинные операции при обработке и анализе текстов.

Интернет

[править]

Киберпространство доступно для всех языков мира в одинаковой степени, поскольку нет центральной власти, которая могла бы держать его под своим контролем и принимать решения по его использованию.

В этом викиучебнике постараемся найти по возможности более простой ответ на вопрос: каким образом язык, лишенный достаточных как лингвистических и/или информационных, так и человеческих ресурсов, может обрести свое место в киберпространстве и активно в нем использоваться.

ЮНЕСКО

[править]

ЮНЕСКО превращения киберпространства в среду, отражающую многообразие существующих сегодня языков и культур, при содействии Латинского союза и при интеллектуальной поддержке эксперта Марселя Дики-Кидири выпустило книгу «Как обеспечить присутствие языка в киберпространстве?» в рамках серии публикаций программы ЮНЕСКО «Информация для всех»[1]

Лингвистическое программное обеспечение

[править]

Лингвистическое программное обеспечение (англ. lingware = linguistic + software) — компьютерные программы и данные, обеспечивающие:

Компьютерные технологии в филологии можно ограничить только последней третьей группой программ.

Проблемы компьютерного анализа и синтеза естественных языков изучаются в рамках общего направления, получившего название обработка естественного языка (Natural Language Processing, NLP).

Анализ сводится к проблемам понимания языка, а синтез — к проблемам генерации грамотных текстов.

Главные задачи

[править]

Системы обработки текстов

[править]

Программы для обработки данных:

  • Alibi — программа параллельного выстраивания текстов (или сравнения текстов на различных языках). С помощью этого инструмента можно сделать выборку по двум параллельным файлам и автоматически вывести текстовые компоненты этой пары файлов. В качестве текстовых компонентов Alibi может сопоставлять как параграфы или фразы, так и отдельные слова обоих текстов.
  • Concorde — программа согласования слов в контексте. Этот инструмент позволяет сделать выборку текстовых файлов и составить алфавитный перечень ведущих элементов с их непосредственным контекстом. Ведущий согласованный элемент может базироваться на словах в их фразовых контекстах или на знаках в контексте слов, в которых они употреблены. Ведущие элементы могут приводиться в обычном алфавитном порядке или в обратном алфавитном порядке.
  • Recode — программа автоматического конвертирования текстов из одной кодировки в другую. С помощью этой программы можно обрабатывать и запоминать около 175 различных кодировок и около дюжины комплектов файлов. В зависимости от пары кодировок, указанных в запросе (исходной и итоговой), Recode производит перекодирование одного или нескольких файлов. Поскольку каждая кодировка может работать в паре с большинством из остальных 174 кодировок, становится возможным проведение тысяч различных схем конвертирования.
  • Ventlie — программа статистической обработки текстов. На основе текстовых элементов Ventile дает возможность подсчитывать количество параграфов, фраз, слов и знаков в файле. На основе текстовой статистики Ventile производит измерение абсолютной частоты, три измерения средних значений (моду, медиану и среднее арифметическое) и пять измерений разброса (минимум, максимум, разница квартилей, среднее отклонение, стандартное отклонение). Статистические результаты воспроизводятся в виде числовой таблицы или графически, в виде столбчатой диаграммы (гистограммы).
  • Vocable — программа производства алфавитных индексов. Этот инструмент дает возможность произвести анализ текстов и составить перечень слов, используемых в этих текстах. Списки могут быть составлены в обычном алфавитном порядке, в порядке, обратном алфавитному, или в порядке частоты использования. Каждое слово может сопровождаться показателем частоты его применения с перечнем всех мест, где это слово встречается в тексте.

Электронные словари

[править]

Электронные словари — компьютерные программы позволяющие осуществлять быстрый поиск нужных слов, часто с учетом морфологических форм и с возможностью поиска сочетаний слов (примеров употребления) в компьютерных базах данных, содержащих особым образом закодированные словарные статьи. Электронные словари также позволяют изменять направления перевода (например, англо-русский или русско-английский).

Орфокорректоры (спеллчекеры)

[править]

Поисковые системы

[править]

Языковой анализ письменных текстов — это ...

Стилистический анализ письменных текстов

Семантический анализ письменных текстов — ...

На сайте ADVEGO предоставляется онлайновый сервис cемантического анализа текста (seo-анализ текста).

Перевод

[править]

Статистика

[править]

Морфологический анализ

Приложения

[править]

Примечания

[править]
  1. Марсель Дики-Кидири. Как обеспечить присутствие языка в киберпространстве? — М.: Межрегиональный центр библиотечного сотрудничества (МЦБС), 2007. — 64 с.