Технологии и системы автоматической обработки текстовой информации

From Викиучебник
Jump to navigation Jump to search

Системы автоматического реферирования[edit]

Реферирование и аннотирование документов относятся к числу основных видов информационной деятельности человека в ряду традиционных поисковых технологий. Самой сложной задачей автоматической переработки текста считается создание систем автоматического реферирования. И хотя пока не существует систем, способных сформировать полноценный реферат (удалось создать лишь системы квазиреферирования), именно они, вместе с системами автоматического поиска и машинного перевода, помогают сегодня ориентироваться в мировом информационном пространстве и находить нужную нам информацию.

Реферат как информационная модель документа[edit]

Реферирование всегда рассматривалось как сложная сфера человеческой деятельности. Считается, что составить идеальный реферат исключительно сложно и такие продукты очень редки. Такая точка зрения верна не только потому, что реферат трудно написать, но и потому, что люди редко приходят к согласию в оценке качества реферата. Это объясняется возможностью описания одного и того же события разными способами. Способы зависят от целей написания реферата, а их оценка определяется ожиданиями читателей в отношении того, какие положения должен содержать реферат. Одной из основных особенностей реферата является его полная содержательная и отчасти формальная зависимость от первичного документа. И если первичный документ является детальной моделью действительности и включает подробные сведения о предметах, явлениях, методах и т.д., то реферат относится к числу интегральных моделей – информация в нем представляется в обобщенном виде. Реферат (от лат. referre – сообщать, докладывать) содержит краткое изложение содержания текста первичного документа (научной статьи, книги и пр.). Информация, заключенная в первичном документе, наиболее полно и адекватно передается в текстовой части реферата. Адекватность реферата первичному документу обеспечивается благодаря инвариантности информации относительно преобразований, совершаемых при подготовке реферата. При составлении реферата главная идея, объединяющая все информационные элементы первичного документа, освобождается от логических связей (доказательств, обсуждений и т.п.) и отражается в реферате в сжатом виде. Исходя из этого, реферат определяется как семантически адекватное, ограниченное малым объемом и вместе с тем семантически полное изло-жение основного содержания первичного документа. Поисковый образ первичного документа составляется из ключевых слов и является прообразом первичного документа в информационно–поисковых системах. В рамках широкого толкования информационно–поисковой системы (в структуре общего информационного пространства) реферат можно рассматривать как наиболее полный поисковый образ документа, составленный на естественном языке. При этом реферат выступает как средство поиска первичных документов. Однако кроме чисто поисковой функции реферат выполняет и другие информационные функции, которые, строго говоря, нельзя рассматривать в отрыве друг от друга.

Функции реферата[edit]

Функции, присущие всем рефератам:

  1. Информативная – передает фактографическую информацию, информативность является наиболее существенной и отличительной чертой реферата.
  2. Поисковая – по рефератам осуществляется поиск информации и, в широком смысле слова, реферат является поисковым образом документа, в котором на естественном языке излагается основное содержание первичного документа.
  3. Справочная – извлекаемая из реферата информация носит справочный характер.
  4. Адресная – содержит библиографическое описание первичного документа.
  5. Коммуникативная – обеспечивает более быстрый и удобный обмен информацией.

Функции, присущие отдельным типам рефератов:

  1. Индикативная – когда в реферате ограничиваются названием или перечислением основных вопросов содержания, указывая на существование

соответствующего документа.

  1. Сигнальная – если рефераты выходят в свет до появления первичных документов.

Степень выполнения рефератом этих функций зависит от качеств самого реферата, от характера первоисточника и его доступности для читателя, от того, для какой информационной системы предназначены рефераты (для текстовых баз данных, информационно–поисковых систем, реферативных журналов, для библиотечных карточек или размещения при статьях и т.д.).

Отличие реферата от других форм сжатого описания документа[edit]

Кроме реферата существуют и другие виды вторичных документов, в которых дается краткое описание документа первичного. К ним относятся, в первую очередь, аннотация и библиографическое описание. В чем же состоит отличие аннотации от реферата? Реферат передает фактографическую информацию и отвечает на вопрос – какая информация заключена в первичном документе? Пример. 14.01.2003.079 03200201020 Проблема непрерывности профессионального становления и развития кадров системы образования: Без отчета /Институт образования взрослых РАО (ИОВ РАО); Руководитель Колесникова И.А.– . ГР 01200109977. УДК 374.8. 2002.03.11. Подготовлены исследовательские модули в образовательные программы колледжа, ВУЗа, ИПК, аспирантуры педагогического профиля; разработаны проект деятельности Академической школы молодого исследователя в области образования; концепция становления субъекта профессионально–педагогической деятельности в системе непрерывного образования. Предпринята попытка расширить методологическую базу исследований за счет использования потенциала нейронаук.

Аннотация представляет собой сжатую описательную характеристику первичного источника и отвечает на вопрос – о чем говорится в первичном документе? В аннотации раскрывается тематика и может быть охарактеризована структура публикации. Пример. Голубева О.Д., Одоевский В.Ф. – СПб.: РНБ, 1995. – 192 c. – (Деятели Рос. нац. б–ки (Публ. б–ки)). Книга рассказывает о выдающемся теоретике и практике отечественного библиотечного дела, писателе, философе, композиторе, изобретателе князе В.Ф.Одоевском, который проработал в Императорской Публичной библиотеке помощником директора и заведующим Румянцевским музеем 15 лет (1846–1861).

Как видно из примеров, составной частью аннотации и реферата является библиографическое описание, однако, оно может являться и самостоятельным вторичным документом. Библиографическое описание дает минимальное количество сведений о первичном документе, необходимых для того, чтобы составить представление о его теме, а также получить адрес для его отыскания. В библиографическое описание входит фамилия автора, заглавие публикации, название издания, выходные данные и объем в страницах. Пример. Тягунов С.И. Логика как искусство мышления: Учеб пособие / С.–Петерб. гос. ун–т экономики и финансов. – СПб.: Изд–во СПбГУЭФ, 2000. – 107с.

Форма, объем и структура реферата[edit]

Форма реферата Для реферата характерна оригинальная, самостоятельная литературная форма. И все же эта самостоятельность относительна, так как форма реферата в той или иной степени зависит от типа реферируемого документа (статья, книга, web–страница), стиля первоисточника, целевого назначения реферата (база данных, журнал, карточка, ИПС), а также характера документа (теоретическая, повествовательная, описательная статья) и области знания.

Объем реферата Считается, что реферат должен составлять 1/8 объема (10–15%) первичного документа, чтобы обладать достаточной семантической эквивалентностью.На выбор объема реферата влияет также целевая направленность реферата и доступность реферируемого источника широкому кругу читателей.

Структура реферата Структура реферата постоянна и не зависит от целевого назначения. Создается ли он для традиционного реферативного журнала или для автоматизированной базы данных в его структуре всегда присутствуют следующие части: заголовочная, собственно реферативная и справочный аппарат.