Общее описание ConExT Основная проблема автоматического анализа и понимания текста состоит в том, что в письменной речи отпечатано множество принципиально различных структур: формы грамматики языка, коммуникативная окраска высказывания, логическая культура автора, устройство описываемого в тексте объекта.
Эта сложность текста проявляется в том, что одну и ту же мысль можно выразить в совершенно разной форме. Например, про одно и то же отношение между партнерами на рынке может быть написано по-разному: - "Завод Х поставляет продукцию компании У"
- "Крупные поставки оборудования осуществляются заводом Х. В числе его покупателей - компания У"
- "А я и не знал, что фирма У делает закупки у завода Х!"
Технология должна быть способна отвлечь форму выражения и реконструировать собственно содержание: связь закупки/поставки между Х и У.
Технология ConExT (Content Extracting Technology) обладает именно такой способностью. Она реализует автоматическую интерпретацию текстов по их содержанию и извлечение из текстов знаний об объектах, связях между ними и т.д..
Ядро ConExT включает в себя: - декларативный язык программирования высокого уровня tExp, специально предназначенный для создания программ синтаксической и семантической обработки текстов на естественном языке;
- словарь русского языка Ru-Dict (на основе синтаксического словаря Зализняка);
- прикладные программы синтаксического анализа текста и перевода его в нормативные лингвистические Е5-структуры;
- прикладные программы категориального анализа, реконструирующие содержание -объекты, описанные в тексте;
- принципы и методики спецификации прикладных программ под конкретные приложения;
Общая схема ConExT приведена на рисунке:
В целом, технология может быть охарактеризована как последовательный анализ текста, выделяющий содержательно-значащие единицы, отвлечение этих единиц от их грамматической формы и переход к моделям содержания.
На этом пути с помощью словаря идентифицируются и характеризуются слова текста, выделяются предложения, вплоть до простых переложений в составе сложных. Проводится синтаксический анализ, в частности определяются падежи слов (при этом разрешаются сложные случаи омонимии), выделяются главные члены предложения и др.
Итогом лингвистического анализа является перевод простых предложений (и др. лингвистических единиц) в единую "каноническую" форму Е-5 структуры. Е-5 структура содержит в себе пять элементов (тематические объект и предикат, связка, рематические объект и предикат) и играет роль обобщенной пропозициональной модели.
Полученный результат можно назвать "лингвистическим портретом" содержания. Этот портрет - оптимум того, что нужно узнать о тексте, используя только формально-грамматические и синтаксические признаки, и не привлекая знаний о семантических значениях слов.
В "канонической" пропозициональной модели оказываются отвлеченными многие особенности формы выражения, что и создает возможность перехода к собственно объективному содержанию. Основой реконструкции содержания является категориальный аппарат: именно категории задают тип объектов, описанных в тексте. Для каждой лингвистической единицы строятся модели возможных объектов содержания.
Синтез отдельных объектов в единую систему осуществляется за счет конструктивных моделей, таких, например, как "акт коммуникации", "досье субъекта рынка", "отраслевая цепочка", "событие", "технология публичной политики", "передел собственности" и др.
Извлеченные из текста сведения (или реконструированные модели) передаются на хранение в базу данных (базу знаний), где они являются доступными для последующей формальной обработки, аналитики и т.д.
Описанные выше механизмы реализуются в прикладных программах, написанных на языке высокого уровня tExp. Этот язык специально создан для решения задач структурного анализа неформализованных текстов на естественном языке. Наличие в составе технологии собственного языка программирования обеспечивает высокую гибкость технологии, возможность быстрой настойки на новые приложения. |