CONEXT ConExT - система автоматизированного извлечения знаний из текстов на естественном языке. Целью создания системы является решение следующей задачи: помочь пользователю в получении знаний из больших массивов текстовых документов без необходимости прочитывать их все.
При подаче на вход текстов на естественном языке (в стиле "деловая проза"), система способна реконструировать содержание и выделить имеющиеся в тексте знания, которые могут быть представлены пользователю в виде компактных отчетов (схем, рефератов), или направлены в базу знаний.
Новацией предложенной и экспериментально проверенной модели является метод выделения из текста содержательно-значащих единиц, их отвлечения от грамматической формы и перехода к моделям содержания. Метод реализуется за счет взгляда на текст через призму модельных представлений двух типов: А) правила, традиции и феномены выражения мыслей в текстах на русском языке; Б) инвариантный к языку ограниченный набор категорий, использующихся при выражении подавляющего большинства знаний о мире (объектах, субъектах, процессах, явлениях, отношениях и т.п.).
Важной составляющей системы является язык программирования tExp, специально созданный для решения задач структурного анализа неформализованных текстов на естественном языке. Наличие языка программирования tExp позволяет гибко подстраивать систему под особенности выражения содержания в различных прикладных областях. |