Лаборатория информационных технологий
НооЛаб - создание сайтов, программное обеспечение, инновационные проекты
на главную поиск карта сайта
создание сайтов, порталов, веб-систем бизнес-системы, базы данных, CRM, CMS, АРМ инновационные проекты, искусственный интеллект, базы знаний, анализ текстов
web-development software development AI (artificial intelligence)
Создание сайтов и другие веб-услуги Программное обеспечение Исследования, НИОКР

tExp

Аннотация tExp

Язык tExp - инструмент для решения задач извлечения знаний из текстов на ЕЯ

Основные принципы tExp

Реализация tExp

РАСПРОДАЖА ДОМЕНОВ

Продаем домены, не нашедшие реализации в наших Интернет-проектах:

По вопросам приобретения пишите: noolab@yandex.ru

НАШИ ПАРТНЕРЫ

REG.RU - партнер по регистрации доменов в зонах .RU, .SU и .РФ.

Подробнее об услугах регистрации доменов

КОНТАКТЫ

e-mail: noolab@yandex.ru

Телефон сообщается по запросу

Все контакты и реквизиты

ОБЪЯВЛЕНИЯ


ГЛАВНАЯ

Исследования

TEXP

Основные принципы tExp

Основные идеи tExp'а, позволяющие эффективно решить поставленные задачи и проблемы, в тезисной форме таковы:

Логические принципы tExp


  1. Для анализа текста используется следующая теоретико-модельная интерпретация: текст интерпретируется как линейно-упорядоченная алгебраическая система.
    • носитель системы, представляющей текст, это множество слов данного текста, упорядоченное естественным образом.
    • сигнатура содержит унарные предикатные символы для выделения различных характеристик (например, грамматических и лексических) элементов этой системы (т.е. слов текста). Также возможно пополнение сигнатуры за счёт введения более сложных предикатов, позволяющих ускорить процесс обработки текста.
    • в сигнатуре этой системе есть функциональные символы, позволяющие сдвигаться по тексту в ту или иную сторону.

    Далее будем отождествлять текст с интерпретирующей его алгебраической системой.

  2. Языковые структуры в тексте выделяются как формульные множества.
  3. Для выделения формульных множеств первого порядка никаких ограничений нет - принципиально возможно использование полного языка первого порядка соответствующей сигнатуры. В силу большой выразительной силы языка первого порядка это позволяет решить проблему неопределённости границ и форм языковых структур.
  4. Кроме того, в языке существует эффективное средство для выделения формульных множеств второго порядка (т.н. механизм репликации шаблонов) на основе семантики формул первого порядка, что даёт принципиальные возможности для решения проблемы неопределённости размера языковых структур.

Синтаксические принципы tExp


  1. Декларативность программы на tExp позволяет отвлечься от всех деталей механизма выделения структур, кроме их смысла и логической организованности. Это одна из важнейших предпосылок, почему tExp - чисто логический декларативный язык. На практике это позволяет очень существенно уменьшить объём программы, улучшить её читаемость, хотя и усложняет задачу эффективной реализации интерпретатора/компилятора языка.
  2. Иерархичность областей даёт адекватное (в том числе удобное) средство для отражения естественной иерархичности языковых структур в тексте, например иерархии предложение - простое предложение - однородные члены - слово. Кроме того, этот принцип позволяет обойтись без условного оператора в какой-либо форме.
  3. Иерархичность синтаксиса tExp позволяет для задач/подзадач различных уровней сложности использовать структуры адекватной синтаксической сложности.

Иерархия синтаксиса tExp


Иерархия синтаксических структур tExp состоит из 6 уровней (по мере усложнения)

  • Элементарный унарный предикат. Обозначается предельно лаконично.

    Пример:

    N, Adj, Adv, "хотя", 'автобус', TF[Some_Template], Dict[частица] :

  • Элементарная булева комбинация. Составляется из элементарных унарных предикатов при помощи логических связок (и, или, не, следует).

    Пример:

    {-Dict[неизвестное]}&{-{","}|-{"-"}|-{"+"}|Adj}

    Является унарной булевой функцией на тексте.

  • Парапредикат. Может описываться при помощи одного/нескольких элементарных булевых комбинаций, и уже быть не унарным.

    Пример:

    Sequence[X1={-V|TF[In_Commas]}+

    .. X1+X2=TF[Potential_Name]](X1,X2)

  • Формула. Даёт возможность полностью использовать выразительную силу логики первого порядка.

    Пример:

    Formula F[Template_Name1,Field_Name1,Word1](X,Y) =

    (Exists.Z

    (

    (TempField[Template_Name1,Field_Name2](Y))&

    (In['Word1'](Z))&

    (

    (Table[Table_Name1,Row1,Column1](X))v

    (TempField[Template_Name2,FieldName_1](Y))v

    )

    )

    )

  • Шаблон. Эта синтаксическая конструкция даёт возможность имитировать семантику формул второго порядка при помощи формул первого порядка. Использование шаблонов позволяет решить одну из главных отмеченных выше проблем - проблему неопределённости размера языковых конструкций. Если элемент конструкции описывается не одним словом из текста, а множеством слов, то эта проблема решается.
  • Команда. Задаёт последовательность наложения шаблонов на текст и исполнения других команд. Позволяет легко оперировать крупными блоками программного кода, возможно из нескольких программных модулей.