Лаборатория информационных технологий
НооЛаб - создание сайтов, программное обеспечение, инновационные проекты
на главную поиск карта сайта
создание сайтов, порталов, веб-систем бизнес-системы, базы данных, CRM, CMS, АРМ инновационные проекты, искусственный интеллект, базы знаний, анализ текстов
web-development software development AI (artificial intelligence)
Создание сайтов и другие веб-услуги Программное обеспечение Исследования, НИОКР

tExp

Аннотация tExp

Язык tExp - инструмент для решения задач извлечения знаний из текстов на ЕЯ

Основные принципы tExp

Реализация tExp

РАСПРОДАЖА ДОМЕНОВ

Продаем домены, не нашедшие реализации в наших Интернет-проектах:

По вопросам приобретения пишите: noolab@yandex.ru

НАШИ ПАРТНЕРЫ

REG.RU - партнер по регистрации доменов в зонах .RU, .SU и .РФ.

Подробнее об услугах регистрации доменов

КОНТАКТЫ

e-mail: noolab@yandex.ru

Телефон сообщается по запросу

Все контакты и реквизиты

ОБЪЯВЛЕНИЯ


ГЛАВНАЯ

Исследования

TEXP

Язык tExp - инструмент для решения задач извлечения знаний из текстов на ЕЯ

Задача автоматического извлечения знаний из текстов - это очень сложная, комплексная, интердисциплинарная задача, которая стоит перед исследователями уже не одно десятилетие. Для её решения необходимо привлекать знания и методы из различных областей: лингвистики, формальных языков, логики, программирования и т.д.

Для решения этой сложной задачи наша исследовательская группа избрала путь создания специализированного языка программирования, на котором можно было бы быстро и удобно формализовать лингвистические правила и алгоритмы анализа текста. Это не самый быстрый путь построения программ - анализаторов текста, но зато, коль скоро специализированный язык создан, он даёт большую гибкость получаемой системы и возможность быстро писать программы для конкретных задач по анализу текстов.

Язык tExp изначально разрабатывался под задачу автоматизации извлечения знаний из текстов на естественном языке. Этим определялись очень многие свойства и конструкции языка, а также его базовая идеология.

Перечислим основные задачи, которые должен решать подобный язык:

  1. первичное выделение базовых структур текста - слов и предложений, а также других примитивов: чисел, дат, аббревиатур и т.д.
  2. выделение более сложных синтаксических структур из текста. В частности, язык должен давать средства для выделения таких лингвистических конструкций, как примыкание, согласование, управление, однородные члены, подлежащее, сказуемое, дополнение и т.д.
  3. задача дальнейшего постсинтаксического анализа текста. Фактически это уже уровень семантической обработки, который требует возможности использования эксплицированных знаний в формальном виде (предметные словари, таблицы, семантические сети, :)

При решении задачи выделения синтаксических языковых структур из текстов на ЕЯ возникают следующие объективные проблемы, эффективное решение которых даёт основание для использования специализированного языка:

  1. языковая омография - для многих слов при одинаковом написании возможны различные варианты лингвистических характеристик. Язык должен давать средства для разрешения подобных неопределённостей.
  2. неопределённость размера языковых структур. Так, подлежащее может состоять и из одного слова, и из десяти. Или, например, однородных членов в предложении может быть два, а может быть пять.
  3. неопределённость границ и форм языковых структур. Запятая в предложении может разделять однородные члены, может выделять оборот или вводное слово, а может быть и границей простого предложения. Кроме того, одни языковые структуры могут быть разорваны другими, что сильно усложняет задачу.

При этом специализированный язык для решения вышеперечисленных задач и проблем должен позволять делать это минимальными средствами и с максимальным удобством. Средством для достижения этой цели является максимальная абстракция языка от несущественных деталей и оптимизация синтаксиса для удобства написания программ.