печатные платы

разработка бизнес-планов

бизнес-системы, базы данных, CRM, CMS, АРМ

инновационные проекты, искусственный интеллект, базы знаний, анализ текстов

tExp



		Аннотация tExp
		Язык tExp - инструмент для решения задач извлечения знаний из текстов на ЕЯ
		Основные принципы tExp
		Реализация tExp



	РАСПРОДАЖА ДОМЕНОВ Продаем домены, не нашедшие реализации в наших Интернет-проектах: Интернет и IT Напитки Продукты питания Кулинария Автотовары, вело-, мототовары Для здоровья и красоты Техника и оборудование Одежда и обувь Спорттовары Разные товары Ювелирные По вопросам приобретения пишите: noolab@yandex.ru


	НАШИ ПАРТНЕРЫ REG.RU - партнер по регистрации доменов в зонах .RU, .SU и .РФ. Подробнее об услугах регистрации доменов

	КОНТАКТЫ e-mail: noolab@yandex.ru Телефон сообщается по запросу Все контакты и реквизиты


	ОБЪЯВЛЕНИЯ

ГЛАВНАЯ

Исследования

TEXP

Язык tExp - инструмент для решения задач извлечения знаний из текстов на ЕЯ

Задача автоматического извлечения знаний из текстов - это очень сложная, комплексная, интердисциплинарная задача, которая стоит перед исследователями уже не одно десятилетие. Для её решения необходимо привлекать знания и методы из различных областей: лингвистики, формальных языков, логики, программирования и т.д.

Для решения этой сложной задачи наша исследовательская группа избрала путь создания специализированного языка программирования, на котором можно было бы быстро и удобно формализовать лингвистические правила и алгоритмы анализа текста. Это не самый быстрый путь построения программ - анализаторов текста, но зато, коль скоро специализированный язык создан, он даёт большую гибкость получаемой системы и возможность быстро писать программы для конкретных задач по анализу текстов.

Язык tExp изначально разрабатывался под задачу автоматизации извлечения знаний из текстов на естественном языке. Этим определялись очень многие свойства и конструкции языка, а также его базовая идеология.

Перечислим основные задачи, которые должен решать подобный язык:

первичное выделение базовых структур текста - слов и предложений, а также других примитивов: чисел, дат, аббревиатур и т.д.
выделение более сложных синтаксических структур из текста. В частности, язык должен давать средства для выделения таких лингвистических конструкций, как примыкание, согласование, управление, однородные члены, подлежащее, сказуемое, дополнение и т.д.
задача дальнейшего постсинтаксического анализа текста. Фактически это уже уровень семантической обработки, который требует возможности использования эксплицированных знаний в формальном виде (предметные словари, таблицы, семантические сети, :)

При решении задачи выделения синтаксических языковых структур из текстов на ЕЯ возникают следующие объективные проблемы, эффективное решение которых даёт основание для использования специализированного языка:

языковая омография - для многих слов при одинаковом написании возможны различные варианты лингвистических характеристик. Язык должен давать средства для разрешения подобных неопределённостей.
неопределённость размера языковых структур. Так, подлежащее может состоять и из одного слова, и из десяти. Или, например, однородных членов в предложении может быть два, а может быть пять.
неопределённость границ и форм языковых структур. Запятая в предложении может разделять однородные члены, может выделять оборот или вводное слово, а может быть и границей простого предложения. Кроме того, одни языковые структуры могут быть разорваны другими, что сильно усложняет задачу.

При этом специализированный язык для решения вышеперечисленных задач и проблем должен позволять делать это минимальными средствами и с максимальным удобством. Средством для достижения этой цели является максимальная абстракция языка от несущественных деталей и оптимизация синтаксиса для удобства написания программ.