|
|
Язык tExp - инструмент для решения задач извлечения знаний из текстов на ЕЯ Задача автоматического извлечения знаний из текстов - это очень сложная, комплексная, интердисциплинарная задача, которая стоит перед исследователями уже не одно десятилетие. Для её решения необходимо привлекать знания и методы из различных областей: лингвистики, формальных языков, логики, программирования и т.д.
Для решения этой сложной задачи наша исследовательская группа избрала путь создания специализированного языка программирования, на котором можно было бы быстро и удобно формализовать лингвистические правила и алгоритмы анализа текста. Это не самый быстрый путь построения программ - анализаторов текста, но зато, коль скоро специализированный язык создан, он даёт большую гибкость получаемой системы и возможность быстро писать программы для конкретных задач по анализу текстов.
Язык tExp изначально разрабатывался под задачу автоматизации извлечения знаний из текстов на естественном языке. Этим определялись очень многие свойства и конструкции языка, а также его базовая идеология.
Перечислим основные задачи, которые должен решать подобный язык: - первичное выделение базовых структур текста - слов и предложений, а также других примитивов: чисел, дат, аббревиатур и т.д.
- выделение более сложных синтаксических структур из текста. В частности, язык должен давать средства для выделения таких лингвистических конструкций, как примыкание, согласование, управление, однородные члены, подлежащее, сказуемое, дополнение и т.д.
- задача дальнейшего постсинтаксического анализа текста. Фактически это уже уровень семантической обработки, который требует возможности использования эксплицированных знаний в формальном виде (предметные словари, таблицы, семантические сети, :)
При решении задачи выделения синтаксических языковых структур из текстов на ЕЯ возникают следующие объективные проблемы, эффективное решение которых даёт основание для использования специализированного языка: - языковая омография - для многих слов при одинаковом написании возможны различные варианты лингвистических характеристик. Язык должен давать средства для разрешения подобных неопределённостей.
- неопределённость размера языковых структур. Так, подлежащее может состоять и из одного слова, и из десяти. Или, например, однородных членов в предложении может быть два, а может быть пять.
- неопределённость границ и форм языковых структур. Запятая в предложении может разделять однородные члены, может выделять оборот или вводное слово, а может быть и границей простого предложения. Кроме того, одни языковые структуры могут быть разорваны другими, что сильно усложняет задачу.
При этом специализированный язык для решения вышеперечисленных задач и проблем должен позволять делать это минимальными средствами и с максимальным удобством. Средством для достижения этой цели является максимальная абстракция языка от несущественных деталей и оптимизация синтаксиса для удобства написания программ. |