|
|
Аннотация Компания НооЛаб завершила первый этап опытно-конструкторской разработки технологии автоматического понимания текстов и извлечения знаний из текстовой информации - Content Extracting Technology (ConExT).
Целью создания описываемой системы является решение следующей задачи: помочь пользователю в получении знаний из больших массивов текстовых документов без необходимости прочитывать их все. При этом, в упрощенном варианте система должна выполнять эффективную фильтрацию документов с низким риском отбраковки содержательно-значимых материалов; в развитом варианте - представлять пользователю обобщенные знания об интересующем предмете (явлении, ситуации и т.п.) в готовом виде (схемы, компактные отчеты, рефераты), с возможностью обратиться к первоисточникам, из которых эти знания выделены.
В отличие от большинства информационных систем семантического анализа текстов, выделяющих значимые слова и отношения между словами, ConExT обеспечивает реконструкцию содержания, стоящего за словами текста. Под содержанием понимается объективная ситуация, описанная в тексте: персоны, объекты, связи между ними, процессы, события и т.п..
ConExT позволяет извлекать из текстов знания в собственном смысле слова (знание об объекте), что открывает перспективу перехода от информационных технологий к технологиям нового поколения - знаниевым.
На настоящем этапе разработки создано ядро ConExT, которое обеспечивает выделение и представление в формализованных моделях отдельных знаний о ситуации, содержащихся в текстах. В перспективе разработки - автоматизированный анализ содержания текста в целом, реконструкция системного устройства объекта, описанного в тексте.
Ядро ConExT включает в себя: - декларативный язык программирования высокого уровня tExp, специально предназначенный для создания программ синтаксической и семантической обработки текстов на естественном языке;
- словарь русского языка Ru-Dict (на основе грамматического словаря Зализняка);
- прикладные программы синтаксического анализа текста и перевода его в нормативные лингвистические Е5-структуры;
- прикладные программы категориального анализа, реконструирующие содержание -объекты, описанные в тексте;
- принципы и методики спецификации прикладных программ под конкретные приложения;
ConExT является результатом многолетней инициативной разработки компании НооЛаб. В основу технологии положены представления о понимании и мышлении отечественной СМД-методологии (Г.П.Щедровицкий), оригинальный Е5-подход к инженерии знаний и системам искусственного интеллекта (В.Н.Елашкин), "ноу-хау" в области математической логики, лингвистики, программирования. Разработка ConExT ведется комплексной группой, в которую входят специалисты в области искусственного интеллекта, профессиональные математики, лингвисты, программисты, методологи.
ConExT ориентирована на применение в различных областях: для создания естественно-языковых интерфейсов, автоматического извлечения данных из массивов текстовой информации, автоматизации документооборота, семантических поисковых систем и систем поддержки принятия управленческих решений и др.
Компания НооЛаб использует ConExT для повышения "интеллектуальности" выпускаемых продуктов, а также осуществляет разработку на заказ интеллектуальных сервисов, предоставляющих пользователям эксклюзивные возможности добычи и аналитической обработки знаний. |