|
|
История разработок компании НооЛаб в области извлечения знаний из текстов В основе интеллектуальных разработок компании НооЛаб лежат оригинальные идеи В.Н.Елашкина в области моделирования мышления в системах искусственного интеллекта (подход Е5), модели знания содержательно-генетической эпистемологии Г.П.Щедровицкого, собственные лингвистические, логические и программистские разработки.
Идея содержательной обработки текстов возникла и начала прорабатываться компанией "НооЛаб" в проекте The Ones в 1998-99 г.г. (Елашкин В.Н., Елашкина А.В., Русин А.О.). Предполагалось создать электронный органайзер, в котором функции поиска и классификации заметок основаны на выделении с помощью структурных шаблонов тех объектов, которые описаны в текстах. В ходе работы по проекту была создана оригинальная СУБД ESF.
В 1999 г. была осуществлена предпроектная подготовка, а в 2000 г. был начат проект TWINS (Русин А.О., Елашкина А.В.) - разработка семантической поисковой системы нового типа. В отличие от известных поисковых систем "Яндекс", "Рамблер", система TWINS должна была отбирать тексты не по ключевым словам, а по смыслу. Смысл текстов должен был моделироваться в специальной базе знаний, реализующей идеи Е5. В ходе разработки была спроектирована оригинальная архитектура программной системы, создан ряд программных модулей поиска информации в интернет.
В 2000 г. была поставлена задача создания специального языка моделирования содержания текстов, построенного на логике базовых категорий. Были разработаны принципы лингвистического и категориального анализа, позволяющие выделять и моделировать то, о чем говорится в текстах: ситуации взаимодействия персон, события, связи и отношения между организациями и т.д.
К январю 2001 г. был готов демонстрационный макет поисково-аналитической системы нового типа - РАСПАС - Российская Система Позиционного Анализа Ситуации (Нечипоренко А.В., Разумов А.М., Русин А.О., Елашкина А.В.). Макет демонстрировал новые возможности извлечения знаний из текстов, организации понимания и креативного мышления управленца и аналитика, поддержки принятия управленческих решений. Демонстрационный макет РАСПАС был показан в аналитическом отделе Совета Федерации РФ, в Счетной палате, в ряде финансовых компаний и всюду получил высокую оценку.
Весной 2001 г. описание функций и постановка задач на разработку системы РАСПАС были опубликованы в интернете на одном из сайтов компании www.nlgroup.ru.
В период 2001-2002 г. в компании велись инициативные технологические разработки.
Летом 2001 г. была поставлена задача создания специального инструментального языка высокого уровня, поддерживающего алгоритмы обработки текстов по содержанию. Были осуществлены первые эксперименты с моделями лингвистического и категориального анализа неформализованных текстов на естественном языке.
Летом и осенью 2002 г. было разработано ядро ConExT.
В результате были созданы: - словарь русского языка RuDict ,
- язык высокого уровня tExp для создания прикладных программ обработки текстов,
- прикладные программы, обеспечивающие синтаксический разбор предложений текста,
- прикладные программы, обеспечивающие извлечение из текстов знаний о физических и юридических лицах, о мнениях и высказываниях персон по определенным предметам, о коммерческих отношениях между производителями, дилерами и потребителями продукции.
- Модели лингвистического и категориального анализа текстов и понятийного синтеза содержания, принципы и методики создания специализированных приложений технологии.
К началу 2003 г. в целом закончен первый этап разработки ConExT: ядро технологии позволяет моделировать содержание неформализованных текстов на естественном языке и извлекать из текстов различные знания.
В перспективе ближайших разработок: - Реализация на базе технологии ConExT различных приложений, как для собственных разработок компании НооЛаб, так и заказных;
- Наращивание функциональных возможностей: создание программ аннотирования текстов, определения жанров текстов, реконструкция системного устройства содержания текста в целом и т.д.
- Создание специализированной библиотеки классов UML для моделирования содержания текстов при решении задач аналитики и поддержки принятия управленческих решений.
- Расширение возможностей языка tExp (создание генератора текстов, наращивание скорости обработки).
- Создание механизмов самоорганизации и самообучения в системах ConExT.
- Создание базы знаний на основе Е5 сетей, реализующей идеи различных прикладных логик: "субъективной", "темпоральной", "содержательно-генетической" и др.).
|