|
|
Экспертная информационно-поисковая система, основанная на семантической сети
Елашкина Анна (elashkina@noolab.ru), 12.08.2008
Труды международной научно-технической конференции "Информационные системы и технологии - 2000" НГТУ, Новосибирск, 2000г.
Доклад от компании НооЛаб / см.также тезисы к докладу /
Содержание
АннотацияПредложена логико-математическая модель для организации базы знаний при построении Экспертной Информационно-Поисковой Системы. Модель представляет собой пятимерное векторное пространство, характеризуемое тождественностью операнда и оператора и выполнением принципа рекурсии. Модель носит название "Каузальной логики" и позволяет организовать семантическую обработку неформализованной информации, находящейся в сети Интернет. Описан ряд реализованных на основе данной модели программных алгоритмов.
Постановка задачиЭкспертная Информационно-Поисковая Система (ЭИПС), должна действовать в глобальной сети Internet для решения задач поиска и экспертизы информации. В общем случае информационное наполнение Internet является хаосом неформализованной (зачастую в принципе плохо формализуемой) информации. Эффективно обрабатывать такую информацию способна система со следующими функциями: - семантический (смысловой) анализ запросов пользователя и хранящейся в сети информации,
- общение системы с пользователем в диалоговом режиме,
- взаимообучение системы и пользователя путем задавания наводящих вопросов.
Таким образом, задача состоит в построении информационной системы (ИС), которая бы реализовывала некоторые функции живого мозга. С этой целью построена логико-математическая модель "Каузальная логика", реализуя которую, ИС может выполнять указанные в постановке задачи функции.
Краткая характеристика "Каузальной логики"Положенный в основу модели необходимый и достаточный набор базисных функций без каких-либо принципиальных ограничений обеспечивает требуемый набор свойств мозга. В том числе: отображение внешнего и внутреннего мира; синтез случайной и детерминированной активности; композиция отображений; формирование абстракций и целей; прогнозирование; оперативная, кратковременная и долговременная память для хранения абстракций разного уровня в виде пирамиды знаний; обучаемость; а также автономное или управляемое из внешнего мира мышление.
Процесс мышления и структура знаний моделируются с помощью конструируемого для этих целей пространства. Исходный базис такого пространства состоит из компонентов закона отражения (отражаемый объект, отражающий объект, след), производный базис ? из компонентов акта познания (объект, субъект, аспект, базис, след), а структура определяется каузальной логикой, разработанной в составе предлагаемой модели.
Следствием создания булевой алгебры явилось математическое понятие ? пространство булевых функций (пространство с булевой структурой).
Цифровые компьютеры ? это искусственная материальная среда, реализующая пространство булевых функций, с помощью которых пользователи компьютеров, в конечном счете, кодируют знания и имитируют мышление. Реальное мышление в живом мозге реализует не булево пространство, а множество актов отражения.
Таким образом, решение проблемы механизма мышления состоит не в том, чтобы конструировать знания из математики, булевой алгебры и существующих логических исчислений, а в том, чтобы конструировать математику, логические исчисления и прочие знания из тех элементов, которые реализуют мозг, т.е. из актов отражения. Выбранный базис ej уникален тем, что, в отличие от базисных понятий математики и существующих логических исчислений, его компоненты абстрактны, а соответствующие им координаты xj, как компоненты актов отражения, конкретны.
То есть модель знаний, конструируемая в терминах ej, адекватно отображается в материальной среде мозга в терминах xj.
Каузальная логика определяет структуру пространства с базисом ej и позволяет конструировать средствами одного и того же языка модели пространства знаний, процесса мышления и материальной среды мозга. В отличие от существующих логических исчислений в каузальной логике множество операций принадлежит множеству операндов; оба множества счетны и могут содержать неограниченное число элементов. По аналогии с булевой алгеброй, которая служит языком машинного уровня для цифровых компьютеров, каузальная логика является языком машинного уровня для информационной системы, моделирующей работу живого мозга.
Метод формализации знанийПредлагается язык высокого уровня с именем Е-язык. Такой язык является следствием каузальной логики и дополняет ее при описании процесса мышления.
Кроме того, этот язык может использоваться в качестве неизвестного ранее инструмента представления неформализуемых (плохо формализуемых) знаний.
В основу языка Е положен не элементарный акт отражения в мозге, а генетически обусловленная актами отражения структура акта познания, т.е. свернутая модель большой совокупности актов отражения, реализуемых в активной области мозга в процессе акта познания.
Е-язык принципиально отличается от всех традиционных методов и языков формализации и представления знаний. Отличие состоит в том, что базисом представления знаний служит не структура какой-либо субъективной родо-видовой классификации знаний, а реализуемая мозгом и поэтому объективная структура акта познания.
Модель акта познания ? это пять взаимосвязанных компонентов: объект, субъект, аспект, базис, след. Эти пять компонентов служат базисом ei (i =1, 2, 3, 4, 5) пространства знаний Е.
Формируется пространство Е или любые его области пользователем языка Е по мере необходимости с помощью присвоения средствами любого языка, включая язык Е, имен или данных с подходящей семантикой переменным координатам xi (i =1, 2, 3, 4, 5) в базисе ei. При этом пользователь руководствуется рекурсивным правилом, согласно которому каждое значение, присвоенное ранее любой из координат xi, при необходимости может быть также описано, в том числе неоднократно, в качестве значения координаты x1 в том же базисе ei.
В качестве координаты x1 в базисе еi можно описывать не только компоненты вектора xi, но и сами векторы xi или их совокупности, т.е. области пространства Е, причем в разных аспектах, например в аспекте описания логической структуры области пространства Е.
Это позволяет расширять любое описание как от общего к частному, так и от частного к общему. Таким образом, структура пространства Е, представленная в виде строки текста, оказывается расширяемой в обе стороны системой вложенных скобочных форм, формируемых из векторов xi, а представленная на плоскости оказывается семантической сетью или фреймом. Но, в отличие от последних, семантическая и логическая структуры знаний в пространстве Е адекватно повторяют друг друга, первая в виде семантики связанных в систему векторов xi, а вторая в виде векторов ei. Это позволяет формировать области пространства Е по мере необходимости и с той свободой, которая характерна для естественных языков. При этом можно не заботиться о предварительном построении логической структуры знаний, как этого требуют фреймы, и о полноте описания, т.к. его всегда можно дополнить позже, поскольку предварительной логической структуры и обусловленных этой структурой ограничений в пространстве Е нет.
Е-язык может служить основой для технологии структуризации знаний, неформализуемых традиционными методами, а также для создания универсального языка программирования на цифровых компьютерах. Такой язык реализует в базах знаний не только дедуктивные, но и любые ассоциативные связи в пределах возможности различить цифровыми компьютерами грамматику и терминальный алфавит языка.
Использование новой логико-математической модели на цифровых компьютерах позволяет приблизится к решению следующих задач: - Отойти от принципа сущность-связь (или сущность-атрибут-связь), так как в новой логике это все суть объекты.
- Пополнять БД со свободой, характерной для естественных языков. Нет необходимости в предварительном построении логической структуры знаний, как этого требуют, например, фреймы и в полноте описания, так как его всегда можно дополнить. Нет предварительной логической структуры и обусловленных этой структурой ограничений. Семантическая, логическая и физическая структуры БД совпадают.
- Разбирать на элементы (анализировать) информацию на наиболее глубоком и общем уровне. Элементы однотипны и физически и логически. Информацией может быть текстовая информация на естественном языке или языках программирования, графическая информация, структура классификации, таблица и др.
- Выделять общее во вводимой информации. Производить абстрагирование, семантическое сжатие.
- Получать обратной сборкой (синтезом) как исходные структуры, так и любые другие, требуемые для решаемой задачи.
- Вводить новую информацию без переиндексации БД.
- Строить новые классы данных по любым аспектам, на основе любых данных. Для известных БД проблемой является изменение аспектов классификации при занесении новой информации. В основанной на каузальной логике БД аспекты классификации являются обычными данными. Это означает, что они доступны семантической обработке. Предварительная классификация вводимой информации необязательна.
- Хранить информацию в БД в виде образов. Информация, занесенная в БД, либо находящаяся во внешнем относительно БД мире (дискеты, печатные тексты), может иметь в БД образ. Образ, формируемый с помощью семантической сети более полный и контекстно-связанный, чем, например, ключевые слова, гипертекстовая разметка и т.п.
- Унифицировать большие объемы разнородной информации вплоть до имеющихся в компьютере исполняемых программ.
- Заносить алгоритмы "разборки" и "сборки" информации в БД в едином формате данных.
- Реализовать инвариантность структуры БД относительно вида компьютера и операционной системы.
- Обрабатывать любую плохо формализуемую информацию.
Перечисленные возможности являются необходимыми для реализации описываемой ЭИПС. Подобная система состоит из механизма сбора и анализа плохо формализованной (неформализованной) информации, механизма поиска информации на основании запроса пользователя, механизма анализа (экспертизы) имеющейся информации с целью ответа на те запросы, ответ на которые отсутствует среди собранной информации в явном виде.
Анализ неформализованной информации, абстрагирование, синтез новой информации (экспертных выводов), образное хранение информации (хранение семантики) позволяют достичь качественно нового решения задачи построения ЭИПС.
Алгоритмизация "Каузальной логики"Первым шагом реализации предлагаемой "Каузальной логики" на цифровом компьютере является формирование искусственного пространства актов познания - пятимерных векторов. Это реализуется путем создания базы знаний (БЗ), которая основана на специальным образом организованной базе данных (БД). На уровне БД реализуется единое пространство записей с виртуальной системой адресации, которые могут быть любым образом связаны друг с другом, а также могут ссылаться на актуальное содержание реального мира, внешнего по отношению к БД/БЗ. На уровне БЗ множество записей БД интерпретируется как пространство пятимерных векторов, организуется и используется по законам Каузальной логики. Пространство векторов в общем случае однородно.
На уровне БЗ определяются правила связывания векторов между собой, правила их связывания с актуальным содержанием реального мира и правила представления заложенной в векторах семантики вовне. Все это по существу является множеством операций, определенных над векторами. Множество операций потенциально может принадлежать множеству операндов, то есть храниться в той же БЗ. Реально операции могут быть заложены в программную часть ИС, реализующей Каузальную логику, это требуется по причине необходимости трансляции виртуальных операций/операндов Каузальной логики в реальные операции/операнды цифрового компьютера с конкретной архитектурой и системой команд.
БД, на которой может быть основана описываемая ИС, должна реализовывать сетевую модель организации данных, при этом записи такой БД должны быть, как минимум, пяти-связными. Для возможности гибкого определения операций над векторами БД должна отвечать объектно-ориентированным технологиям программирования.
Вторым шагом создания предложенной ИС - ядра описанной при постановке задачи ЭИПС - является оптимизация механизмов, действующих при выполнении над пятимерными векторами различных операций. Эта задача вызвана тем, что реально любой вектор в БЗ косвенным образом связан с любым другим. Полное и прямолинейное выполнение операций над векторами, которое свойственно алгоритмам цифровых компьютеров, приводит к тому, что в процессе выполнения любой операции оказывается задействованным любой вектор. Это ведет к невозможности обрабатывать БЗ в реальном масштабе времени.
Задача оптимизации решается, главным образом, настройкой глубины выполнения тех или иных операций, внесением механизма предсказания ветвей сети, которые не требуют обхода при выполнении операции, введением временного ограничения на выполнение той или иной операции. Эти задачи решаемы, но значительной работы требует настройка данных механизмов для работоспособности ЭИПС на реальном компьютере ограниченной производительности с выполнением реальных практических задачах за удовлетворительное время.
ЗаключениеВ докладе описаны методы решения поставленной задачи - построения экспертной информационно-поисковой системы. Главный метод решения - реализация ИС, основанной на Каузальной логике, позволяет решить задачу на качественно новом уровне. Это может быть несколько ограничено вычислительными возможностями современных компьютеров, для архитектуры и системы команд которых не свойственны операции Каузальной логики. Но те части описанной системы, которые реализованы на практике, дают экспериментальное подтверждение реализуемости предложенной модели на современном цифровом автомате.
Елашкина Анна (elashkina@noolab.ru), 12.08.2008
руководитель отдела исследований компании NooLab (Новосибирск)
|