Лаборатория информационных технологий
НооЛаб - создание сайтов, программное обеспечение, инновационные проекты
на главную поиск карта сайта
создание сайтов, порталов, веб-систем бизнес-системы, базы данных, CRM, CMS, АРМ инновационные проекты, искусственный интеллект, базы знаний, анализ текстов
web-development software development AI (artificial intelligence)
Создание сайтов и другие веб-услуги Программное обеспечение Исследования, НИОКР

Общее описание ConExT

Аннотация

Задача автоматизации извлечения знаний из текстов

Общее описание ConExT

Настройка ConExT для приложений

Области использования ConExT

РАСПРОДАЖА ДОМЕНОВ

Продаем домены, не нашедшие реализации в наших Интернет-проектах:

По вопросам приобретения пишите: noolab@yandex.ru

НАШИ ПАРТНЕРЫ

REG.RU - партнер по регистрации доменов в зонах .RU, .SU и .РФ.

Подробнее об услугах регистрации доменов

КОНТАКТЫ

e-mail: noolab@yandex.ru

Телефон сообщается по запросу

Все контакты и реквизиты

ОБЪЯВЛЕНИЯ


ГЛАВНАЯ

Исследования

CONEXT

Общее описание CONEXT

Области использования ConExT

ВОЗМОЖНОЕ ИСПОЛЬЗОВАНИЕ ConExT


Текст - базы данных (T2DB)


До недавнего времени информационные технологии "добычи данных" (data mining) позволяли автоматически заполнять базы данных только числовой, или специально формализованной и стандартизированной текстовой информацией.

ConExT создает принципиально новую возможность - автоматически заполнять БД информацией из неформализованных текстов на естественном языке.

Становится возможным использовать мощные и отработанные технологии различных СУБД в новой области - для поиска и аналитической обработки больших массивов текстов (анкет, новостей, аналитических обзоров, объявлений, материалов из СМИ и т.д.).

ConExT позволяет обрабатывает тексты жанра деловой прозы, извлеченные пользователем из интернета/интранета или любых других хранилищ информации. Технология обеспечивает автоматическое выделение из текстов простых сведений об объектах, таких как

  • товары и цены,
  • компании и их атрибуты, адрес, телефон, электронная почта и т.д.
  • персоны, их должности, адресе и т.д.,
  • географические названия,
  • даты и временные характеристики событий,
  • и т.д.

Выделенные сведения заносятся в базы данных.



Данная функция ConExT ориентирована на использование

  • разработчиками программных средств и информационных технологий для разработки различных интеллектуальных сервисов и предложений;
  • интернет-технологами для автоматической обработки контента интернет-сайтов (досок объявлений, анкет, каталогов, и т.д.);
  • маркетинговыми подразделениями компаний, формирующими базы данных о клиентах, конкурентах, товарах и услугах на рынке;
  • кадровыми, риэлтерскими и др. агентствами для автоматизации обработки анкет и объявлений;
  • и др.

Е-Я интерфейс: запросы на естественном языке к базам данных


ConExT позволяет создать удобный для непрофессионального пользователя интерфейс между человеком и базой данных. Человек вводит запросы в произвольной форме на естественном языке, а ConExT автоматически "понимает" содержание запроса и переводит его в формальный запрос к базе данных.


Рис.1. Схема ЕЯ-интерфейса к базам данных

Примеры запросов:

  • Есть ли мобильники Sony дешевле $200?
  • Книги, журналы, изданные позже 2001 г., в которых есть методики интернет-маркетинга.
  • Что сказал господин Иванов про господина Петрова в интервью?
  • Кто упомянут в последних новостях в связи с выборами мэра города?

Эта функция ConExT может найти применение во всех случаях, когда человеку нужно сделать запрос по смыслу дела, и легче всего выразить этот смысл в обычной речевой фразе. Такой сервис может предоставляться пользователям в следующих областях:

  • поиск товаров в электронном магазине;
  • SMS-сервисы в системах мобильной связи;
  • поиск на сайте;
  • управление корпоративными знаниями и автоматизация документооборота
  • и др.

Случаи использования

1) Выбор покупки в электронном магазине

Чем шире ассортимент, тем труднее покупателю ориентироваться в обилии предлагаемых товаров. Даже хорошие каталоги не всегда помогают: во-первых, не все могут с ходу освоить структуру каталога, а, во-вторых, очень часто покупатель лишь смутно представляет, что именно ему нужно. Обычный поиск по ключевым словам в таких случаях малоэффективен: покупатель ведь ищет товар, названия которого нередко и не знает, а не слово.

С помощью ConExT электронный магазин сможет предоставить клиентам уникальный сервис. Покупатель может запрашивать информацию в произвольной форме, по смыслу дела, и при этом поиск товаров будет эффективным - легким, удобным и точным.

Поясним на примере торговли книгами.

Зачастую покупатель не помнит имени автора, точного названия книги, но достаточно хорошо представляет себе, какое именно содержание его интересует. Если бы у покупателя была возможность посоветоваться с консультантом-библиографом, он, несомненно, нашел бы нужную книгу и сделал покупку. Дело в том, что консультант знает книги не только по их названиям, но и по их содержанию, хотя бы на уровне аннотаций. ConExT позволяет заместить человека-консультанта интеллектуальной компьютерной технологией. За счет обработки аннотации с помощью ConExT, для каждой книги может быть сформирована своя модель содержания книги. Эти модели хранятся в БД, связанной с каталогом. Поиск является эффективным потому, что запрос пользователя соотносится с содержательными характеристиками книг.

2) Повышение эффективности использования интернет-сайтов

Пользователи интернета давно на опыте убедились: поиск по сайту в подавляющем большинстве случаев является лишь ненужным украшением веб-странички. В этом нет ничего удивительного: посетитель обращается к помощи поисковика, поскольку не может сориентироваться в незнакомом сайте; но именно поэтому посетитель и не может угадать, какие слова являются "ключевыми" на данных веб-страничках.

Вместе с тем этот случай аналогичен описанному выше поиску нужной книги. Аналогично реконструкции содержания книги по ее аннотации, может быть реконструировано и содержание каждой веб-странички сайта. За счет этого можно наладить эффективный поиск на сайте по содержанию.

3) SMS-сервисы мобильной связи

Рынок мобильной связи динамично растет, операторы испытывают активную конкуренцию за число клиентов. Одним из перспективных сервисов, продвигаемых на рынке мобильной телефонии, является SMS.

SMS можно использовать и новым образом - в качестве средства поиска оперативной информации. Владелец мобильного телефона мог бы, формулируя свой запрос в произвольной форме, получать оперативную информацию о движении поездов и самолетов, о культурных программах, ценах на товары и многом другом.

Для создания подобного сервиса необходимо оснастить SMS-почту интеллектуальными технологиями распознавания текстов типа ConExT и "подключить" к базе данных, в которой накапливается информация от рекламодателей, диспетчерских службы и др.

Предоставляя клиенту возможность вводить запрос в произвольной форме, ConExT позволяет сделать обработку SMS запросов автоматической, поиск и выборку ответов на запрос быстрыми и точными. Автоматизация понимания SMS запросов делает качество услуги практически независящим от роста числа клиентов, интенсивности запросов, объема контента справочной информации. Применение интеллектуальных технологий может создать добавочную потребительскую ценность услуг мобильной связи, обеспечить операторам связи конкурентное преимущество.

Система автоматического мониторинга и анализа маркетинговой информации в интернете


Эскизный проект системы

Новый тип систем аналитики и информационной разведки


Постановка проблемы

Часто для принятия решения деловому человеку, финансисту или политику нужно иметь точное знание о некоторой ситуации: вокруг каких ресурсов идет борьба? кто участники? как между собой они связаны? как начнут развертываться события во времени?

Но если исходных сведений недостаточно, необходима исчерпывающая информация. Обычно информацию собирают из дополняющих друг друга источников: от друзей, из прессы, из телевизионных передач: Важнейший информационный канал - Интернет. Профессиональная работа современного делового человека немыслима без использования ресурсов электронной сети. В Интернете собираются сведения из печатных изданий, независимых аналитических центров, информационных агентств. Эта информация накапливается в информационных узлах - крупных порталах.

Безусловно, Интернет - уникальное хранилище информации. Но так ли уж доступны необходимые сведения? Реальность такова, что каждый из источников высвечивает только некоторую часть ситуации и с некоторой частной точки зрения. Информация о единой ситуации оказывается рассыпана, как осколки зеркала! Мало того, что нужная информация разрозненна, рассредоточена в массе различных текстов. Она еще и похоронена среди тысяч и миллионов других сведений. Интернет оказывается не столько источником, сколько братской могилой информации!

Приходится проделывать большую и тяжелую работу. С помощью поисковых систем "Яндекс", "Рамблер" и др. раскапывать документы. "Вручную" отсеивать "мусор" - похожие, но не относящиеся к делу тексты. Выискивать нужные сведения и приводить их в систему, чтобы уяснить целостную картину события. Это стоит многих времени и сил. При том, что важные косвенные и неявные связи, слабые сигналы развития событий при подобной технологии зачастую просто недоступны и остаются "невидимыми"!

Путь решения: переход от информационных технологий к знаниевым (эпистемологическим) технологиям

Коренным образом изменить положение и разрешить указанную проблему можно, с нашей точки зрения, только перейдя от информационных к знаниевым технологиям. Важнейшим элементом знаниевых технологий должны стать механизмы реконструкции содержания текстов (ConExT). Примером реализации нового подхода является программный комплекс РАСПАС, инициативную разработку которого компания НооЛаб ведет с осени 2000 г.

РАСПАС должен стать принципиально новым инструментом информационной разведки и аналитики, знаниевого оснащение управленческих мышления и деятельности.

В отличие от, скажем, "Яндекса", в РАСПАС предполагается осуществлять поиск документов не по ключевым словам, а по содержанию. РАСПАС должен реконструировать содержание текстов - кто? с кем? по поводу чего? когда? где? При этом по многим различным документам в базе знаний должна строится единая структурная модель ситуации.

Используя РАСПАС, можно получить:

  • сведения о полном составе участников и действующих лиц ситуации;
  • тексты их высказываний о ситуации и друг о друге;
  • сведения о их связях, характере действий, целях и т.д.;
  • знания о временной динамике происходящих событий;
  • знания об источниках, освещающих событие.

РАСПАС должен обеспечивать непрерывное информационное отслеживание ситуации, построение прогнозов развития событий и их фактическую проверку.