Лаборатория информационных технологий
НооЛаб - создание сайтов, программное обеспечение, инновационные проекты
на главную поиск карта сайта
создание сайтов, порталов, веб-систем бизнес-системы, базы данных, CRM, CMS, АРМ инновационные проекты, искусственный интеллект, базы знаний, анализ текстов
web-development software development AI (artificial intelligence)
Создание сайтов и другие веб-услуги Программное обеспечение Исследования, НИОКР

Общее описание ConExT

Аннотация

Задача автоматизации извлечения знаний из текстов

Общее описание ConExT

Настройка ConExT для приложений

Области использования ConExT

ПРЕДЛАГАЕМ СОТРУДНИЧЕСТВО

  • Рекламным агентствам
  • Издательствам и редакциям
  • Поставщикам компьютеров и ПО
  • Юридическим и бухгалтерским компаниям

Сотрудничество предполагает выполнение совместных проектов, совместное оказание комплексных услуг клиентам, взаимодействие по привлечению новых клиентов.

Компания НооЛаб создает и поддерживает Интернет-сайты партнеров на особых условиях.

По вопросам сотрудничества обращайтесь:

Русин Александр
noolab@yandex.ru

НАШИ ПАРТНЕРЫ

REG.RU - партнер по регистрации доменов в зонах .RU, .SU и .РФ.

Подробнее об услугах регистрации доменов

КОНТАКТЫ

e-mail: noolab@yandex.ru

Телефон сообщается по запросу

Все контакты и реквизиты

ОБЪЯВЛЕНИЯ


Itv axxon next там.

Где получить кадастровый план смотри здесь.

ГЛАВНАЯ

ИССЛЕДОВАНИЯ

CONEXT

ОБЩЕЕ ОПИСАНИЕ CONEXT

Общее описание ConExT

Основная проблема автоматического анализа и понимания текста состоит в том, что в письменной речи отпечатано множество принципиально различных структур: формы грамматики языка, коммуникативная окраска высказывания, логическая культура автора, устройство описываемого в тексте объекта.

Эта сложность текста проявляется в том, что одну и ту же мысль можно выразить в совершенно разной форме. Например, про одно и то же отношение между партнерами на рынке может быть написано по-разному:

  • "Завод Х поставляет продукцию компании У"
  • "Крупные поставки оборудования осуществляются заводом Х. В числе его покупателей - компания У"
  • "А я и не знал, что фирма У делает закупки у завода Х!"

Технология должна быть способна отвлечь форму выражения и реконструировать собственно содержание: связь закупки/поставки между Х и У.

Технология ConExT (Content Extracting Technology) обладает именно такой способностью. Она реализует автоматическую интерпретацию текстов по их содержанию и извлечение из текстов знаний об объектах, связях между ними и т.д..

Ядро ConExT включает в себя:

  • декларативный язык программирования высокого уровня tExp, специально предназначенный для создания программ синтаксической и семантической обработки текстов на естественном языке;
  • словарь русского языка Ru-Dict (на основе синтаксического словаря Зализняка);
  • прикладные программы синтаксического анализа текста и перевода его в нормативные лингвистические Е5-структуры;
  • прикладные программы категориального анализа, реконструирующие содержание -объекты, описанные в тексте;
  • принципы и методики спецификации прикладных программ под конкретные приложения;

Общая схема ConExT приведена на рисунке:


В целом, технология может быть охарактеризована как последовательный анализ текста, выделяющий содержательно-значащие единицы, отвлечение этих единиц от их грамматической формы и переход к моделям содержания.

На этом пути с помощью словаря идентифицируются и характеризуются слова текста, выделяются предложения, вплоть до простых переложений в составе сложных. Проводится синтаксический анализ, в частности определяются падежи слов (при этом разрешаются сложные случаи омонимии), выделяются главные члены предложения и др.

Итогом лингвистического анализа является перевод простых предложений (и др. лингвистических единиц) в единую "каноническую" форму Е-5 структуры. Е-5 структура содержит в себе пять элементов (тематические объект и предикат, связка, рематические объект и предикат) и играет роль обобщенной пропозициональной модели.

Полученный результат можно назвать "лингвистическим портретом" содержания. Этот портрет - оптимум того, что нужно узнать о тексте, используя только формально-грамматические и синтаксические признаки, и не привлекая знаний о семантических значениях слов.

В "канонической" пропозициональной модели оказываются отвлеченными многие особенности формы выражения, что и создает возможность перехода к собственно объективному содержанию. Основой реконструкции содержания является категориальный аппарат: именно категории задают тип объектов, описанных в тексте. Для каждой лингвистической единицы строятся модели возможных объектов содержания.

Синтез отдельных объектов в единую систему осуществляется за счет конструктивных моделей, таких, например, как "акт коммуникации", "досье субъекта рынка", "отраслевая цепочка", "событие", "технология публичной политики", "передел собственности" и др.

Извлеченные из текста сведения (или реконструированные модели) передаются на хранение в базу данных (базу знаний), где они являются доступными для последующей формальной обработки, аналитики и т.д.

Описанные выше механизмы реализуются в прикладных программах, написанных на языке высокого уровня tExp. Этот язык специально создан для решения задач структурного анализа неформализованных текстов на естественном языке. Наличие в составе технологии собственного языка программирования обеспечивает высокую гибкость технологии, возможность быстрой настойки на новые приложения.