Задача автоматизации извлечения знаний из текстов В интернете и корпоративных сетях содержится огромное количество информации в виде неформализованных текстов на естественном языке. Но при существующих сегодня информационных инструментах человеку приходится тратить огромное количество времени и усилий для того, чтобы добыть знания, необходимые для решения практических задач. Парадоксальность ситуации в том, что чем больше информации предоставляет человеку компьютеризированный мир, тем более недоступными становятся знания.
Например, деловому человеку или политику часто необходимо знать о некоторой практической ситуации: вокруг каких ресурсов идет борьба? кто участники? как между собой они связаны? как начнут развертываться события во времени? Менеджеру и маркетологу нужно знание о рынке: какая фирма производит определенную продукцию? кто ее поставщики? кто конкуренты? какие маркетинговые акции проходят на рынке?
Чтобы эффективно получать ответы на подобные вопросы, нужно иметь технологии извлечения знаний из массивов текстовой информации. Знания - всегда знания о некотором объекте. Поэтому знаниевые технологии должны обеспечивать обработку текстов по содержанию: реконструировать описанные в тексте объекты.
Допустим, автор текста сообщает о некоторой реальной ситуации, выражая при этом свою точку зрения, освещая ситуацию с определенной стороны.
Читателю важны знания о том, что описано в тексте, поэтому он восстанавливает в мысли и понимании то, что как бы "стоит за словами" - объективное содержание текста, устройство самой ситуации. Кроме того, читателю бывает важно знать о источнике сведений, и вносить в картину ситуации поправку на точку зрения автора.
"Научить" компьютер такому "умному пониманию" текстов - одна из самых актуальных и сложных задач в области искусственного интеллекта, компьютерной лингвистики и логики.
Компанией НооЛаб, в ходе многолетних комплексных разработок в указанной области, создано ядро технологии автоматической реконструкции содержания текстов на естественном языке - Content Extracting Technology (ConExT).
ConExT позволяет обеспечить реконструкцию и моделирование объективного содержания текстов - структуры ситуации: субъектов, объектов, взаимосвязей между ними, в том числе и неявных, динамики изменения ситуации во времени, и т.д.
Разработка ConExT создает богатые возможности для поиска и семантического анализа текстовой информации, извлечения знаний, заполнения баз данных по материалам неформализованных текстов, хранящихся в архивах и т.д.
ConExT является открытой технологией, на основе которой можно легко создавать различные приложения для решения конкретных задач, связанных с обработкой неформализованных текстов. |