Лаборатория информационных технологий
НооЛаб - создание сайтов, программное обеспечение, инновационные проекты
на главную поиск карта сайта
создание сайтов, порталов, веб-систем бизнес-системы, базы данных, CRM, CMS, АРМ инновационные проекты, искусственный интеллект, базы знаний, анализ текстов
web-development software development AI (artificial intelligence)
Создание сайтов и другие веб-услуги Программное обеспечение Исследования, НИОКР

Статьи

Интернет - 5

Искусственный интеллект и самоорганизующиеся системы - 14 / 5

Прикладные системы - 2

Разное - 2 / 2

Управление знаниями - 3

Философские, логические и антропологические исследования мышления - 6 / 5

Новое - 12 материалов

РАСПРОДАЖА ДОМЕНОВ

Продаем домены, не нашедшие реализации в наших Интернет-проектах:

По вопросам приобретения пишите: noolab@yandex.ru

НАШИ ПАРТНЕРЫ

REG.RU - партнер по регистрации доменов в зонах .RU, .SU и .РФ.

Подробнее об услугах регистрации доменов

КОНТАКТЫ

e-mail: noolab@yandex.ru

Телефон сообщается по запросу

Все контакты и реквизиты

ОБЪЯВЛЕНИЯ


ГЛАВНАЯ

Статьи

Добывать знания или управлять ими?

Русин Александр Олегович, 12.08.2008



Периодически наталкиваясь на темы KM и DM (knowledge management и data mining), не всегда отдаешь себе отчет в том, что это, в действительности, ортогональные друг другу и в некоторой степени даже конкурирующие направления.

А местами, пожалуй, даже противоположно направленные.

Первое (KM) - это управление знаниями. Когда знаний становится много, они распределяются по разным носителям (между разными обладателями), по-разному интерпретируются и так далее... - появляется необходимость управления. Чтобы, к примеру, менеджер Вася свои знания о клиентах вел в системе, доступной и понятной менеджеру Пете. И наоборот. И еще в идеале эта система должна быть понятна их шефу. И если менеджер Вася слишком привык к своей собственной системе, которая никому другому недоступна - то в принципе он может дублировать свои знания и там, но это тоже плохо, поскольку противоречит стройной идее управления, управляемости и управлябельности. Ими, знаниями...

Второе же (DM) - это когда нужно извлекать данные из... из, цензурно выражаясь, сумбурного потока нулей и единиц. Данные или знания - здесь даже не столь важно, потому что добыть бы хоть что-нибудь. А уж насколько это просто данные, либо сложно-знания... разберемся в дальнейшем. Неявно предполагается, что неизбежно разберемся. Но не суть. Суть в том, что DM нужен тогда, когда "KM" уже "пролетел мимо кассы" (то есть знания вышли из под контроля и превратились в сумбурно-бредовый поток байтов). Либо когда информация порождена в прошлом, в первобытные времена недоступности современных KM-техник. Либо - когда информация порождена современниками, но не такими продвинутыми как мы и не использующими наши великие KM-техники. Либо - что самое смешное (а в действительности - очень грустное) - когда (!) записи порождены в KM-системе, но просто-напросто отличной от нашей и потому интерпретировать их "правильно" мы не можем, и наша KM-система их в качестве знаний не воспринимает.



В идеале, конечно, все знания должны быть знаниями. Допускать их скатывания к первобытному потоку байт нельзя. Мы знания породили - пусть теперь только управляются, воспроизводятся и приумножаются. Но, в действительности, это фантастика и даже не научная. Потому что наука говорит о том, что KM-система обязательно сводится к формализации, разбавленной элементами искусственного интеллекта. Границы и "прелести" формализации - известны, на примере любой бюрократии. Далеко на формальных системах на знаниевом поприще не уедешь. Про искусственный интеллект - вопрос тоже открытый и бытовавшие в прошлом светлые мечты порядком поблекли. Да и может ли ИИ стать панацеей?

Тут с естественным, натуральным интеллектом в виде менеджеров Васи и Пети - и то проблема. И необходимость KM как раз в том и состоит, что тот же Вася - уникален. Если у него появляются эксклюзивные знания, никуда не отчужденные и никому не переданные - то риск увольнения Васи очень неприятен. Таким образом, искусственный интеллект - всего лишь способ найти некую золотую середину. Потому что ИИ - он при своем развитии тоже неизбежно получит черты уникальности: данная конкретная инсталляция какого-нибудь продукта "MS Интеллект XP" после годика обучения тоже станет такой уникальной и неповторимой, что ее потеря в результате действий вируса станет не менее опасной, чем увольнение Васи, а вероятность, как-никак - гораздо больше. Потому что Васю еще можно убедить остаться в фирме, а если не убедить - то заплатить ему чтобы в течение недельки-другой передал все ключевые знания преемнику. А вот с уничтоженной вирусом базой знаний "MS Интеллект XP" - уже ничего не поделаешь. Кто сказал про резервные копии? Выйти из строя, пусть все смотрят на оптимиста, утверждающего, что есть каска и пуля нипочем. Ню-ню...

Таким образом, мы доказали, что тотальный KM невозможен. В какой степени он возможен - большой вопрос. Но не это главное. Важно заметить еще то, что у KM есть очень серьезный побочный эффект и факторы, которые будут препятствовать его развитию. Побочный эффект - прозрачность, небезопасность и потеря конфиденциальности. Любому специалисту по информационной безопасности известно, что один из лучших способов закрыть информацию - просто организовать беспорядок. Потому что в хорошо организованном хранилище удобно рыться и сотрудникам, и шпионам. А вот там, где бардак - свои ориентируются на порядок лучше, а шпионы к тому же своими бессистемными попытками поиска секретов и матерными выражениями, символизирующими неудачи - даже привлекают внимание и оказывают помощь контрразведке. Шутки шутками, но в действительности данный эффект очень реален. Представьте себе столы двух менеджеров: у первого - все по-порядку, договора отсортированы, разложены по папкам, снабжены подписями; у второго - беспорядок, реальные договора перемешаны с черновиками, часть документов просрочена, часть - в виде копий неясной юридической силы. Так на каком столе проще определить объем совершаемых сделок и узнать имена VIP-клиентов?

Но есть у KM не только описанный эффект, а также сильные противодействующие факторы, которые будут мешать его внедрению в особо планетарных масштабах. Имеются ввиду различные стандарты, конкурирующие технологии и фактор "под ключ". Нет никаких сомнений, что единство стандартов, форматов и протоколов не распространится далеко за пределы низкого уровня. Чем выше уровень, чем ближе к прикладным проблемам, чем ближе к знаниям - тем больше зоопарк всевозможных решений, совместимых и несовместимых, взаимосвязанных и противоречивых, родственных и конкурирующих. Так было и, судя по всему, так будет. Велико влияние и фактора "под ключ". По совершенно понятным причинам самые эффективные и продвинутые KM-решения являются либо разработками "под ключ", либо очень универсальными средствами, доводимыми и настраиваемыми штатными IT-специалистами корпорации "на месте". И это тоже не способствует совместимости и переносимости.

А что значит несовместимость и непереносимость KM-систем? Именно тот смешной/грустный случай, когда база знаний одной KM-системы для другой - является чужеродной, бессмысленной и ничем принципиально не отличающейся от "старообрядных" плоских данных.



Мало-помалу пришли к тому, что идеал нам не светит и знания не смогут быть знаниями всегда и везде, обязательно начнут скатываться к первобытному состоянию в виде потока битов и байтов. Что в общем-то логично, поскольку прекрасно согласуется с общей теорией информации и известными законами об энтропии.

Итого - все-таки поток битов и байтов. Но для него у нас как раз-таки существует другой класс решений - DM (data mining). Принцип прост: из руды извлечем драгоценные металлы, а потом предадим их рукам ювелиров. Получим знания, ничем не хуже первородных. А, возможно, даже лучше.

И как бы получается все хорошо. Особенно если учесть, что потенциально может существовать DM-система для восстановления любого типа знаний из любой информационной помойки (прошу прощения за грубость). Универсальная система для извлечения любых знаний из любого места - это, конечно, идеализация. А вот система под извлечение конкретного типа знаний из конкретного места - пожалуйста. Самый работоспособный на сегодня пример таких систем - человеко-машинные комплексы в виде экспертов, вооруженных более-менее хитрым инструментарием для повышения эффективности работы. Например, для поиска нужных клиентов - такая система строится из оператора, уверенно владеющего техниками веб-серфинга, и компьютера, с которого можно комфортно бродить по сети (в частности - пользоваться поисковиками).

А учитывая, что прогресс порождает все более и более автоматизированные системы по поиску, классификации и реферированию, то, надо полагать, с каждым годом качество DM-операций будет только расти.



Но не тут-то было. Если взглянуть на оба подхода - и KM и DM, то при внимательном рассмотрении получается, что они в некоторой степени противодействуют друг другу. По крайней мере в том, что обе - приводят к массированному и не всегда контролируемому умножению контента, то есть - информации. Заметьте, не знаний! А именно информации. Битов и байтов.

Первая - KM - приводит к порождению информации в том смысле, что обобществление знаний в рамках любого коллектива - от маленькой группы до крупной корпорации - обязательно носит характер избыточности. Не буду приводить здесь доказательств - поверьте, это так. Кроме того, каждый раз при создании общедоступных баз знаний (Интранет/Экстранет-шаринг, публикация в вебе) - они незамедлительно будут приводить к порождению массы более или менее организованных цитирований, заимствований и т.п., и даже в первоисточнике - для кого-то будут представлять знания, а для кого-то - неструктурированный контент.

Вторая - DM - приводит к порождению новой информации в чистом виде. Все результаты работы DM-системы являются пересказами, переводами, новыми интерпретациями, альтернативными оформлениями или даже просто копиями существующей (!) информации. Более того - для кого-то результат работы DM является знаниями, полученными из неструктурированных данных. Но для кого-то - с точностью до наоборот: хорошо структурированные данные превращаются в нечто бессвязное - лишь оттого, что способ интерпретации, формат, протокол - стал другим.

Снова приходим к безудержному порождению шума и увеличению энтропии. Пытаемся управлять знаниями - возникает избыточность. Пытаемся публиковать - они начинают терять форму стройно формализованных знаний. Пытаемся совершать раскопки - возникает дублирование и шум. Где прогресс? К чему все это?



Вот теперь-то настало время для сравнительно простых и далеко идущих выводов, ради которых и затеяна эта статья.

KM и DM - несут пользу для того, кто применяет конкретную систему. С той оговоркой, конечно, что эта система вообще является полезной, работоспособной, и применяется корректно. Но даже в этом случае она всегда в явном или неявном виде несет ущерб для внешней среды. То есть - ведет к дублированию информации и ее зашумлению вовне от применяющего KM/DM-субъекта. Притом, внешние субъекты будут неизбежно бороться с появлением такого шума путем применения у себя новых и новых DM-систем. С аналогичными последствиями.

Ситуация в чем-то похожа на экологию. Все шаги человечества по повышению собственного комфорта, вся лестница прогресса - немилосердно потопталась по экологии планеты в прошлом и продолжает это делать в настоящем. Несмотря на полное осознание проблемы и всю тяжесть последствий.

Хотя с информацией и знаниями ситуация более безальтернативная. Потому что в реальной жизни есть технологии, которые не нарушают или условно не нарушают экологию окружающей среды. А вот с информацией - таковых скорее всего нет. Как было показано выше, хоть KM, хоть DM (являющиеся в чем-то противоположностью друг другу) - неизбежно приводят к порождению новых и новых битов-байтов. И далеко не для всех они будут знаниями, для многих - они опять же будут неструктурированным потоком ASCII.



Однако следует задаться вопросом: есть ли этому предел? Ведь бесконечное дублирование тоже невозможно. Предел, безусловно, есть. Поскольку скорость порождения знаний первоисточниками является ограниченной, и даже все системы автоматического порождения данных (датчики, счетчики, камеры, микрофоны и т.п.) являются устройствами с конечной производительностью - то предела не может не быть. И всевозможные системы дублирования, раскопки, закопки и перекопки данных - тоже не могут порождать бесконечный информационный поток.

Главный вопрос - в том, где же этот предел находится? Каков его порядок?

Ответить на это очень сложно. Для ответа нужно понять, насколько интенсивно будут развиваться системы автоматизированного порождения контента и насколько управляемыми они будут. Насколько будет велик шум от всевозможных KM-систем. Насколько интенсивными будут шлаки, вырабатываемые DM-комплексами. Это предсказать очень сложно.

Представляется очевидным, что тенденция удвоения информации каждые N месяцев в мире в целом и в вебе в частности - будет сохраняться еще по крайней мере 20 лет. Как быстро будет увеличиваться N - большой вопрос. Возможно, на каких-то этапах оно будет даже уменьшаться. Это может быть связано с определенными прорывами в области добычи данных и управления знаниями.

Но также представляется очевидным и то, что несмотря на рост объемов информации и появление всех шлаков - в общем и целом качество и удобство добычи знаний и управления ими также будет расти. Полностью аналогично тому как растет комфорт нашей жизни несмотря на ухудшение экологии за окном. Однако расти удобство работы со знаниями будет в целом, для многих, но не для каждого. Это касается в первую очередь тех, кто будет вооружаться все более и более современными системами управления знаниями, публикации контента, поиска и добычи данных. А кто не вооружится ими? Ну что ж... придется полной грудью вдохнуть загрязненный воздух. Такова плата за прогресс.

Надо полагать, что те технологии работы с информацией, данными и знаниями, которые считаются современными и даже продвинутыми сегодня - станут практически непригодными через 15-20 лет. Также как технологии земледелия, практиковавшиеся до нашей эры, уже непригодны не только для профессиональных фермеров, но даже для садоводов-любителей (попробуйте-ка даже на своих шести сотках обойтись без удобрений, парников, без качественных семян, расфасованных по удобным пакетикам).

Точно также видится и будущее средств работы с информацией, данными, знаниями. Когда доля практически полезных данных в пересчете на объем информации, которую потребуется переработать для этого, сравнится с соотношением веса золота на вес перерабатываемого для его получения грунта, - тогда будет не обойтись первобытным перебором файлов и просмотром в виде "As is". Уже сегодня многие-многие операции совершаются с помощью специализированных программ, требуют работы опытных специалистов, заставляют тратить средства на установку все более новых приложений, на модернизацию серверов, на повышение квалификации и расширение IT-штатов. Так что же говорить о будущем...

Но расширение IT-штатов и модернизация техники не могут выполняться бесконечно. Этому есть объективные причины и ограничения, которые многими компаниями уже достигнуты и вряд ли будут принципиально преодолены. При этом, желание не отставать от лидеров рынка в области KM/DM вооружений никуда не исчезает. Да, к тому же, есть и объективные причины повышать производительность труда персонала, связанного с информационными процессами. В наш-то, в информационный век. К чему это ведет? К дальнейшей разработке средств KM и DM. К инвестициям и заказам в этой сфере. К их росту вплоть до насыщения, которое наступит никак не раньше 5-7 лет и к стабильному сохранению интереса по крайней мере лет на 20.

А, возможно, и дольше...

Русин Александр Олегович, 12.08.2008