|
|
СЛОВАРИ RU.DICT Общее описание системы
АннотацияRU.DICT – комплект лингвистических баз данных, сервисов для программного доступа к базам из прикладных систем, а также разнообразного инструментария для редактирования, пополнения, перекомпиляции баз данных. Основное назначение словарей – предоставить прикладным программам информацию о словах. Информация может быть очень общей, либо очень детальной, более или менее точной и достоверной – все это зависит от содержимого лингвистических баз данных. Принципиально система «RU.DICT» может хранить информацию о произвольных словах любого языка с произвольной подробностью. Версия 2 системы комплектуется только базами, наполненными информацией о словах русского языка. Подробность, объем словарей и то, какая информация о словах присутствует в поставляемых базах – детально описано в Приложении № 1.
Метод использования баз RU.DICTСистема RU.DICT предназначена для предоставления лингвистической информации прикладным программам. Основные механизмы работы со словарями ориентированы на это. В пакет также входят утилиты для визуального просмотра словарей, которые позволяют выполнять ряд операций пользователем непосредственно, но это имеет смысл преимущественно в демонстрационных целях или при отладке программ. Также на сайте www.rudict.noolab.ru существует раздел, в котором можно получить доступ к словарям непосредственно с сайта и выполнять некоторые операции по просмотру данных. Базы данных RU.DICT представляют собой набор файлов высокого объема, которые могут быть расположены на сервере, либо рядом с использующим их приложением. В версии 2 системы предусмотрены следующие возможности по доступу к базам из прикладных систем: - В среде Win32 - использование интерфейсов COM/DCOM. Для этого необходимо в системе Windows установить (зарегистрировать) интересующий вариант COM-сервиса системы RU.DICT, после чего лингвистические базы данных становятся доступны для любых языков и сред разработки, которые поддерживают работу с COM/DCOM (OLE).
Существуют следующие версии COM-модулей системы RU.DICT: 1) Inoroc-сервер (DLL), предпочтителен для приложений, которые удобнее распространять и инсталлировать вместе со словарями. 2) Outproc-сервер (EXE), предпочтителен для систем, в которых множество приложений обращается к словарям, либо словари имеет смысл инсталлировать на выделенный сервер. - В среде UNIX – в настоящее время использование словарей возможно только для приложений, разрабатывающихся на Kylix, см. ниже.
- В средах разработки Delphi/Kylix (системы Win32 или UNIX соответственно) - использование внутренних интерфейсов среды. Для этого в среде разработки программисту необходимо подключить к ведущемуся проекту соответствующие библиотеки (DCU) доступа к словарям RU.DICT. В этих библиотеках содержится полный код ядра СУБД, работающего со словарными базами (так называемый вариант “embedded DBMS”). Данный подход удобен тем, что разрабатываемая программа после успешной компиляции не нуждается ни в каких дополнительных действиях для доступа к словарям – установка каких-либо компонент или сервисов в системе не требуется.
Основные виды лингвистических данных, предоставляемых базами RU.DICTОсновные базы данных системы RU.DICT содержат следующую информацию о словах: - Морфологические данные слов:
- Часть речи
- Род
- Число
- Падеж
- Вид
- Время
- Лицо
- Форма (полная / краткая)
- Одушевленность
- Инфинитивность
- Переходность
- Возвратность
- Номинация (собственное, нарицательное)
- Структура (простое, сложное, несоставное, составное, первичное, производное).
- Степень сравнения.
- Семантические данные (знания о словах): для ряда слов определено, имеет ли слово какое-либо подмножество из следующих семантик:время, пространство, принадлежность, причина, следствие, уточнение, детерминант, количество, цель, противопоставление, отрицание, совместность, объект, мысль, речь.
- Специальные атрибуты слов:
- Знак (фамилия, имя, отчество)
- Метатекст
- Анафора
- Фазовый глагол
- Модальный глагол
- Модальность вопроса
- Модальность начала содержания
- Модальность отрицания
Перечисленные виды характеристик слов не означают, что в словарях записана только эта информация. Также это не означает, что для каждого слова в словаре записаны все перечисленные характеристики. Для различных словарей в системе могут задаваться разные списки параметров (атрибутов), которые известны о словах. Перечень параметров слов (словарных атрибутов) – это тоже элемент словаря, каждый словарь имеет собственный набор таких атрибутов. Подробнее о том, какие словари входят в стандартную поставку, какова их полнота и какие атрибуты слов записаны в них – см. Приложение № 1.
Словообразование Важной функцией словарей является возможность найти для каждого слова его нормальную форму, либо наоборот – основываясь на любой форме слова создать любую другую. Таким образом, RU.DICT позволяет решать задачи словообразования. При этом, образование слов реализуется не заменой частей слова на наиболее вероятные из подходящих, а именно методом поиска истинно правильной формы (даже если дело идет с исключениями). Ошибки и неточности могут возникать только по причине неточностей в наполнении словарных баз данных.
Рекомендуемые применения системы RU.DICTRU.DICT для анализаторов текстов и интеллектуальных систем Это основное применение, на которое первоначально была ориентирована система словарей. По этой причине в словарях предусмотрена очень подробная морфологическая информация о словах, а также некоторая семантическая информация, важная при решении задач анализа текстов на естественном языке. Полнота русского словаря и множество морфологических и семантических атрибутов слов позволяют строить анализаторы текстов, системы реферирования, системы машинного перевода, экспертные, информационно-поисковые системы.
RU.DICT для Интернет-систем Лингвистические базы RU.DICT могут использоваться в Интернет-системах (веб-разработках), возможно использование словарей под различными платформами. Веб-сервер MS IIS на платформе Win32 – словари доступны как OLE-объекты, либо может быть создано специальное CGI/ISAPI-приложение, работающее со словарями. Веб-сервера на платформе UNIX – в настоящее время могут использовать словари только при создании специального CGI-приложения или демона компилируемого в среде Kylix. В будущем будет расширен спектр возможностей по использованию RU.DICT на серверах под управлением UNIX. Примером возможности использования словарей в Интернет-системах может служить сервис на сайте www.rudict.noolab.ru, который позволяет получать различную информацию о словах непосредственно через веб-страницу.
RU.DICT для систем, поставляемых на CD-ROM Интересной особенностью системы RU.DICT является возможность работать с лингвистическими базами данных без предварительной инсталляции сервера, либо даже без регистрации простых DLL. Прикладная система может быть скомпилирована с ядром «RU.DICT», которое будет обращаться к словарям без их предварительной инсталляции. Это позволяет создавать системы, которые работают непосредственно с CD-ROM – дисков и не требуют инсталляции на компьютер. Такими системами могут быть словари, переводчики, либо тестовые и игровые программы со сложными диалогами, требующими решения задач словообразования и анализа вводимых пользователем фраз.
|