В результате анализа корпуса Чехова был получен словник наименований лиц. Общее количество наименований составило 3714 единиц. В данное количество входит 1492 единицы, которые отсутствовали в «Русском семантическом словаре» под ред. Н.Ю. Шведовой. При этом 2222 слова из списка словаря в корпусе текстов А.П. Чехова найдено не было. Полученный общий список, в который вошли 5936 единицы (нарицательные существительные), составил основу создаваемой в ЛОКЛЛ словарной базы данных «Русские наименования лиц». Она предназначена для последующей работы с текстами — их семантической разметки и поиска в них единиц нужного семантического типа.
При создании базы данных прежде всего нужно определить те типы информации, которые должны приписываться единицам и по которым их требуется искать. Удобство поиска требует того, чтобы эти типы информации помещались в разные поля. Одно и то же нарицательное существительное регулярно характеризует лицо сразу по нескольким представляющим информационным интерес семантическим признакам, например по денотативному классу, полу, возрасту и оценке. Кроме того, в лексическом значении может присутствовать сема «собирательность». Поэтому было решено использовать при семантическом описании каждого слова принцип фасетной, многоаспектной классификации, при котором семантика каждого слова описывается как состоящая из одного и того же набора признаков, а значение каждого из признаков варьируется. В случае если какой-то признак для данной единицы нерелевантен, например значение таксономического класса для общеоценочных слов, он просто получает у слова нулевое значение. Помимо семантических признаков, в базе должно фиксироваться также наличие у слова вариантов и их прагматические свойства, а также присловная информация функционально-семантического и количественного типа. Особое значение имеет информация о том, имеет ли слово иное, неличное значение. В базе должны быть также отражены синонимические и гиперонимические отношения между единицами. Представляется, что в конечном итоге каждое наименование лица должно характеризоваться по следующему набору признаков:
1) денотативный класс и подкласс;
2) информация о поле;
3) наличие экспрессивно-оценочного компонента и его тип;
4) наличие значения «совокупность»;
5) связь с синтаксической позицией;
6) степень употребительности (с привязкой к разного типа стилям и предметным областям);
7) наличие «неличных» значений;
8) варианты;
9) возможные синонимы и гиперонимы (помимо слова «человек»).
Признак 1 нужен для определения основного таксономического класса, к которому относит человека имя, и характеризуемого аспекта. Он может определяться на основе семантической классификации изложенного выше типа. Признаки 2—4 являются чаще всего дополнительными, модифицирующими по отношению к таксономическим. Именно они регулярно различают производящие слова и их модифицирующие словообразовательные производные. Ср., например, англичанин и англичанка (различие только по признаку «пол»), учительница и училка (различие только по признаку «оценка»), человек и человечество (различие только по признаку «совокупность»). Признак 5 должен характеризовать слово по той синтаксической позиции, которая для него более характерна. Этот признак нуждается в дальнейшей проработке. На данном этапе работе размечается только позиция обращения, по которой маркируются слова, использующиеся преимущественно в этой функции (например, голубушка, сударь и т. п.). Признак 6 предполагает характеристику лексемы по ее употребительности, т. е. по количеству словоупотреблений с нужным значением. Эта информация в настоящее время определяется на основе корпуса А.П. Чехова, однако очевидно, что количественные данные должны даваться для отдельных предметных областей и стилей, что требует проведения специальных исследований. По признаку 7 характеризуются многозначные лексемы, для которых значение лица не является единственным.
В настоящее время ведется работа по характеризации единиц базы некоторыми типами информации на основе данных корпуса А.П. Чехова. Ее результаты ниже показаны на примере трех слов.
Таблица 2. Фрагменты словарной базы данных «Наименования лиц»
АКТЁР | |
Денотативный класс и подкласс |
3. Сфера деятельности, профессия 3.8. Искусство и культура |
Информация о поле |
М |
Наличие экспрессивно-оценочного компонента и его тип |
0 |
Наличие значения «совокупность» |
0 |
Связь с синтаксической позицией |
0 |
Количество употреблений в корпусе |
344 |
Чехова |
|
Наличие «неличных» значений |
0 |
Варианты |
0 |
СЕСТРЁНОЧКА | |
Денотативный класс и подкласс |
2. Постоянные социальные характеристики 2.2. Родство |
Информация о поле |
Ж |
Наличие экспрессивно-оценочного компонента и его тип |
+ |
Наличие значения «совокупность» |
0 |
Связь с синтаксической позицией |
Не только в позиции обращения (ср.: «Я ее уже люблю, ведь она приходится мне сестреночкой»; «Кланяйся сестреночке и поцелуй ручку»; «И сестреночку с собой возьмем» («Три года»)) |
Количество употреблений в корпусе Чехова |
7 |
Наличие «неличных» значений |
0 |
Вариант |
0 |
ДУБИНА | |
Денотативный класс и подкласс |
4. Характеристика свойств личности 4.3. Интеллект 4.3.1. Интеллектуальные свойства личности |
Информация о поле |
М и Ж |
Наличие экспрессивно-оценочного компонента и его тип |
0 |
Наличие значения «совокупность» |
0 |
Связь с синтаксической позицией |
Предикат и обращение |
Количество употреблений в корпусе Чехова |
12 |
Наличие «неличных» значений |
Толстая тяжелая палка |
Вариант |
ддубина, ду-би-на |
В приложении 1 «Словник характеризующих наименования лиц с их семантическими характеристиками (слова на букву «А»)» представлены результаты начальной стадии работы по характеризации единиц создаваемой базы данных, проведенной автором.
Предыдущая страница | К оглавлению | Следующая страница |