Имена нарицательные, используемые при номинации лиц, — это открытый и постоянно пополняемый класс слов, нуждающийся в постоянном мониторинге и описании состава. Состав имен лиц различается в разных функциональных стилях, в разных предметных областях, у разных авторов и в текстах разных исторических периодов. Чтобы установить его, приходится анализировать большие объемы данных. Для этого нужна автоматизация поиска. Этой задаче служат электронные корпуса текстов.
В данной работе была поставлена задача выявления состава имен лиц в текстах А.П. Чехова. Этот автор был выбран не случайно, так как жанровая специфика основного числа его произведений (небольшие рассказы с большим числом описываемых лиц) требует постоянного использования и варьирования средств номинации персонажей. Лексический состав его текстов исследовался с помощью полного электронного корпуса текстов А.П. Чехова, созданного в ЛОКЛЛ филфака МГУ, в разработке которого автор данной работы принимал участие.
Материалом для создания этого корпуса послужило академическое собрание сочинений А.П. Чехова (Чехов А.П. Полное собрание сочинений в 30 тт. — М.: Наука, 1974—1983). В корпус вошли все произведения автора (кроме «Остров Сахалин»), а также письма, записные книжки, дарственные надписи, записки и др. Общее количество словоупотреблений — свыше 2 000 000, текстов — 5517 (из них письма — 4494; дарственные надписи на книгах и фотографиях — 329; сопроводительные надписи на книгах и фотографиях — 33; подписи под рисунками, фотографиями и другие надписи — 15).
Для начальной разметки в корпусе имен определенного семантического класса требуется внешний словарь. Он накладывается на лемматизованные единицы корпуса. При этом, однако, возникает целый ряд проблем, осложняющих решение этой задачи. Во-первых, готовые словники имен лиц отсутствуют, и их нужно создавать с помощью анализа существующих словарей. Анализ имеющихся лексикографических описаний показал, что наиболее полный словник имен лиц представлен в «Русском семантическом словаре» под ред. Н.Ю. Шведовой (РСС). Он может быть использован для первичной разметки корпуса. Всего словарь насчитывает около 300 000 лексических единиц, из которых 6250 единиц (слов), включенных в 1-й том издания, являются наименованиями лиц (это все единицы группы «Названия лиц», часть единиц групп «Собственно организмы» и «Названия, общие для лиц и животных»). Список этих наименований (6250 наименований лиц) был извлечен из словаря и автоматически наложен на корпус (в системе «Dictum...» (ЛОКЛЛ МГУ), режим «Словарный поиск слов». При этом каждая лексема сопровождалась информацией о выделенном в РСС семантическом классе.
Во-вторых, при использовании внешнего словника возникает проблема многозначности. Многие слова именуют лиц только в одном из своих значений (см., например, слова — наименования животных). Поэтому после наложения словника необходим сплошной анализ контекстов и снятие многозначности. В ходе этой ручной операции устанавливается, имеет ли слово нужное значение «лицо» в данном контексте. Далее все употребления с этим значением получают в корпусе специальную помету.
В-третьих, в текстах, и не только художественных, могут встретиться потенциальные и окказиональные имена, а также имена, не зафиксированные семантическим словарем в силу его очевидной неполноты. Поэтому наложение словника — это лишь первый этап, облегчающий, но не отменяющий сплошного анализа лексических единиц корпуса с помощью конкорданса.
В поиске отсутствующих новых лексических единиц могут помочь специальные запросы, опирающиеся на уже найденные слова. К числу главных из них относится запрос на однородную конструкции со словом, уже помеченным как имя лица (условие запроса: «лицо + и + X» и «X + и + лицо», где «лицо» — это уже помеченная нами единица, именующая лицо, а «X» — любое слово, стоящее непосредственно слева или справа). На рисунке ниже представлен фрагмент конкорданса, полученного по этому запросу.
Рисунок 1. Фрагмент конкорданса с результатами поиска по запросу «лицо + и + X»
Выделено сочетание «ЖЕНЕ и ГУСИКАМ», содержащее авторское слово гусики.
Далее устанавливается, что найденное слово является наименованием лица, и оно получает соответствующую помету в корпусе.
Все это, однако, не отменяет необходимости последующего сплошного анализа оставшихся существительных. Эта работа была проделана нами в рамках всего корпуса. Ее результаты, однако, могут быть в дальнейшем уточнены, поскольку из-за большого объема материала какая-то часть имен (надеемся, незначительная), могла быть пропущена. К настоящему моменту было выявлено 3714 нарицательных существительных, именующих лица в текстах А.П. Чехова. При этом 1492 единицы являются новыми по отношению к «Русскому семантическому словарю».
Анализ корпусного материала позволяет не только пополнить данные о составе номинативных единиц, входящих в русскую номинативную парадигму «лицо», но и получить сведения о степени употребительности каждой из них в нужном значении и общей частотности. При наличии отнесения каждой из единиц к определенному семантическому классу появляется возможность дополнительного поиска по тем типам информации о лице, которые передают лексические единицы, а также сравнительной оценки информационной значимости этих типов информации и числе лексем, представляющих каждый из них.
Предыдущая страница | К оглавлению | Следующая страница |