342просмотров
26 декабря 2025 г.
Score: 376
В предыдущих сериях: закон Ципфа описывает ситуацию, при которой самая частотная единица корпуса встречается вдвое чаще второй, втрое чаще третьей и так далее. Этот закон соблюдается в языковых корпусах и в других наборах данных. Обсуждая это, мы в первую очередь обращаем внимание на начало частотного словаря, но не менее интересно посмотреть и дальше. Из закона Ципфа неизбежно следует, что значительная часть слов встретится во всем корпусе всего один раз. Для больших корпусов количество таких слов оценивают в 40–60% от всего словаря. Слово, встречающееся в корпусе один раз, называется гáпакс от греческого ἅπαξ λεγόμενον hapax legomenon ‘единожды сказанное’. Совершенно не обязательно, что у нас будут проблемы с пониманием гапакса, потому что так мы можем обозначить уникальное слово из некоего ограниченного корпуса. Скажем, в корпусе текстов Пушкина гапаксом является слово умилять в стихотворении «Отцы пустынники и жены непорочны»: Но ни одна из них меня не умиляет, / Как та, которую священник повторяет / Во дни печальные Великого поста [1]. Как видите, здесь нам гапакс и понятен, и очень хорошо известен по другим текстам. Все гораздо интереснее, когда речь о гапаксе в полном корпусе текстов на некоем языке. Тем более, когда спросить уже пару тысяч лет как не у кого. Как думаете, что делать в таких случаях? Как выяснить значение слова? _ [1] Мощенская Л. Г., Заремба Л. И. Молитва Ефрема Сирина в переложении А. С. Пушкина (стихотворение «Отцы пустынники и жены непорочны») // Четвертые чтения, посвященные 70-летию со дня рождения В. А. Карпова. Ч. 1. — Минск: РИВШ, 2010. С. 17.
342
просмотров
1614
символов
Нет
эмодзи
Нет
медиа

Другие посты @flex_ion

Все посты канала →