Кушнір О. С., Брик О. С., Дзіковський В. Є., Іваницький Л. Б., Катеринчук І. М., Кісь Я. П. Статистичний розподіл і флуктуації довжин речень в українських, російських і англійських корпусах

УДК 004.6, 004.9, 538.9
О. С. Кушнір 1, О. С. Брик 1, В. Є. Дзіковський 2, Л. Б. Іваніцький 1,
І. М. Катеринчук 1, Я. П. Кісь 3
1 Львівський національний університет імені Івана Франка,
кафедра оптоелектроніки та інформаційних технологій,
2 Природничий коледж Львівського національного університету імені Івана Франка
3 Національний університет “Львівська політехніка”,
кафедра інформаційних систем і мереж
СТАТИСТИЧНИЙ РОЗПОДІЛ І ФЛУКТУАЦІЇ ДОВЖИН РЕЧЕНЬ
В УКРАЇНСЬКИХ, РОСІЙСЬКИХ І АНГЛІЙСЬКИХ КОРПУСАХ
© Кушнір О. С., Брик О. С., Дзіковський В. Є., Іваніцький Л. Б., Катеринчук І. М., Кісь Я. П., 2016
Вивчено розподіли частот речень за їхньою довжиною для українського, російсь¬кого та англійського корпусів і з’ясовано середні довжини речень в одиницях знаків, літер і слів. Показано, що хвости статистичних розподілів задовільно описуються експоненційною або близькими до неї функціями, що узгоджуються зі стохастичним характером довжини речень. Доведено, що залежність флуктуацій частоти речень різних довжин від середніх значень цієї частоти визначається степеневим законом Тейлора. Значні відносні флуктуації частот і відносні зміни середньої довжини речення підтверджують важливість урахування флуктуаційних явищ у статистичній лінгвістиці.
Ключові слова: комп’ютерна лінгвістика, корпуси, статистичні розподіли, довжина речення, флуктуації.
We have studied statistical distributions of the frequency of sentences over their length for Ukrainian, Russian and English corpora and found the average sentence lengths in terms of linguistic signs, letters and words. It has been shown that the tails of the statistical distributions are satisfactorily described by the exponential function or the related ones, which is consistent with random nature of the sentence length. We have proven that the fluctuations of the frequency of sentences of different lengths depend on the average values of that frequency according to the Taylor’s power law. Significant relative fluctuations of the frequency and the relative changes in the average sentence length confirm the importance of fluctuation phenomena in the statistical linguistics.
Key words: computational linguistics, corpora, statistical distributions, sentence length, fluctuations.
Література – 35.