Бісікало О. В. Статистичний аналіз складних залежностей у тексті

УДК 004.9

О. В. Бісікало
Вінницький національний технічний університет, кафедра автоматики та інформаційно-вимірювальної техніки

СТАТИСТИЧНИЙ АНАЛІЗ СКЛАДНИХ ЗАЛЕЖНОСТЕЙ У ТЕКСТІ
© Бісікало О. В., 2015

Розглянуто обґрунтування підходу до застосування складних залежностей між словоформами для розв’язання задач семантичного аналізу тексту. Сформульовані основні положення підходу та визначені у вигляді гіпотез основні його переваги. Запропоновано формальне поняття предметної області. Отримано статистичні та інформаційні оцінки зв’язків між лемами тексту, які технологічно можна визначити за допомогою сучасних лінгвістичних пакетів, зокрема DKPro Core.
Ключові слова: словоформа, лема, складна залежність, розподіл Парето, дерево зв’язків.

The approach to the application of complex dependencies between word-forms in resolving the semantic text analysis problems has been grounded in the article. General points and main advantages of the approach have been formulated. A formal notion of the subject area has been suggested. The statistical and information estimates of the relations between lemmas have been obtained.They can be determined technologically using modern language packs (DKPro Core).
Key words: word-form, lemma, difficult dependency, Pareto distribution, tree ties.

Література – 9