Бісікало О. В., Висоцька В. А. Метод лінгвістичного аналізу україномовного комерційного контенту

УДК 004.9
О. В. Бісікало1, В. А. Висоцька2
1 Вінницький національний технічний університет,
кафедра автоматики та інформаційно-вимірювальної техніки,
2 Національний університет “Львівська політехніка”,
кафедра інформаційних систем та мереж
МЕТОД ЛІНГВІСТИЧНОГО АНАЛІЗУ
УКРАЇНОМОВНОГО КОМЕРЦІЙНОГО КОНТЕНТУ
© Бісікало О. В., Висоцька В. А., 2017
Розв’язано науково-практичну задачу автоматичного виявлення значущих ключових слів та рубрикації україномовного контенту в інтернет-системах на основі методу лінгвістичного аналізу текстової інформації. Наведено теоретичне та експериментальне обґрунтування методу лінгвістичного аналізу україномовного кон¬тенту з використанням стемінгу Портера. Метод спрямовано на автоматичне виявлення значущих ключових слів україномовного контенту на основі запропонованої фор¬малізації складових аналізу – граматичного (графемного), морфологічного, синтак¬сичного, семантичного, референційного та структурного.
Ключові слова: текст, україномовний, алгоритм, контент-моніторінг, ключові слова, контент-аналіз, стеммер Портера, лінгвістичний аналіз, синтаксичний аналіз.
The scientific and practical problem of automatic detection of meaningful keywords and Ukrainian content categorization in Internet systems on the basis of linguistic analysis of text information is unleashed. The article presents a theoretical and experimental substantiation of linguistic analysis methods for Ukrainian content using Porter stemming. The method is directed at the automatic identification of meaningful keywords in the Ukrainian content, based on the proposed analysis components formalization – the grammatical (grapheme), morphological, syntactic, semantic, structural and referential.
Key words: text, a Ukrainian, algorithm, content monitoring, keywords, content analysis, Porter stemmer, linguistic analysis, parsing.
Література – 56.