Бісікало О. В., Висоцька В. А. Експериментальне дослідження пошуку значущих ключових слів україномовного контенту

УДК 004.9

О. В. Бісікало1, В. А. Висоцька2
1Вінницький національний технічний університет,
кафедра автоматики та інформаційно-вимірювальної техніки,
2Національний університет “Львівська політехніка”,
кафедра інформаційних систем та мереж

ЕКСПЕРИМЕНТАЛЬНЕ ДОСЛІДЖЕННЯ ПОШУКУ ЗНАЧУЩИХ КЛЮЧОВИХ СЛІВ УКРАЇНОМОВНОГО КОНТЕНТУ

© Бісікало О. В., Висоцька В. А., 2015

Проведено порівняльне експериментальне дослідження методів пошуку значущих ключових слів україномовного контенту. В основу підходу до автоматичного визначення ключових слів покладено стемінг Портера слів української мови за відстанню Левенштейна, враховано можливості використання тематичного словника та вилучення заблокованих слів. На експериментальній базі зі 100 наукових публікацій технічного спрямування порівняно з авторськими варіантами отримано числові статистичні характеристики точності результатів пошуку.
Ключові слова: стемінг Портера, відстань Левенштейна, українська мова, ключові слова, пошук, тематичний словник.

This article presents the comparative experimental research of methods of relevant keywords finding in Ukrainian-language content. Based approach to automatic determination keywords Porter stemming for Ukrainian language words by distance Lowenstein, take into account the possibility of using a thematic dictionary and removal of blocked words is incorporated. On an experimental basis with 100 scientific publications of technical direction compared to the author's version received numerous statistical characteristics of precision results.
Key words: Porter Stemming, Levenshtein distance, Ukrainian language, keywords, search, thematic dictionary.

Література 30