Годич О.В., Наконечний Ю.С., Щербина Ю.М. Категоризація електронних документів

УДК 81:004.93

О.В. Годич, Ю.С. Наконечний, Ю.М. Щербина

Львівський національний університет ім. Івана Франка,
кафедра дискретного аналізу та інтелектуальних систем

КАТЕГОРИЗАЦІЯ ЕЛЕКТРОННИХ ДОКУМЕНТІВ

© Годич О.В., Наконечний Ю.С., Щербина Ю.М., 2010

Нині існує багато алгоритмів кластеризації документів, кожен з яких має певні переваги та недоліки. Запропонований у цій статті алгоритм є спробою компромісу між якістю категоризації документів і вимогами до обчислювальних ресурсів, залишаючись незалежним від мови документів. Алгоритм використовує техніку пошуку ключових слів документів для формування вхідних даних та карти Кохонена в поєднанні з ієрархічною кластеризацією для категоризації та візуалізації документів.
Ключові слова: карти Кохонена, зменшення розмірності, категоризація документів, кластеризація, візуалізація даних.

Nowadays, a number of document clustering algorithms are available with number of benefits and trade-offs. The proposed in this article algorithm is an attempt to provide a compromise between quality and complexity, while remaining independent of the language. It uses keyword-based dimensionality reduction technique to create an input space, and then applies Self-Organizing Map for clustering and visualization.
Keywords: Self-Organizing Map, dimensionality reduction, document categorization, clustering, data visualization.

Кількість посилань – 14