Kotsyba N. Overview of the Ukrainian language resources within the multilingual European MULTEXT-East project, v. 4

УДК 811.162.1=162.2’374.822:004.65

Natalia Kotsyba
Faculty of „Artes Liberales”, Warsaw University, 69, Nowy Świat str., Warsaw, 00-046, Poland

OVERVIEW OF THE UKRAINIAN LANGUAGE RESOURCES WITHIN THE MULTILINGUAL EUROPEAN MULTEXT-EAST PROJECT, V.4

© Natalia Kotsyba, 2014

Подано огляд комп’ютерних ресурсів для української мови, створених у межах багатомовного європейського проекту MULTEXT-East (MTE, http://nl.ijs.si/ME/V4), доступних безкоштовно для дослідницьких цілей від травня 2010 року. Ресурси охоплюють формальну репрезентацію морфологічно-синтаксичних специфікацій 1239 унікальних граматичних тагів у форматі XML, згідно з вимогами TEI-5, та морфологічно-синтаксичний лексикон на понад 200000 словоформ разом з лемами та тагами.
Ключові слова: комп’ютерні мовні ресурси, обробка природної мови, TEI (Ініціатива Кодування Текстів), стандарти, українська мова, морфологічно-синтаксичні специфікації, граматичний таг, лема, морфологічно-синтаксичний лексикон.

The article presents an overview of computational resources for the Ukrainian language within a multilingual European MULTEXT-East project (MTE, http://nl.ijs.si/ME/V4) freely available for researchers since May 2010, including a formal representation of morphosyntactic specifications consisting of 1239 unique grammatical tags in the XML, TEI-5 compatible, format and a morphosyntactic lexicon covering over 200000 wordforms with lemmas and morphosyntactic codes.
Key words: computational language resources, NLP, TEI, Text Encoding Initiative, standards, Ukrainian language, morphosyntactic specifications, morphosyntactic lexicon.

Література – 15.