Програмне та алгоритмічне забезпечення сховищ та просторів даних

Шаховська Н. Б.
Код: 978-617-607-023-8
Монографія. Львів: Видавництво Львівської політехніки, 2010. 196 с. Формат 170 х 240 мм. М'яка обкладинка.
Ціна:235,00грн.
Weight: 0 кг

Зміст

За останнє десятиліття значно виріс обсяг даних, які розміщені як у глобальній мережі Інтернет, так і в локальних мережах організацій. Відомо, що петабайтний бар’єр обсягу інформації у базах даних також подоланий. Необхідно звернути увагу на значне збільшення обсягів наукових даних. Під науковими даними розуміють так звані “сирі дані”, отримані безпосередньо від сенсорів або на основі розрахунків і які не змінюються, а тільки додаються; якщо дані якось змінюються, то їх вважають новими. Опрацювання (cooking) “сирих даних” – складна процедура (Capture NX), – також змінюється, оскільки виникає необхідність абстрагуватися від об’єкта дослідження. Водночас виникають супутні проблеми:
- як дані зберігати “вічно” – адже навіть дуже великі системи керування базами даних (СКБД) також мають обмеження щодо кількості даних;
- визначення авторства даних;
- опрацювання розрізнених даних – таких, що зберігаються в різних системах з різними методами доступу та особливостями організації даних;
- забезпечення цілісності даних – в системах зберігаються метадані, а не самі об’єкти;
- дублювання даних, що надходять з різних джерело, довіра до джерела;
- визначення операцій, виконання яких змінило дані;
- зміна класу задач дослідників – від статистичних до інтелектуальних (пошук залежностей, “важливих даних”);
- необхідність отримання швидкої відповіді.
Традиційно під час розв’язання своїх задач фахівці використовують звичні для них джерела інформації і формулюють завдання з огляду на лише такі джерела. За такого підходу очевидною стає неповнота інформації, яку вдається охопити. Безліч джерел даних і сервісів, що існують в Інтернеті, їхня розмаїтість викликають потребу в радикальній зміні такого традиційного підходу. Сутність цієї зміни полягає в тому, що задачі потрібно формулювати незалежно від наявних джерел інформації, і лише після такого формулювання необхідно ідентифікувати релевантні завданню джерела, приводити їх до вигляду, необхідного для розв’язання задачі, інтегрувати, ідентифікувати сервіси, які дають змогу реалізувати окремі частини абстрактного процесу виконання завдання.
Для прийняття адекватних рішень у певній галузі необхідно, щоб дані, які надаються різними інформаційними ресурсами та використовуються для прийняття керівних рішень, задовольняли такі вимоги:
- були повними, несуперечливими та надходили вчасно;
- були інформативними, оскільки вони застосовуватимуться для прийняття рішень;
- мали однакову структуру, щоби було можливо завантажити їх у єдине сховище даних та проаналізувати;
- зберігалися в однакових моделях даних та були незалежними від платформи розроблення, щоби існувала можливість використовувати ці дані іншими засобами.
Сьогодні немає жодної методики опрацювання даних, яка б задовольняла всі наведені вимоги до опрацювання даних, а отже, немає можливості аналізувати стан галузі загалом, використовуючи першоджерела інформації, а не визначені наперед статистичні звіти [1, 2].
Проблема інтеграції розрізненої інформації з метою її подальшого опрацювання та прийняття рішень на її основі постала разом із появою сховищ даних ще у 80-ті роки минулого століття. Передумовою її виникнення було зростання інтересу до розпо¬ділених баз даних та їх масове впровадження у бізнесові структури. Значний внесок у вирішення цієї проблеми зробили вчені: Colin White, A. Sheth, J. Larson, К.В. Антипін, А.В. Фомичев, М.Н. Гриньов, С.Д. Кузнецов та ін.
Наявні сьогодні підходи до інтеграції даних за своєю функціональністю поді¬ляються на два типи: інтеграція веб-застосувань та інтеграція на основі сховищ даних (з утворенням локального сховища даних). Проте специфіка опрацювання даних усієї предметної галузі, а саме:
- наявність великої кількості джерел даних, інформація в яких має різну структуру та характеризується суперечливістю;
- наявність великої кількості моделей зберігання джерел даних (реляційні бази даних (РБД), сховища даних (СД), напівструктуровані текстові файли, електронні таблиці, статичні та динамічні веб-сайти тощо);
- відсутність стандартів назв об’єктів і суб’єктів певних галузей діяльності (туристична, наукова тощо);
- ієрархічне впорядкування об’єктів складних галузей та агрегування інформації під час передавання її до верхніх рівнів ієрархії вказує на те, що для врахування інформації від усіх об’єктів галузі необхідно поєднати обидва типи інтеграції та вдосконалити наявні моделі зберігання даних.
За останні роки зростає потреба в “даних, які застосовуються у всіх сферах”, що привело до виникнення нового типу інформаційної інтелектуальної системи. Сьогодні найгостріші проблеми керування інформацією виникають в організаціях (таких, як готелі, бази відпочинку, оздоровчі заклади, туристичні агентства), робота яких полягає в опрацюванні великої кількості різнотипних, незалежних джерел даних. Такий тип системи отримав назву простір даних (ПД). На відміну від систем інтеграції даних, за якими існує загальноприйнятий доступ до різнорідних джерел даних, “простори даних” не припускають, що вci семантичні взаємозв’язки між джерелами відомі i вказані. Багато користувачів, які працюють з просторами даних, досліджують дані, i немає єдиної схеми, за якою вони можуть створювати запити. Тому важливо, що запити є дозволеними елементами, щоб конкретизувати piзнi ступені структури, а використання ключового слова робить запит більш структурованим. У деяких випадках семантичні зв’язки невідомі через невідому кількість першоджерел, залучених до простору даних, або через нестачу фахівців під час визначення таких зв’язків. У інших випадках не вci семантичні взаємозв’язки необхідні для класифікації послуг користувачам. У системі ПД зазвичай використовують автоматичні методи, за якими визначають деякі семантичні взаємозв’язки, але ці результати близькі до найкращих.
Простір даних розглядають як нову абстракцію керування даними [4]. Осново¬положником ідеї просторів даних був Алон Хелеві. Сьогодні розпочато роботу над двома проектами, орієнтованими на підтримку просторів індивідуальних даних. Перший з них – проект SEMEX (SEMantic Explorer), – виконується в University of Washington під керівництвом Хелеві. Другий – iMeMex – виконується під керівництвом Йенса-Петера Диттриха в ETH Zurich. Проте, за результатами аналізу Інтернет-джерел, жоден з проектів ще не формалізував поняття простору даних, що, своєю чергою, призводить до розрізненості підходів роботи з ними.
Отже, необхідно формалізувати поняття простору даних та визначення операцій над ним. Для цього уведено алгебраїчну систему класу “простір даних”.

Про автора

ШАХОВСЬКА Наталія Богданівна
Кандидат технічних наук, доцент кафедри інформаційних систем та мереж Національного університету "Львівська політехніка".
Сфера наукових інтересів: простори та сховища даних, інтелектуальні системи підтримки прийняття рішень, методи інтеграції та агрегації даних, методи усунення невизначеностей, проектування розподілених інформаційних систем.