DWH документация
Data Warehose (DWH) платформы не ориентировано на решение какой-либо определенной функциональной аналитической задачи. Его цель - обеспечить целостность и поддерживать хронологию всевозможных данных, и с этой точки зрения оно нейтрально по отношению к аналитическим приложениям. DWH реализовано в виде реляционной СУБД с нормализованной или со слабо денормализованной схемой.
В качестве источника данных выступает оперативная БД отдельного экземпляра платформы. Из этой БД извлекается следующая информация:
- агрегированные значения измеряемых и вычисляемых параметров;
- мгновенные значения сигнальных и строковых параметров;
- журнал событий ;
- журналы состояний контроллеров;
- справочники.
В настоящее время оперативная БД содержит значения только параметров устройств, установленных на конкретном объекте. Вследствие этого набор параметров каждого объекта становится уникальным. Для выполнения анализа совокупности объектов такая ситуация является недопустимой.
Поэтому, для целей анализа, необходимо сформировать показатели, являющиеся общими для всех или части объектов и такие показатели в платформе называются Бизнес параметрами (БП) и Бизнес событиями (БС).
При формировании бизнес параметров должны соблюдаться следующие ограничения:
- между отдельными бизнес параметрами отсутствуют отношения иерархии (справочник бизнес параметров представляет собой простой линейный список);
- один параметр устройства или вычисляемый параметр может быть сопоставлен не более, чем с одним бизнес параметром.
- БП может быть связан с любыми параметрами системами, но только с одинаковой Категорией (единицами измерений).
DWH строится на основе многомерной модели данных, подразумевающей выделение отдельных измерений (время, объект, бизнес параметр) и фактов (объем израсходованного ресурса, количество нештатных ситуаций) с их анализом по выбранным измерениям.
Факт - это набор связанных элементов данных, содержащих показатели и описательные данные. Каждый факт обычно представляет элемент данных, численно описывающий деятельность организации, бизнес-операцию или событие, которое может быть использовано для анализа деятельности организации или бизнес-процессов.
Показатель - это числовая характеристика факта, который определяет эффективность деятельности организации с точки зрения измерения. Как правило, показатель содержит заранее не известное значение характеристики факта. Показатель определяется с помощью комбинации элементов измерения и, таким образом, представляет факт.
Атрибут - это описание характеристики реального объекта предметной области. Как правило, атрибут содержит заранее известное значение, характеризующее факт. Обычно атрибуты представляются текстовыми полями с дискретными значениями.
Измерение - это интерпретация факта с некоторой точки зрения в реальном мире. Измерения, подобно атрибутам, содержат текстовые значения, которые сильно связаны по смыслу между собой. Обычно измерения представляются как оси многомерного пространства, точками которого являются связанные с ними факты. В многомерной модели каждый факт связан с одной или несколькими осями.
Измерения задаются перечислением своих элементов (атрибутов). Элементы измерения могут находиться в отношении «часть-целое» или «родитель-потомок», что позволяет формировать на измерении одну или несколько иерархий. Каждая из таких иерархий может иметь несколько уровней. Например, поостренная на измерении «Время» иерархия может включать следующие элементы: год, месяц и день
Платформа Inspark предоставляет следующие инструменты для аналитики данных:
- Аналитическое хранилище - реляционная БД, структура которой отвечает требованиям OLAP-хранилищ для загрузки данных в специализированные OLAP структуры, либо работы с данными непосредственно в нашем хранилище.
- Модуль выгрузки данных в аналитическое хранилище vault - ETL модуль , который по заданным исходным данным в платформе осуществляет выгрузку и управление всеми артифактами аналитического хранилища.
- Инструмент представления и анализа на базе opensource проекта superset.apache.org, встроенного в фронд-приложение платформы.
Разметка параметров для их анализа осуществляется в платформе с помощью сущностей Бизнес Параметры (БП) и Бизнес События (БС).
Бизнес параметр определяют тот набор параметров платформы, которые являются одинаковыми по своему физическому смыслу и требуются для анализа.
Бизнес события - это все события платформы, которые связаны с Бизнес параметрами. Полное описание административных, конфигурационных действий по настройке БП и БС приведено в разделах руководства Администратора.