|

Два способа извлечения данных:
1. Из структур хранения информации – файлов, электронных таблиц, БД (вспомогательными программными средствами). Достоинства:
• отсутствие необходимости расширять OLTP-систему
• данные могут извлекаться с учетом потребностей процесса переноса
2. Выгрузка данных средствами OLTP-систем в промежуточные структуры. Достоинства:
• Возможность использовать средства OLTP-систем, адаптированные к структурам данных
• Средства выгрузки изменяются вместе с изменениями OLTP-систем и ОИД
• Возможность выполнения первого шага преобразования данных за счет определенного формата промежуточной структуры хранения.
Преобразование данных включает процедуры:
1. Обобщение данных (aggregation) – это замена многочисленных детальных данных относительно небольшим числом агрегированных данных.
2. Перевод значений (value translation). В ОИД данные часто хранятся в закодированном виде, чтобы сократить избыточность и память. Например, названия городов, товаров могут храниться в сокращенном виде. Перед загрузкой в ХД закодированные данные обычно заменяют более понятными описаниями.
3. Создание полей (field dirivation). При этом создается новая информация. Например, в ОИД есть одно поле для указания товара, второе – для цены экземпляра. Для исключения операции вычисления стоимости всех товаров можно создать специальное поле для хранения стоимости во время преобразования.
4. Очистка данных (cleaning) – выявление и удаление ошибок и несоответствий в данных с целью улучшения их качеств. Например, в файлах БД могут быть ошибки при вводе, отдельная информация может быть утрачена, могут присутствовать «загрязненные» данные и т.д. Очистка применяется также для согласования атрибутов полей так, чтобы они соответствовали атрибутам БД назначения.
|