Очистка данных (англ. Data cleansing) — процесс выявления и исправления ошибок, несоответствий данных с целью улучшения их качества, иногда классифицируется как составная часть интеллектуального анализа данных.

Очистка данных выполняется с определенными наборами данных в базах данных или файлах. Необходимость в очистке данных чаще всего возникает при интеграции различных информационных систем (хранилища данных, системы управления ресурсами предприятия, системы управления взаимодействием с клиентами).

Источники данных в различных системах часто находятся в разрозненном виде и в различных состояниях. Преобразования выполняются автоматически (в соответствии с набором правил) либо вручную (в интерактивном режиме).

Наиболее типичные предметные области, подлежащие очистке и исправлению в корпоративных информационных системах — сведения о лицах и организациях, адресная и контактная информация, также подлежит очистке любая справочная информация, вносимая вручную в текстовом виде.

Ссылки

править
  • Jason W. Osborne. Best Practices in Data Cleaning: A Complete Guide to Everything You Need to Do Before and After Collecting Your Data. — Sage, 2012. — 275 p.