Чистка данных
Короткое описание урока: Из этого урока вы узнаете о том, как подготовить данные к анализу.
При чистке данных необходимо получить в результате таблицу, в которой есть только один ряд заголовков, а данные в столбцах под ними соответствуют заголовкам по формату и содержанию. Это позволит вам анализировать и визуализировать данные.
Почистим нашу таблицу о заболеваемости в Кыргызстане.
Напоминаем: работайте в копии ваших данных!
Правило 1. Только один ряд заголовков.
В нашем случае, ряд заголовков – это первая строка с обозначением лет. Обратите внимание, что заголовок в первом столбце отсутствует. Допишите его в ячейке А1.
Правило 2. В одном столбце только один тип данных.
Если ваш столбец назван «Заболевания», то в нем могут быть только названия заболеваний.
Если у вас в столбце два типа данных, например, заболевание и область, вам надо создать еще один столбец, озаглавить его «Область» и перенести все данные об областях туда.
Обратите внимание на строки 6 и 7 в таблице: «гастроэнтериты, колиты, вызванные установленными возбудителями». Строка 7 не имеет данных, потому что название заболевания разделилось на две строки. Чтобы исправить это, в строке 7 запишите полное название заболевания, а строку 6 удалите. Для этого наведите курсор на номер строки, нажмите правой кнопкой мыши и выберите «удалить».
Должно получиться вот так:
Также обратите внимание на строку 18, «ВИЧ – инфекция 1». Действительно ли это название заболевания? В случаях сомнения всегда возвращайтесь к оригиналу, то есть к данным в отчете. Вы увидите, что 1 – это сноска, которая говорит о том, что данные по ВИЧ представлены по числу граждан Кыргызстана.
В таком случае, мы должны добавить эту информацию в лист с метаданными, а цифру «1» удалить.
Правило 3. В одном столбце только данные одного формата
Что это означает? Данные могут быть представлены в текстовом или числовом формате. Числовой формат имеет несколько подвидов: простое число, процент, календарная дата.
В каком формате должны быть данные в столбце «заболевания»? А в столбцах по годам?
Это не просто формальность. Если данные не записаны как числа, то Эксель не сможет проводить с ними различные математические операции. А вы, таким образом, не сможете узнать, растет или падает число заболеваний и в каком году было больше всего случаев.
Как определить, в каком формате записаны данные? Как правило, Эксель форматирует текст по левому краю, а числа по правому. Проверьте, так ли это у вас в таблице.
Правило 4. Обратите внимание на поля, в которых проставлен дефис.
В нашем случае, дефисом обозначены отсутствующие данные. Всегда будьте очень внимательны с такими полями: означают ли они, что значение в них равно нулю, или же по этому показателю не удалось собрать данные?
Если первое, то мы вправе заменить «-» на 0, а если второе, то мы не сможем работать с данными этому заболеванию, либо же нам придется найти отсутствующую информацию из другого источника и добавить в таблицу.
В нашем случае «-» действительно означает 0, поэтому мы выполним простую операцию, которая автоматически заменит все дефисы на 0. Для этого, выделите все ячейки с данными, и найдите команду «Найти и заменить».
В вашей версии операционной системы это может быть в другой строке меню.
Теперь, в поле «Найти» напишите «-», а в поле «Заменить» не пишите ничего.
Нажмите «Заменить все».
Готово! Мы сделали 7 замен.
У нас получилась таблица, в которой 6 столбцов, 22 строки. Она готова к анализу. Поздравляем!