Организация датасета
Короткое описание урока: Из этого урока вы узнаете о том, как организовать таблицу для дальнейшей работы.
Есть несколько ключевых правил при работе с данными:
- не работать в оригинале, а только в копии
- записывать метаданные, содержащие информацию о вашем датасете, на отдельном листе
В Excel можно создать копию ваших данных следующим образом.
- Наведя курсор на «Лист 1» и щелкнув правым щелчком мыши, выберите из меню «Переместить или скопировать», а затем «переместить в конец», «создать копию» и далее «Ок». Так вы создадите копию исходной таблицы на другом листе.
- Двойной щелчок мыши по названию листа позволяет переименовывать его. Назовите исходник «Оригинал», а копию – «Копия».
- Щелкнув на знак «+» в строке листов, создайте новый лист и назовите его «Мета». Переместите его в начало таблицы.
Что содержит лист с метаданными?
Основную информацию о том, какие данные содержатся у вас в таблице. Помните, что мы взяли эту таблицу из большого отчета, а работаем с ней как с отдельным файлом, при этом мы можем комбинировать этот файл с другими, посылать коллегам и выкладывать для пользования аудитории.
Более того, эта информация будет особенно полезна вам самим, когда вы вернетесь к этой таблице через некоторое время. Для этого ваш лист с метаданными должен полностью отвечать на вопросы о происхождении данных и степени доверия к ним.
Ваша программа-минимум – это следующие четыре пункта:
- О чем ваш набор данных. Это может быть заголовок таблицы. Но лучше, если он будет включать в себя временной и территориальный показатели. В нашем случае это «Заболеваемость населения инфекционными и паразитарными болезнями, 2012-2016, КР».
- Публикация или база данных, которая содержит этот набор данных и ссылка на эту публикацию. Запишем «Уровень жизни населения Кыргызской Республики 2012-2016, Бишкек, 2017» и дадим ссылку.
- Контакты людей, ответственных за публикацию этих данных. Эти контакты можно найти на том же сайте Национального Статистического Комитета, в разделе «Контакты». Скопируйте контактную информацию оттуда и добавьте на лист с метаданными.
- Дата скачивания вами этой таблицы. Это важно, чтобы задокументировать дату сохранения информации. Данные могут обновляться, изменяться или вовсе исчезать с сайтов. Данные, которые вы получили по запросу об информации, могут устареть или быть опровергнуты впоследствии. Ставя дату, вы обезопасите себя от недоразумений в будущем.
Должно получиться примерно так:
В этот же лист вы можете помещать любые примечания, аббревиатуры, определения, а также ваши личные заметки, которые вы будете делать в ходе дальнейшей очистки и анализа данных.