Проверка данных
Короткое описание урока: из этого урока вы узнаете о том, на какие вопросы нужно ответить, чтобы доверять своим данным.
Мы привыкли верить официальным документам (особенно тем, где есть цифры). Однако в данных тоже бывают ошибки, нечаянные или нарочные. В этом уроке мы будем задавать вопросы, которые помогут нам оценить источник данных и сами данные.
Чтобы проверить качество информации, вам нужно ответить на шесть классических журналистских вопросов – по-английски они звучат как 5W and 1H.
Who? Кто?
Какая организация собрала и/или опубликовала эти данные? Доверяете ли вы этой организации? Является ли эта организация надежным источником данных?
Наши данные появились из отчета «Уровень жизни населения Кыргызской Республики 2012 – 2016» и опубликованы Национальным Статистическим Комитетом КР в 2017 году.
What? Что?
Что измеряет набор данных? Адекватно ли это измерение? Понятны ли все показатели?
Перед нами таблица «Заболеваемость населения инфекционными и паразитарными болезнями». Заболеваемость измерена количеством случаев, разбитых по 21 типу заболеваний. Это не список всех заболеваний, а только инфекционных и паразитарных, значит наш материал может быть только об этих недугах. Также важно помнить, что это не все возможные инфекционные и паразитарные заболевания, а только те, что попали в эту таблицу.
Where? Где?
Где были собраны эти данные? Были ли они собраны в одном отдельно взятом регионе или во всех регионах страны?
Мы работаем с данными, собранными по всей Кыргызской Республике. Они не разбиты на регионы, и значит мы можем судить лишь о динамике по всей стране.
When? Когда?
Какой временной промежуток охватывает этот набор данных?
В таблице представлена динамика заболеваний за пять лет, с 2012 по 2016. Значит, мы можем посмотреть, насколько изменилась заболеваемость в эти годы.
Why? Почему?
С какой целью производился сбор данных?
Данные собирались в процессе регистрации заболеваний каждым врачом. Здесь важно понимать, могло ли произойти умышленное или нечаянное преувеличение или преуменьшение данных.
How? Как?
Это, пожалуй, самый важный и самый сложный вопрос.
Какова методология сбора данных? Занималась ли эта организация сбором данных самостоятельно, или она привлекла для этой цели другую компанию? Прошли ли работники специальное обучение? Эти данные реально собраны или экстраполированы из небольшой выборки? Что сказано о погрешностях и неточностях данных? Какие демографические группы могут быть не охвачены этими данными?
Попробуйте ответить на этот вопрос сами.
На заметку: если вы будете соединять и сравнивать схожие данные, удостоверьтесь, что их сбор проводился по одной и той же методологии. Также можете проверить данные, сравнив их с данными по той же теме из других источников – негосударственных или международных.