Альтернативные источники данных
Короткое описание урока: На этом уроке вы подробнее узнаете о других источниках данных, которые собираются с помощью НПО, краудсорсинга, журналистов и тд.
Часто, когда официальные источники данных недоступны, организации могут собирать данные методом краудсорсинга, с помощью граждан или группы подготовленных волонтеров. Другие альтернативные источники данных — базы данных неправительственных организаций (НПО), сенсоры, сообщения граждан, сообщения из средств массовой информации или утечки данных.
Данные, собранные методом краудсорсинга
Ushahidi — одна из наиболее известных платформ для сбора данных методом краудсорсинга. Ее используют для нанесения на карту подробной информации о природных катастрофах, политических кризисах и других событиях, где принципиально важен сбор и отображение данных в режиме реального времени. Система позволяет пользователям отправлять сообщения о происшествиях (таких как случаи насилия, фальсификации на выборах, преследовании со стороны полиции). Данные отправляются в централизованную систему для проверки, после чего база данных обновляется и сообщение привязывается к конкретному месту на карте.
Узнайте из этой презентации, как платформа Ушахиди была использована для создания проекта «Карта помощи».
Целью проекта был не мониторинг пожаров, а координация оказания помощи на основе базы данных о волонтерах и нуждающихся.
Данные гражданской журналистики
Во многих случаях средства массовой информации используют свидетельства очевидцев, а также призывают их присылать смс-сообщения, видео и фотографии — так называемая гражданская журналистика.
В этом примере радио Свобода пишет о сообщениях пользователей фейсбука: под тэгами #янебосюьсказати и #янебоюсьсказать женщины и девушки делились рассказами о пережитом сексуальном насилии. Как правило, при публикации пользовательских сообщений СМИ должно их верифицировать, хотя никто не застрахован от публикации ложного контента.
Данные и дроны
СМИ все чаще используют беспилотные летательные аппараты для оценки размера протестов, объема свалок, уровня обезлесения, и для сбора другой полезной информации с помощью аэросъемки. Например, издание Wall Street Journal разместило видео, снятые дронами, чтобы продемонстрировать масштаб протестов в Гонконге.
Другой пример использования дронов – благодаря аэросъемке, активисты начали оценивать масштабы стихийных свалок в зеленых зонах Киева. Несмотря на доступность таких технологий, следует помнить о защите частной жизни и о том, что дроны могут вызвать у людей ощущение слежки или подозрение в том, что беспилотник запущен государственными органами.
Данные и сенсоры
Данные, собранные с помощью сенсоров, часто используются для репортажей об экологических проблемах. Например, СМИ может распространять небольшие, недорогие датчики среди волонтеров и обучить их ими пользоваться. С их помощью они будут собирать данные о качестве воздуха, температуре воды, или сейсмической активности.
Посмотрите на экспериментальный проект aba.kg Move Green по сбору информации о загрязненности воздуха в Бишкеке. Создатели проекта установили датчики в центре города, и любой горожанин в режиме реального времени может получать данные с трех точек в городе с оценкой загрязнения воздуха и рекомендациями по уменьшению последствий для своего здоровья.
Анализ данных СМИ
Когда официальная информация по теме практически отсутствует, сбор уже опубликованных сообщений СМИ может стать ценным источником данных. Такую стратегию применяли для сбора данных о насилии в отношении женщин, о погибших в перестрелках с полицией, и о помощи КНР странам Африки.
Например, проект «Файлы Мигрантов» собрал воедино все сообщения о мигрантах, погибших на пути в Европу. Данные были собраны из материалов СМИ и других доступных источников, например, баз данных негосударственных организаций. В совокупности, эти сообщения дали гораздо более полную картину гибели мигрантов.
Риски
Классическая проблема, связанная с использованием альтернативных источников данных — их достоверность и полнота. Например, если путем краудсорсинга собирать данные о неудовлетворительном доступе к государственным услугам, то вполне вероятно, многие из интересующих вас людей также ограничены в способах коммуникации, чтобы сообщить о проблеме. Вот еще проблемы данных, собранных методом краудсорсинга:
- Предвзятость выбора: информацию предоставляют только те, у кого есть время, ресурсы и мотивация.
- Процесс верификации: люди наводняют систему недостоверными данными, и проверить, какие факты соответствуют действительности, весьма сложно.
- Контекст: из таких данных мы узнаем только то, что сказали сами люди, то есть теряется контекст, который нужен, чтобы объяснить данные.
- Конфиденциальность: иногда личные данные участников проекта становятся доступны, таким образом, каждый из них может быть под угрозой.
Посмотрите на белорусский проект «Карта насилия», который поставил целью собрать данные о случаях домашнего насилия. Необходимо понимать, что поделиться такими данными могут далеко не все жертвы, соответственно, по собранным данным нельзя оценивать ситуацию.
Такие проблемы есть у каждого из методов сбора данных. Но это не означает, что с такими данными нельзя работать! Идеальных данных в любом случае не бывает. Важно оценивать риски и принимать во внимание ограничения данных при их анализе.