Форматы данных
Короткое описание урока: На этом уроке вы узнаете о форматах данных для работы на компьютере.
Как появляются данные? Данные собираются в процессе учета и регистрации (например, данные о рождаемости), путем анкетирования (например, данные переписи населения), в процессе голосования (например, данные результатов выборов), в процессе купли-продажи (например, данные о продажах в интернет-магазине). Данные также образуются в результате работы мобильных устройств, датчиков, интернета, спутников (например, данные GPS) и многих других технологий.
Данные для людей
Смысл простого предложения «У нас есть 5 банок меда весом в 750 граммов по 200 сомов за каждую банку» легко понятен человеку, но не компьютеру. Предложение выше – это то, что мы называем неструктурированными (unstructured) данными. Такие данные не имеет фиксированной базовой структуры – предложение легко может быть изменено, и неясно, какое слово относится к какому значению. Аналогично, PDF-файлы и отсканированные изображения могут содержать информацию, которая понятна человеку, поскольку она хорошо написана, но не компьютеру, так как она не в машиночитаемом формате.
Данные для компьютеров
Компьютеры по своей сути отличаются от людей. Сложно заставить компьютеры извлекать информацию из определенных источников. Некоторые задачи, с которыми люди легко справляются, трудно автоматизировать с помощью компьютеров. Например, интерпретация текста, представленного как изображение, по-прежнему является проблемой для компьютера. Если вы хотите, чтобы ваш компьютер обрабатывал и анализировал ваши данные, он должен иметь возможность их читать и обрабатывать. Такая информация должна быть в структурированном и машиночитаемом формате.
Форматы данных: машиночитаемые, машинно-генерируемые, структурированные
В этих форматах программное обеспечение может распознать структуру данных – чаще всего это таблица из столбцов и строк, которые организуют и описывают отдельные элементы данных. Самые популярные табличные форматы – Excel и CSV. CSV – это буквально “значения, разделенные запятыми” (comma-separated values).
Форматы CSV (значения, разделенные запятыми) и TSV (значения, разделенные знаком табуляции) – это форматы, которые используются для «кодировки» табличных данных. Проще говоря, файлы CSV и TSV – это текстовые файлы, в которых каждая линия – это строка данных, а колонки в ней разделены запятой (в CSV) или знаком табуляции (в TSV).
Стоит отметить, что есть еще много форматов, которые структурированы и машиночитаемы.
Подобные форматы, как правило, лучше всего подходят для анализа данных, и вы можете работать с ними в любой табличной программе, например, в Microsoft Office Excel. При поиске данных, если вам удалось найти данные в формате Excel или CSV, это означает, что вам не придется тратить много времени на их форматирование.
Инструменты для работы с табличными данными: Libre Office, Google Таблицы или Microsoft Excel.
Данные в PDF
PDF файлы бывают нескольких различных видов.
Первый вопрос, который стоит задать при работе с PDF – созданы ли эти файлы на компьютере или нет? То есть, был ли файл сохранен в формате PDF, или его распечатали и отсканировали как изображение.
Второй вопрос – структурированы ли данные внутри файла? То есть, представлены ли они в виде таблицы со столбцами и строками.
Наконец, есть ли функция поиска по документу? Как правило, поиск возможен, если документ был создан на компьютере. Функция поиска позволит выделять текст внутри документа, и компьютер будет распознавать буквы и цифры.
Данные PDF в структурированном видe
Файлы PDF часто содержат структурированные таблицы, сгенерированные на компьютере, но формат PDF не подходит для работы с данными. Таблица должны быть преобразована в формат, который можно открыть с помощью табличных процессоров. То есть, требуется извлечь данные из PDF и перевести в подходящий формат с помощью специального программного обеспечения. Вы научитесь извлекать данные из PDF на практических занятиях курса.
Инструменты: Tabula, CometDoc, PDFtoExcel, Zamzar
Данные в отсканированных изображениях
Это, как правило, изображения, которые читаются компьютером как один гигантский блок информации, а не то, что можно разбить на отдельные части. Как правило, такие файлы изначально были сгенерированы на компьютере, а потом распечатаны и отсканированы. Таким образом, файл превратился в гигантское изображение. Для обработки таких файлов требуются программы оптического распознавания.
Примеры: Некоторые PDF и все растровые изображения (GIF, JPEG, PNG, BMP)
Инструменты: Google Docs OCR, Document Cloud
Данные в неструктурированных форматах
Некоторые данные были сгенерированы на компьютере, но не имеют структуры, распознаваемой компьютером. Это могут быть данные, записанные в виде текста, некоторые данные на веб-сайтах. В таком случае программист должен написать небольшой код, чтобы распознать структуру данных и извлечь их в необходимый формат.
Инструменты: языки программирования Python или Ruby для скрейпинга данных с помощью morph.io.
Менее распространенные форматы данных
Некоторые данные, особенно большие базы данных, сохраняются пакетами, которые можно отправить на веб-сайты или обработать с помощью статистического программного обеспечения, например, Stata или языка программирования для работы со статистикой R. Чтобы их можно было открыть в табличной программе, их нужно преобразовать в CSV или Excel формат.
Примеры: JSON (JavaScript Object Notation) или XML (расширяемый язык разметки) для программирования и .SAV или .R. Попробуйте использовать Konklone, чтобы переконвертировать JSON файл в CSV.
Больше информации по форматам данных тут.