Маалыматтардын форматы
Сабактын кыскача мазмуну: Бул сабактан сиз маалыматтардын компьютер менен иштөөгө арналган форматтары тууралуу биле аласыз.
Дата маалыматтар кантип жаралат? Маалыматтар каттоо жараянында (мисалы, балдардын төрөлүшү боюнча маалыматтар), анкета жүргүзүү аркылуу (мисалы, эл каттоо), добуш берүү жараянында (мисалы, шайлоо жыйынтыктары), сатуу-алуу жараянында (мисалы, интернет-дүкөндөгү сатуулар боюнча маалымат) чогултулат. Ошондой эле даталар мобилдик телефон, билдиргич, интернет, спутник (мисалы, GPS маалыматтар) жана башка көптөгөн технологиялардын иштешинин натыйжасында пайда болот.
Адамдар үчүн дата маалыматтар
“Бизде ар бир банкасы 200 сомдон турган, салмагы 750 грамдык балдан беш банка бар” деген жөнөкөй сүйлөмдүн маанисин адамдар жеңил эле кабыл алат, бирок компьютер эмес. Жогорудагы сүйлөмдү биз структурага салынбаган (unstructured) дата деп атайбыз. Мында маалыматтар бекилген базалык структурага ээ эмес: сүйлөмдү оңой эле өзгөртсө болот, кайсы сөз кайсы өлчөмгө тиешелүү экени түшүнүксүз.
Ушундай эле PDF-файлдар жана сканерленген сүрөттөрдө адамга түшүнүктүү, мыкты жазылган маалымат болушу мүмкүн. Бирок компьютерге эмес, анткени ал машина окуй алчу форматка салынбаган.
Компьютерлер үчүн маалыматтар
Компьютерлер адамдардан айырмаланат. Компьютерге кээ бир булактардан маалыматты кабыл алдыруу кыйын. Адамдар оңой эле жасап салчу тапшырманы компьютердин жардамында автоматташтыруу татаал. Мисалы, сүрөт турүндө берилген тексти чечмелөө компьютер үчүн азыр да көйгөй бойдон. Эгер компьютериңиз сиздин маалыматтарды тазалап, анализдешин кааласаңыз, анда техникада окуп, иштеп чыкканга мүмкүнчүлүгү болушу керек.
Дата маалыматтардын форматы: машина окуй ала турган, машина жарата ала турган жана структураланган
Бул форматтарда программалык камсыздоо маалыматтын структурасын түшүнө алат – адатта бул тилке менен саптан турган таблица, алар маалыматтын анык бир элементтерин уюштуруп, сүрөттөп турат. Эң популярдуу таблица форматтары – Excel жана CSV. CSV – бул түзмө-түз которгондо “үтүр менен ажыратылган маани” (comma-separated values).
CSV форматтары (үтүр менен ажыратылган маани) жана TSV (табуляция белгилери менен ажыратылган маани) – бул таблица түрүндөгү маалыматтарды “кодировкалаш” үчүн колдонулган форматтар. Жөнөкөйлөтүп айтканда, CSV жана TSV – тексттик файл, анда ар бир линия – маалымат сапчасы, а андагы тилкелер үтүр ( CSV) же табуляция белгиси ( TSV) менен ажыратылат.
Белгилей кетүү керек: структурага салынган жана машина окуй ала турган дагы башка форматтар абдан көп.
Мындай форматтар, адатта маалыматты анализдөөгө абдан жакшы, сиз алар менен бардык таблицалык программаларда иштей аласыз, мисалы, Microsoft Office Excel. Эгер сиз маалымат издеп жатып, Excel же CSV форматындагы маалыматтарды тапсаңыз, анда форматтоого көп убакыт сарптап отуруудан кутуласыз.
Таблицалык маалыматтар менен иштөө инструменттери: Libre Office, Google Таблицалары же Microsoft Excel.
PDF форматындагы маалыматтар
PDF файлдардын бир нече түрү бар.
PDF менен иштөөдө берилчү биринчи суроо – файлдар компьтерде түзүлгөнбү? Башкача айтканда, файл PDF форматта сакталганбы же маалыматты басып чыгарып, анан сканерлеп коюшканбы?
Экинчи суроо – файлдын ичиндеги маалыматтар структурага салынганбы? Башкача айтканда, алар сапча, тилкеден турган таблица түрүндө берилгенби?
Эң акыркысы – документте издөө функциясы барбы? Адатта документ компьютерде түзүлгөн болсо, издөө мүмкүнчүлүгү бар. Издөө функциясы документтин ичинен текстти бөлүп алууга шарт түзөт, жыйынтыгында компьтер тамга жана сандарды тааный алат.
Структурага салынган PDF маалыматтары
PDF файлдарда көбүнчө компьютерде түзүлүп, структурага салынган таблицалар болот. Бирок PDF формат маалымат менен иштөөгө жол бербейт. Ал таблицалык процессорлордун жардамында ачыла турган форматка өзгөртүлүшү керек. Башкача айтканда, PDF файлды атайын программалык камсыздоо аркылуу туура келчү форматка өткөрүү керек. PDF`ден маалыматты чыгарып алууну курстун практикалык бөлүгүнөн үйрөнөсүз.
Инструменттер: Tabula, CometDoc, PDFtoExcel, Zamzar
Сканерленген сүрөттөрдөгү маалыматтар
Бул адатта компьютер айрым-айрым бөлүккө ажыратылган эмес, маалыматтын бир килейген блогу катары окучу сүрөт. Мындай файлдар башында компьютерде түзүлөт, басылып чыгарылат, анан сканерден өткөрүлөгөн болот. Ушинтип, файл чоң бир сүрөткө айланат. Аларды иштетүү үчүн оптикалык таануу программалары талап кылынат.
Мисалдар: Айрым PDF жана GIF, JPEG, PNG, BMP форматындагы сүрөттөр
Инструменттер: Google Docs OCR, Document Cloud
Структурага салынбаган форматтагы маалыматтар
Айрым маалыматтар компьютерде түзүлөт, бирок компьютер окуй ала турган структурага ээ эмес. Бул текст катары жазылган маалыматтар, айрым веб-сайттардагы маалыматтар болушу мүмкүн. Бул учурда программист структураны тааный алчу анча чоң эмес код жазат да, аны керектүү форматка чыгара алат.
Инструменттер: morph.io. аркылуу маалыматты скрейпинг кылуу үчүн Python же Ruby программалоо тилдери. .
Маалыматтардын анча көп тарабаган форматтары
Айрым маалыматтар, айрыкча ири маалымат базалары пакет менен сакталат, аларды веб-сайтка жиберип же статистикалык программалык камсыздоо аркылуу иштетсе болот. Мисалы, Stata же R статистика менен иштөө үчүн программалоо тили. Аларды таблица программасында ачуу үчүн CSV же Excel форматына өткөрүү керек .
Мисалы: SAV жана R үчүн JSON (JavaScript Object Notation) же XML (белгилөөнүн кеңейтилүүчү тили) . JSON файлын CSV`ге өзгөртүү үчүн Konklone колдонуңуз.
Форматтар тууралуу кенен маалымат бул жакта. .