Маалыматты чыгарып алуу (скрейпинг)
Сабактын кыскачу мазмуну: Бул сабак сизге маалыматты машина окуй ала турган форматка өткөрүүнү (конвертация) үйрөтөт.
Скрейпинг жана маалыматты чыгарып алуу техникасы веб-баракчалардан, PDF-документтерден же дагы башка машина окуй албай турган форматтардан таблица түзүүгө мүмкүндүк берет.
Бул сабакта биз PDF-документтен таблицаны чыгарып алабыз.
Табула программасынын жардамында маалыматты чыгарып алуу
Табула – PDF файлдардан таблица түрүндөгү маалыматтарды чыгарып берет. Бул абдан ыңгайлуу инструмент. Программа сиздин браузерде ачылат, бирок локалдык туташууну колдонот – бул Табуланы колдонууда интернеттин керек жок дегенди түшүндүрөт.
Табуланы орнотуу
- Windows`та иштесеңиз, алгач сиздин компьютериңизде Java бар экенин текшериңиз. Аны бул шилтемеден көчүрүп алса болот. MacOS үчүн мунун кереги жок.
- Табуланын расмий сайтына кириңиз .
- Табуланын сиздин операциялык системаңызга туура келе турган версиясын жүктөп алыңыз.
- Сиздин компьютериңизге зип файл көчө баштайт. Архивди чыгарып алыңыз (извлечь) – сиз «tabula» папкасын аласыз.
- Ушул папканы ачыңыз, программаны орнотуңуз. Коду бар терезе ачылат, демек, орнотуу жараяны башталды.
- Андан кийин веб-браузердин терезеси ачылат. Бул Табула. Эгер браузер ачылбай жатса, http://127.0.0.1:8080 ушул даректи терип кириңиз.
Табула браузерде ушундай көрүнүштө болот:
Табуланы колдонобуз
Улуттук статистикалык комитеттин «Кыргыз Республикасындагы калктын жашоо деңгээли, 2012-2016» деп аталган жылдык басылмасынан таблицалардын бирин Табуланын жардамында чыгарып алалы. Алгач басылмадан 114-бетти жана “Таблица VI.н: Заболеваемость населения инфекционными и паразитарными болезнями” таблицасын табыңыз.
Келгиле, аны таблица форматына чыгарып алабыз.
Табула сиздин браузерде ачылганда, Browse баскычын басып, басылма бар файлды табыңыз.
Эми Import басыңыз. Бул бир аз убакытты алышы мүмкүн, анткени Табула бүт файлды өзүнө жүктөйт. Эми файлдын көрүнүшү (превью) ачылды.
Документ жүктөлүп бүткөндөн кийин бизге керек таблицаны табыш үчүн аны 114-бетке чейин барактаңыз.
Табула документтин ичичндеги сизге керектүү гана таблицаны тандап алууга мүмкүндүк берет. Таблицаны белгилеп алуу үчүн “Autoselect tables” функциясын колдонсоңуз болот, бирок көлөмдүү документ менен иштегенде андан баш тарткан оң. Сиз эмнени тандаганыңызды дайыма көрүп тура аласыз – ошол област кызыл менен белгиленип калат. Тандооңузду тандалган областтын бурчтарын ары-бери тартуу менен тууралап алсаңыз болот. ‘Clear all selections’ функциясы бардык белгилөөлөрдү өчүрүп берет.
“Таблица VI.н: Заболеваемость населения инфекционными и паразитарными болезнями” таблицасын тандаңыз.
Маанилүү жагдай: Таблицага тиешеси жок элементтерди кошо белгилебеңиз. Табула pdf файлдардагы таблица структураларын гана тааный алат, демек, таблицанын ичиндеги жазууларды гана белгилөө талап. Ошол эле учурда эң четки саптарды кыркып салбоо керек. Сиз муну бир секунддан кийин эле текшерип алсаңыз болот.
Preview & Export Extracted Data басыңыз.
Кийинки терезе ачылат, сиз чыгарып алган маалымат машина окуй ала турганын, структурага салынганын превьюда көрө аласыз. Таблица туура эле көрүнүп жатабы? Текшериңиз. Эгер бир нерсе жетпей турса, артка кайтып, башынан белгилеп чыгыңыз.
Кээде pdf форматта аталыштар таблицанын ичине форматталып калат, биз аны белгилегенде, Табула таблица структурасын жоготуп алат. Мындай учурда таблицаны аталышы жок белгилеп алып, кийин кол менен терип коюу керек.
Чыгарылып алынган маалыматтын көрүнүшүн оңдоонун дагы бир жолу – чыгарып алуу ыкмасын өзгөртүү. Сол жактагы менюдан көрүп турганыңыздай, чыгарып алуунун эки жолу бар: Stream жана Lattice. Stream маалыматтардын ортосундагы бош жерлерге ориентация алат, а Lattice – уячалардын (ячейкалардын) чектерине карайт.
Таблица туура чыгарылган соң, файлды Export функциясы аркылуу CSV форматында экспорт кылыңыз.
Эми ал маалымат менен Excel сыяктуу таблица программаларында иштесеңиз болот. Бирок биз эми CSV`ди импорттоп алышыбыз керек. Бул жөнүндө кийинки сабак.