Autor
Sõnum
Timo Kalmu









Sõnumeid:784
:: Tsiteeri ::
Teema: Digihumanitaaria õppematerjalide komplekt
Jaagup Kippar
4 hrs

Digihumanitaaria õppematerjalide komplekt

HITSA tellimusel panin kokku üksteist toetavad kolm õpikut, mis tervikuna läbi töötades annavad tehniliste põhioskuste komplekti enamike valdkonnas ette tulevate ülesannete tarbeks. Esmase sihtgrupina arvestasin üliõpilasi sõltumata eelteadmistest ja erialast, kuid peatükke oma teemade lahendamiseks on edukalt kasutanud Tallinna Reaalkooli keskkooliõpilased, käsiraamatuna omale vajalike lõikudega tutvumiseks ka uurijad. Tehnoloogiaid ja meetodeid kasutatakse materjalides mitmeid, enamikul juhtudel valitakse kohad, kus suhteliselt väiksema tehnilise tööga on võimalik juba kasutatavaid tulemusi saada. Materjalid toetuvad näidetele, need on võimalikult kompaktsed, terviklikud ja töötavatena teksti sisse kopeeritud - nii saab näite alati oma masinas tööle panna ning siis lähemalt uurima, muutma ja vajadust mööda täiendama hakata. Õpikuid saab vastavalt vajadusele kasutada eraldi tervikutena, järgnev kirjeldus aga ülikoolikursustel kasutatavas järjekorras, kus püütakse konkreetsemalt üldisema poole liikuda.


Digihumanitaaria tehnoloogiad

Tehnoloogiateks regulaaravaldised, shell, Python, pandas, SQL ja PHP. Komplektist piisab sobivate andmete eraldamiseks, filtreerimiseks, väärtuste arvutamiseks, kokkuvõtete tegemiseks ja esitlemiseks ka suuremamahuliste andmestike (~miljon üksust) korral.

Alustatakse näitega, kuidas veebilehelt kopeeritud andmeid puhastada ja süstematiseerida selleks tekstiredaktori ja tabelarvutussüsteemi võimalusi kasutades. Hinnatakse Vikipeedia nimeloendite abil, kui palju on uuritaval lehel meeste ja naiste nimesid ja näidatakse, kuidas leitud tulemusi mitmel moel esitada. Tekstist andmete otsimiseks tutvutakse regulaaravaldistega, filtreeritakse ja järjestatakse käsureaskripti abil. Andmete töötlemiseks tehakse tutvust Pythoni keelega - algul käsurealt, kus ühe käsu kaupa on võimalik paljutki korda saata. Pythoni pandas-pakett võimaldab mahukaid andmeid automatiseeritult töödelda tabeli kujul ning neist hiljem matplotlib-i abil ka jooniseid luua. Natural Language Toolkit koos estnltk-ga aitab tekstide grammatilisi omadusi küsida ning nende abil esialgu raskesti märgatavaid seaduspärasusi avastada. Andmebaasivahenditega tutvutakse MySQLi kaudu, hiljem lisatakse juurde ka PHP, et tulemusi saaks veebi kaudu vaadata ning otsinguid kasutaja antud väärtuste järgi suunata. Võrreldes 2018. aasta sügisel valminud konspektiga kirjutati uue õpetusringi käigus veerand materjali juurde või ümber.

[docs.google.com]


Kvantitatiivne digihumanitaaria

R-keele kaudu tutvutakse põhiliste andmetöötlusmooduste ning levinumate testidega. Automatiseeritud tabelitöötlus tidyverse abil, joonised ggplot-i abi. Võimaluse korral kasutatakse läbivalt samu ja tuttavaks saanud kolme teksti andmeid. Võrdlemiseks proportsioonide test, hii-ruut test, t-test ja ANOVA. Nende abil saab lisaks tavapärastele võrdlustele ja keskmistele juurde lisada usaldusvahemikud ja tõenäosused oma väidete kinnitamiseks või ümber lükkamiseks. Koos liikuvate tunnuste väärtuste märkamiseks korrelatsioon, ennustamiseks regressioon. Pikem tähelepanu paljude tunnustega objektide omavaheliste sarnasuste leidmisele - peakomponentide analüüs ning mitmemõõtmeline skaleerimine. Nende rakendusnäiteks muuhulgas tekstide stilomeetria - tekstide sarnasuste näitamine. Ühtlasi on nõnda õppuritel klassis võimalik omi (koolitööde) tekste võrrelda omavahel ning tuntud autorite omadega. Eesti presidentide kõnedega võrreldes näiteks selgus, et lauseehituse poolest on üliõpilaste tekstid enamikus sarnaseimad Arnold Rüütli omadele. Õppematerjali lõpuosas tutvustus, kuidas samad operatsioonid ette võtta Pythoni keele pakettidega pandas ja scipy.

[docs.google.com]


Kvalitatiivne digihumanitaaria

Materjalis keskendutakse võimalusele esialgu varjatuks jäävaid omadusi esile tuua. Järgnevustest moodustatud puud toovad välja mustrid - olgu tekstide või muusika juures. Üliõpilased kodutöid tehes mõistsid näidete varal samal moel mustreid tuvastada ka filmiseriaalide vaatamiste järjekordi analüüsides, ajaloosündmusi järjestades ning maletaja partiide avanguid uurides. Puid illustreeritakse nii struktueeritud tekstina, interaktiivse veebilehena kui hiljem joonisena. Puust keerukam lahendus on graaf, kus joonistub välja järgnevuste või muude seoste võrgustik. Graafe uuritakse ja illustreeritakse valdkonnas paaril viimatisel aastal juhtrolli saanud Gephi-nimelise tarkvara abil, hiljem veebilahendused ka Cytoscape raamistikuga. Lisaks staatilistele rühmitamistele ja levinumate teede leidmisele koostatakse ka ajast sõltuvad animatsioonid, kus näha ühe parameetri muutumisel muutused teiste väärtuste juures. Materjalis kasutatakse läbivalt Eesti Kirjandusmuuseumi Eesti Rahvaluule Arhiivi regilauluviiside andmeid. Need on "katsejänesteks" ka Midi.JS teegi abil nootide ja viisilõikude mängimise juures. Üliõpilased panid näidete järgi kokku erisuguste pillide mudeleid. Omaette lõiguks on kaardirakendused - valmisteekide abil saab asukohti vähese vaevaga märkida kaardile, veidi pikemalt süvenedes saab paika ka teekonnad ja alade märgistus. Muude andmetega ühendatult koostatakse näide, kus erisuguste algustega viisilõikude asukohad kaardilt mugavasti näha on. Leaflet ning Maaamet üheskoos pakuvad mugava tasuta võimaluse Eesti piires mitmekülgsete kaardilahenduste loomiseks. Materjali lõpuosas õpitakse mitmesuguseid veebis töötavaid kasutaja tegevusele reageerivaid jooniseid koostama.

[docs.google.com]
10.02.20, 16:27

Vabandust, kuid ainult registeeritud kasutajad saavad postitada teateid sellesse foorumi.