Tere tulemast Keeleminutitesse! Täna arutleme Digi-Tammsaare kinnipüüdmise tõe ja õiguse üle ning selle mõju kirjandusele. Kas e-ajastul on kirjandusliku pärandi säilitamine muutunud lihtsamaks või keerulisemaks? Kuidas mõjutab digitaalne kinnipüüdmine meie arusaama kirjaniku loomingust ja pärandist? Liituge meiega, et avastada uusi perspektiive sellest, kuidas digimaailm mõjutab Eesti kirjandust ja kultuuri.
Eesti Keele Instituut on alates 2013. aastast kogunud veebis saadaval olevaid eestikeelseid tekste ning koondanud need kokku keelekorpuseks. Tänapäeval on korpus keele uurimisel ja kirjeldamisel ning sõnastike koostamisel asendamatu allikas. Selle aasta alguses valminud korpus sisaldab juba 3,8 miljardit tekstisõna, kirjutab EKI vanemarvutileksikograaf Kristina Koppel “Keeleminutites”.
Eesti Keele Instituut on alates 2013. aastast järjepidevalt kogunud eestikeelseid (digi)tekste ning koondanud need kokku eesti keele ühendkorpuste sarjaks. Kuna instituudis tegeldakse muuhulgas tänapäeva eesti keele uurimisega, on oluline, et uurimismaterjal oleks ajakohane. Seetõttu uuendatakse ka korpuse sisu iga paari aasta tagant. Nii ongi eesti keele ühendkorpuste sarjas kümne aasta jooksul ilmunud viis versiooni. Neist uusim, 2024. aasta alguses valminud korpus on eelmisest ligi kolmandiku võrra mahukam ning sisaldab juba 3,8 miljardit tekstisõna. (Võrdluseks: kümme aastat tagasi oli korpuse maht vaid 563 miljonit tekstisõna.)
Ühendkorpus on kaasaegseim, mahukaim ja žanriliselt mitmekesiseim keeleallikas. Suures osas koosneb see erinevates meediaportaalides ja perioodikaväljaannetes avaldatud tekstidest. See ei ole üllatav, sest viimastel aastatel on mitmed neist lõpetanud paberlehe väljaandmise ning publitseerivadki vaid veebis. Palju on korpuses ka ametlikke tekste ja haldustekste, asutuste (ministeeriumid, ülikoolid, teatrid, muuseumid, era- ja suurfirmad) ja veebipoodide kodulehtedelt kogutud tekste jpm. Puudu on küll suuline ja sotsiaalmeedias kasutatav keel, mida mõnevõrra korvab blogidest ja foorumitest kogutud netikeel, millel on palju suulise keele jooni. Mõnevõrra sisaldab korpus kõrgetasemelisi teadusartikleid, eraldi jõupingutusi oleme teinud (ja teeme edaspidigi) ilukirjanduse lisamiseks ning masintõlkeliste tekstide tuvastamiseks ja eemaldamiseks.
Ilukirjanduse lisamine korpusesse ei ole niisama lihtne kui avalikus veebis olevate tekstide kogumine – kuna ilukirjandus on kaitstud autoriõigustega, tuleb pidada läbirääkimisi autorite ja/või kirjastustega. Ka vanemate, meie seast juba lahkunud autorite teoste lisamisel on omad piirid, sest nende surmast peab olema möödunud 70 aastat – täpselt nii kaua kehtib seaduse järgi autoriõigus. Lisaks võib vanade tekstide puhul peavalu valmistada nende viimine masinloetavale kujule, millega tänapäevased tekstimärgendajad hakkama peaksid saama, eriti kui arvestada seda, et 20. sajandi alguses kasutati veel palju gooti kirja.
Eelnevalt kirjeldatud murekohtadest hoolimata oleme uusimas ühendkorpuses suutnud ilukirjanduse mahtu kasvatada varasemast lausa viis korda, nüüd on seal umbes 1940 teost. Sekka oleme võtnud nii vanemat kui ka kaasaegsemat kirjandust. Vanema ilukirjanduse (aastatest 1864–1945) seas on tüvitekste (nt “Tõde ja õigus”, “Mäeküla piimamees”, “Põrgupõhja uus vanapagan”, “Külmale maale” jm) sellistelt autoritelt nagu A. H. Tammsaare, E. Bornhöhe, E. Vilde, V. Grünthal-Ridala, A. Kitzberg, J. Liiv, F. R. Faehlmann ja C. R. Jakobson. Kaasaegsema ilukirjanduse (aastatest 2000–2023) seas on teoseid näiteks autoritelt nagu K. Ristikivi, T. Õnnepalu, A. Kivirähk, R. Kaugver, A. Ehin, J. Undusk, A. Beekman jpm. Samuti sisaldab korpus tõlgitud teoseid autoritelt E. Brontë, R. Pilcher, R. Stout, J. Austen, A. Christie, V. Woolf, U. Eco, W. Shakespeare, T. Jansson, S. King, J. K. Rowling jpt.
Rõõmustame EKI-s, et oleme suutnud eesti keelt koguda juba 3,8 miljardi tekstisõna mahus ning sealjuures kasvatanud korpuses ka ilukirjanduse osakaalu. Sõnad ega tekstid ei saa eesti keeles aga otsa, vastupidi, neid tuleb aina rohkem ja rohkem juurde. Nii loodame meiegi iga uue ühendkorpuse versiooni kasvatada aina suuremaks, tänu millele saame pakkuda veelgi rohkem ajakohast keeleinfot.
Keeleminutid. Digi-Tammsaare kinnipüüdmise tõde ja õigus on oluline teos, mis toob esile digiajastu mõju Eesti kirjandusele. Autor Annika Kupits avab Tammsaare loomingut uues valguses, rõhutades tema teoste kaasaegsust ja olulisust ka tänapäeva lugejatele. Raamat julgustab arutlema keele ja kultuuri arengu üle ning pakub huvitavaid vaatenurki Eesti kirjanduspärandi uurimiseks. See on oluline panus Eesti kirjandusteadusele ja innustab lugejaid avastama Tammsaare teoste sügavamat tähendust digitaalses maailmas.
Võib-olla tunnete huvi:
Kõigi riigiteenistujate 35-päevast puhkust seadusesse siiski ei kirjutata | Eesti
Selgus Prantsusmaa jalgpallikoondis koduseks olümpiaks | Jalgpall
Djokovic tagas Wimbledonis koha poolfinaalis | Tennis
Võrklaev soovitas Rail Balticu ettevõtte viia börsile | Majandus
Vene parlament kinnitas maksutõusud | Välismaa
Briti ja Prantsuse valimissüsteemid moonutavad tulemusi stabiilsuse nimel | Ühiskond
EM-i blogi | Kellest saab teine finalist? | Jalgpalli EM
Rein Sikk: igaüks, kes Venemaale läheb, maksku Eestile kümme eurot | Arvamus