Copy

Korpus pisne slovenščine Gigafida

Vir meseca junija na Portalu jezikovnih virov

V letu 2015 na Portalu jezikovnih virov poteka izobraževalno-promocijska aktivnost Vir meseca, v kateri predstavljamo različne zanimivosti v zvezi z jezikovnimi viri za slovenščino. Ta mesec predstavljamo največji in najsodobnejši korpus pisne slovenščine Gigafida.

Gigafida je obsežna zbirka sodobnih (1990-2011) slovenskih besedil iz časopisov, revij, knjig, s spleta itd., pripravljenih posebej za raziskovanje jezikovne rabe. Korpus obsega skoraj 1,2 milijarde besed. Korpus je prosto dostopen na strani www.gigafida.net.
GIGAFIDA - Predstavitev
Posnetek v treh minutah predstavi osnovne informacije o iskanju po korpusu: kako izvedemo enostavno iskanje in v kakšni obliki so rezultati.

Korpus Gigafida je nastal pri projektu Sporazumevanje v slovenskem jeziku, v sklopu katerega so bili pripravljeni številni korpusi za slovenščino, mdr. tudi korpus Šolar, ki smo ga v akciji Vir meseca predstavljali aprila, ter korpus govorjene slovenščine GOS, ki bo na vrsti septembra. Poleg korpusov je projekt razvil še vrsto drugih jezikovnih virov, baz in tehnologij. Projekt sta med letoma 2008 in 2013 financirala Evropski socialni sklad in slovensko Ministrstvo za izobraževanje, znanost in šport.

Ime Gigafida nakazuje povezavo s predhodnima korpusoma FIDA in FidaPLUS, izbrano pa je bilo z dolgega seznama predlogov, med katerimi so bili npr. tudi BREDA, FITAS, FUZITA, NAJKOS, NAREK, PEST, PIKOS, PISAR, PRES, REBUS, REKOPIS, REKS, RESJE, SINKO, SISL, SKRIPTUS, SLAVIST, SLOPIS, SLOREK, SLOVA, SLOVENSK, SLOVIST, SOKOL, SOPIS, SoS, SUFITA, VAST, VEKS, VERES, VEST, VIDA, ZAPIS ...
Gigafida je s skoraj 1,2 milijarde besedami največji korpus sodobne pisne slovenščine do sedaj. Korpusna besedila so bila po večini pridobljena prek založb, medijskih hiš, društev in drugih pravnih oseb - od skupno kar 250 različnih besedilodajalcev. Zbiranje besedil, ki je pri tako obsežnem projektu velik izziv, opisuje dr. Nataša Logar.
Ob gradnji korpusa Gigafida je bilo veliko energije usmerjene tudi v pripravo korpusnega vmesnika. Avtorji so želeli, da bi bila raba korpusa čimbolj intuitivna in da bi korpus lahko uporabljalo čimvečje število uporabnikov, ne samo jezikoslovci.

V sklopu promocije korpusa Gigafida so avtorji ponovno odprli anketo za uporabnike, v kateri lahko sporočite, kaj vam je pri korpusu všeč in kaj vas moti. Če korpus uporabljate, pa ankete še niste izpolnili, ste toplo vabljeni k sodelovanju, da bo korpus v prihodnje lahko še boljši.

Iz gradiva za korpus Gigafida je nastal tudi korpus Kres, ki vsebuje manj besedil, ampak je glede na zajete zvrsti natančneje uravnotežen. Oba korpusa lahko uporabljamo za različne vrste raziskav, strukturo pa je dobro poznati, da se izognemo napačnim interpretacijam podatkov. Informacije o vsebini in strukturi Gigafide in Kresa so na volji na spletnih straneh korpusov.

S podatki iz korpusov lahko pripravljamo zanimive statistike, ki so uporabne tudi za poučevanje. Spodaj si lahko npr. ogledate besedne oblake najpogostejših slovenskih glagolov, samostalnikov, pridevnikov in prislovov. Besedni oblaki so bili pripravljeni za vizualno predstavitev besednih vrst na Pedagoškem slovničnem portalu.
Na podatkih iz korpusa Gigafida je bila pripravljena tudi Igra besed, v kateri igralci ugibajo, katere besede se v jeziku tipično pojavljajo skupaj. Kateri pridevniki so pogosti ob besedi javnost? Kateri samostalniki stojijo ob pridevniku lepa? V igri se lahko pomerimo v dvoboju s prijatelji in ugotovimo, kako bogato je naše besedišče. Igra, ki ponuja zanimiv potencial za didaktične namene, bo v prihodnje nadgrajena in razvita tudi kot mobilna aplikacija.

Kako se besede v besedilih sopojavljajo, lahko v korpusu Gigafida raziskujemo v zavihku Okolica, kot prikazuje posnetek. Podatki o sopojavljanju so izrednega pomena za prevajanje, lektoriranje, pisanje novih besedil, uporabimo pa jih lahko tudi za pripravo učnih gradiv za učenje slovenščine.

GIGAFIDA - Zoprn
Podatke o sopojavljanju besed v korpusu lahko pri pouku uporabimo npr. za ponazoritev sinonimije v jeziku. Pomen pridevnikov ekonomski in gospodarski je podoben, ampak nastopata z različnimi samostalniki (ali z istimi samostalniki različno pogosto).
Za prevajalce in ustvarjalce bo morda koristen namig, da lahko Gigafido uporabimo za iskanje rim. V zavihku Seznam namreč lahko poiščemo besede, ki vsebujejo enak niz črk. Če v iskalno okence npr. vnesemo *ača, dobimo besede, ki se končajo na -ača (npr. plača, pijača, palača, igrača). Če pa pogoj postavimo še v narekovaje, dobimo seznam vseh ustrezajočih besednih oblik (npr. vrača, domača, plača, dirkača).
GIGAFIDA - Pogovor z dr. Natašo Logar 3
Za konec še enkrat koordinatorka gradnje korpusa Gigafida dr. Nataša Logar, ki nam je povedala, da je posodobitev korpusa že v načrtu. Z veseljem pričakujemo nove rezultate!
Dodatne posnetke in več informacij o pripravi korpusa lahko dobite na strani Portala jezikovnih virov. Spremljate nas lahko tudi na Facebooku, kjer bomo v mesecu septembru predstavljali korpus GOS.

Če vam je akcija "Vir meseca" všeč, obvestite o njej kolege oz. sodelavce, študente, prijatelje. Predvsem pa vam želimo uspešno in prijetno uporabo jezikovnih virov za slovenščino!
© 2015 Trojina, zavod za uporabno slovenistiko, Vse pravice pridržane.