Copy

Korpus govorjene slovenščine GOS

Vir meseca septembra na Portalu jezikovnih virov

V letu 2015 na Portalu jezikovnih virov poteka izobraževalno-promocijska aktivnost Vir meseca, v kateri predstavljamo različne zanimivosti v zvezi z jezikovnimi viri za slovenščino. Ta mesec predstavljamo prvi slovenski korpus govorjenega jezika GOS.

GOS sestavljajo posnetki govorjene slovenščine v različnih vsakodnevnih situacijah. Posnetki so transkribirani in umeščeni v zmogljiv vmesnik, s katerim lahko primere govora iščemo, poslušamo in preučujemo. Korpus je na voljo na www.korpus-gos.net.
GOS - Predstavitev
Posnetek v treh minutah predstavi osnovne informacije o iskanju po korpusu: kako izvedemo iskanje in v kakšni obliki so rezultati.

Korpus GOS je nastal pri projektu Sporazumevanje v slovenskem jeziku, v sklopu katerega so bili pripravljeni številni korpusi za slovenščino, poleg tega pa še vrsta drugih jezikovnih virov, baz in tehnologij. Projekt sta med letoma 2008 in 2013 financirala Evropski socialni sklad in slovensko Ministrstvo za izobraževanje, znanost in šport.

Korpus Gos obsega za okrog 120 ur posnetkov (po)govora v najrazličnejših vsakodnevnih situacijah: od radijskih in televizijskih oddaj prek šolskih ur in predavanj do zasebnih pogovorov med prijatelji ali v krogu družine ter raznih delovnih sestankov, svetovanj, pogovora ob prodaji, storitvah ipd. Govor je transkribiran v dveh različicah (standardizirani in pogovorni), da korpus lažje raziskujemo. V vmesniku je mogoče tudi poslušati pripadajoči del posnetka.

V spodnjem primeru recimo vidimo, kako se v korpusu pojavlja beseda jesen.

Zahtevnost gradnje korpusa GOS dobro ponazarja naslednja zanimivost: povprečno je transkribiranje dveh minut posnetka trajalo eno uro, torej je bilo samo za osnovni pogovorni zapis potrebnih okrog 3500 ur dela. Za tem je sledilo še usklajevanje gradiva, priprava standardiziranega zapisa, razvoj konkordančnika in vmesnika ... Več o metodologiji je mogoče prebrati v knjigi doktoric Verdonik in Zwitter Vitez: Slovenski govorni korpus GOS.

Eno od metodoloških vprašanj pri pripravi korpusa GOS je, koliko vpliva ima prisotnost snemalnih naprav na avtentičnost komunikacije: je pogovor v družini res enak, če udeleženci vedo, da jih nekdo snema? Snemalci so skušali zmanjšati ta vpliv tako, da so se za snemanje domenili s sorodniki, prijatelji, znanci, katerim so lažje natančno razložili namen snemanja in s tem vzpostavili potrebno zaupanje do projekta. Pri analizi posnetkov pa se je izkazalo, da je bila snemalna naprava za večino udeležencev moteča samo prvih deset minut snemanja, nato so jo uspeli odmisliti in pogovor se je sprostil. V korpus so bili zato vključeni segmenti iz sredine pogovorov, kar avtentičnost v splošnem izboljša, vendar lahko predvidevamo, da je nekaj dodatne kontrole - npr. pri izbire teme pogovora - pri govorcih vseeno ostalo.

Za raziskovanje po korpusu GOS so izredno dragoceni filtri, s katerimi lahko rezultate urejamo glede na tip govornega dogodka, regijo snemanja, leto snemanja, spol, starost, izobrazbo govorca ipd. Rabo filtrov prikazuje spodnji posnetek.

Zaradi dvojne transkribcije je mogoče v korpusu GOS iskati po pogovornem zapisu (tko ene tri tedne je rabla a ne) ali po standardiziranem zapisu (tako ene tri tedne je rabila a ne). Funkcija Seznam omogoča, da si ogledamo, katere pogovorne različice so zbrane pod posamezno standardno obliko. Pri obliki tako denimo najdemo: tko, tak, tk, tku, taku, teku, teko, taj, tek ... Kako izdelamo tak seznam, prikazuje spodnji posnetek.

GOS - Tako

Pri transkribiranju posnetkov za korpus GOS so bili označeni tudi nekateri spremljevalni dogodki, npr. smeh govorca ali smeh poslušalcev. Te oznake je mogoče pri iskanju podatkov upoštevati, kot prikazuje spodnji posnetek.

GOS - Smeh
Podatke iz korpusa GOS je mogoče statistično primerjati s podatki iz korpusov pisne slovenščine. Spodnja sličica npr. prikazuje besede, ki so v GOS-u v primerjavi s korpusom Kres najbolj tipične. Rezultati so sicer shematični, ampak vseeno ponujajo uporabno izhodišče za uvod v razpravo o razlikah med govorjenim in pisnim jezikom, npr. pri pouku slovenščine.
Na spodnjih slikah pa so pridevniki, ki se pojavljajo med najpogostejšimi 400 besedami v korpusih GOS (levo) in Kres (desno).
Še ena ideja, kako uporabiti GOS pri pouku slovenščine: v korpus vtipkamo glagol biti, da dobimo karseda širok nabor rezultatov. Nato s pomočjo filtrov izberemo po nekaj primerov različnih komunikacijskih situacij. Učenci s poslušanjem oz. raziskovanjem avtentične komunikacije spoznavajo razlike med javnim/zasebnim; formalnim/neformalnim; različnimi regijami/nadregionalnim standardnim; različnimi komunikacijskimi kanali ipd.
Dodatne posnetke in več informacij o pripravi korpusa lahko dobite na strani Portala jezikovnih virov. Spremljate nas lahko tudi na Facebooku, kjer bomo v oktobru predstavljali portal Termania.

Če vam je akcija "Vir meseca" všeč, obvestite o njej kolege oz. sodelavce, študente, prijatelje. Predvsem pa vam želimo uspešno in prijetno uporabo jezikovnih virov za slovenščino!
© 2015 Trojina, zavod za uporabno slovenistiko, Vse pravice pridržane.