Na centru za jezikovne vire in tehnologije predstavili Gigafido 2.0

14.06.2019 07:20 Ljubljana, 13. junija (STA) - Center za jezikovne vire in tehnologije Univerze v Ljubljani je danes predstavil novo različico korpusa Gigafida, Gigafida 2.0. Posodobljena različica je referenčni korpus pisne slovenščine, ki zajema dnevne časopise, revije, izbrani nabor spletnih besedil in knjižne publikacije različnih vrst. Vsebuje 1,1 milijarde besed.

Ustvarjalci so besedila izbrali in strojno obdelali z namenom, "da bi korpus kot vzorec sodobne standardne slovenščine lahko služil za jezikoslovne in druge humanistične raziskave, izdelavo sodobnih slovarjev, slovnic, učnih gradiv in razvoj jezikovnih tehnologij za slovenščino", so zapisali na centru za jezikovne vire.

V korpus so dodali dve skupini besedil. "Vsebinsko posodobitev prinašajo besedila izbranih spletnih besedilodajalcev z večjo produkcijo (npr. novičarski portali, dnevni časopisi ipd.). Na drugi strani smo dodali besedila, ki so bila v predhodni različici korpusa slabše zastopana, npr. šolska gradiva in leposlovna besedila." so zapisali.

Kot so še dodali, je Gigafida 2.0 v primerjavi s predhodnimi različicami korpus standardne slovenščine, saj so odstranili večino besedil, ki so vsebovala nestandardne jezikovne značilnosti, na primer uporabniške komentarje z novičarskih forumov.

Poleg tega so odstranili podvojena besedila oziroma besedilne fragmente ter izpopolnili strojno jezikoslovno označevanje in vnesli manjše spremembe pri zasnovi uporabniškega vmesnika.

Gigafida 2.0 je namenjena širši rabi, med ciljnimi skupinami "so denimo lektorji, prevajalci, učitelji slovenščine v osnovnih in srednjih šolah, njihovi učenci, tisti, ki se slovenščine učijo kot drugega ali tujega jezika, in podobni uporabniki". Korpus je dosegljiv na portalu Viri CJVT oziroma na povezavi https://viri.cjvt.si/gigafida/.

Za jezikoslovno rabo je korpus prosto dostopen tudi v konkordančnikih NoSketchEngine, Kontext in v orodju SketchEngine. V teh orodjih je dosegljiv tudi korpus Gigafida 2.0 Proto, v katerem so ohranili podvojene besedilne fragmente. Proto različica vsebuje 1,8 milijarde besed.

Kot so sporočili s centra, je korpus nastal v okviru projekta nadgradnje korpusov, ki ga je financiralo ministrstvo za kulturo.

Dnevne novice

V središču

Kolumne