Resurs

Hrvatski nacionalni korpus

Hrvatski nacionalni korpus (HNK) usustavljena je zbirka odabranih tekstova pretežito suvremenoga hrvatskoga jezika koji pokrivaju razne medije, žanrove, stilove, područja i tematiku. Sâm je korpus, popraćen dodatnim lingvističkim i nelingvističkim podatcima. Više o HNK-u možete pronaći ovdje.

Ovaj kratki video pomoći će vam pri korištenju Hrvatskog nacionalnog korpusa
Resurs

Hrvatski morfološki leksikon

Hrvatski morfološki leksikon leksička je baza koja se sastoji od više od 45.000 riječi općega jezika, 15.000 osobnih muških i ženskih imena i 50.000 prezimena registriranih u Republici Hrvatskoj. Na temelju toga rječničkoga blaga proizvedeno je više od 3.900.000 njihovih oblika. Morfosintaktički opisi (MSD) usklađeni su s MulTextEast v 3.0 preporukama za hrvatski jezik. Leksikon može biti od koristi kako učenicima hrvatskoga jezika (kako izvornim govornicima, tako i strancima koji uče hrvatski), tako i stručnjacima i sustavima za pretraživanje (Internet i intranet tražilice), crpljenje obavijesti, dubinsku obradbu teksta i računalnolingvističku obradbu hrvatskih tekstova.

Ovaj kratki video pomoći će vam pri korištenju Hrvatskog morfološkog leksikona
Resurs

Hrvatski Wordnet

Hrvatski Wordnet semantička je mreža hrvatskoga jezika. CroWN slijedi strukturu princetonskog WordNeta i povezan je s njegovom inačicom 3.0. Temelj organizacije CroWN-a su sinonimski skupovi ili sinskupovi (synsets). Sinonimski se skupovi sastoje od imenica, glagola, pridjeva ili priloga bliskoga značenja. Sinskupovi su međusobno povezani različitim semantičkim odnosima.
CroWN 2.0. ima 23 122 sinonimska skupa s ukupno 47 906 leksičkih jedinica.
CroWN 1.0. ima 10 031 sinonimski skup s ukupno 31 367 leksičkih jedinica.

Ovaj kratki video pomoći će vam pri korištenju Hrvatskog Wordneta
Resurs

CroDeriV

CroDeriV je morfološki leksikon hrvatskih glagola. Trenutno obuhvaća 14491 glagol. Svaki je glagol u CroDeriV-u rastavljen na leksičke i tvorbene morfeme. Glagoli istog korijena međusobno su povezani, čime je omogućeno prepoznavanje tvorbenih porodica. Morfološka struktura glagola u CroDeriV-u omogućila je izdvajanje opće morfološke strukture primjenjive na sve hrvatske glagole. Sastoji se od četiri mjesta za prefikse s desne i tri mjesta za sufikse s lijeve strane leksičkog morfema.

Ovaj kratki video pomoći će vam pri korištenju CroDeriVa
Resource

Croatian Dependency Treebank – HOBS

Mrežna stranica Hrvatske ovisnosne banke stabala uključuje dva korpusa označena na morfosintaktičkoj, ovisnosnoj i razini semantičkih uloga.

Prvi je korpus izrađen u sklopu MZOŠ projekta Razvitak hrvatskih jezičnih resursa Zavoda za lingvistiku kao Hrvatska ovisnosna banka stabala. Dio je Hrvatskoga nacionalnoga korpusa, tj. dio novinskoga potkorpusa (tjednik Croatia Weekly, CW2000). CW2000 potkorpus lematiziran je i morfosintaktički obilježen u skladu s MulTextEast preporukama za hrvatski jezik, s pomoću Hrvatskoga lematizacijskoga poslužitelja, a potom je ručno razobličen. Zatim je označen prema prilagođenoj specifikaciji Praške ovisnosne banke stabala za označavanje na analitičkoj razini. Na kraju, označene su semantičke uloge prema specifikaciji za hrvatski jezik izrađenoj na Zavodu za lingvistiku.

Drugi se korpus, također označen na svim navedenim razinama, sastoji od oko 500 rečenica iz tečajeva za hrvatski jezik dostupnih na mrežnome portalu HR4EU, koji se izrađuje na Zavodu za lingvistiku na projektu financiranome od strane Europske unije u okviru Europskog socijalnog fonda.

Ovaj kratki video pomoći će vam pri korištenju HOBSa