Претрага
212 items
-
New Language Models for South Slavic Languages
Mihailo Škorić (2024)Izlaganje će predstaviti izazove i perspektive modelovanja južnoslovenskih jezika, sa posebnim osvrtom opšte jezičke modele građene na arhitekturi transformera (BERT, GPT), na dostupne skupove tekstova za obučavanje tih modela, te kvantitet i kvalitet tih skupova. Izlaganje će ponuditi pregled dostupnih skupova i modela, dok će posebna pažnja biti posvećena najnovijim korpusima tekstova. Prvi korpus, Kišobran, predstavlja krovni veb korpus južnoslovenskih jezika i ujedno trenutno najveći korpus tekstova na našim prostorima koji broji preko osamnaest milijardi reči i uključuje sve ...Mihailo Škorić. "New Language Models for South Slavic Languages" in South Slavic Languages in the Digital Environment JuDig Book of Abstracts, University of Belgrade - Faculty of Philology, Serbia, November 21-23, 2024, University of Belgrade - Faculty of Philology (2024)
-
Integrisano okruženje za pripremu paralelizovanog korpusa
Razvoj paralelizovanih korpusa zahteva pripremu paralelnih tekstova za njihovu integraciju u paralelizovani korpus. Reč je o jednom kompleksnom zadatku koji se može rešiti na različite načine, i koji mora da se odvija u nekoliko koraka. U ovom radu najpre je iznet postupak pripreme paralelnih tekstova za paralelizovani korpus koji se koristi u Grupi za jezičke tehnologije Univerziteta u Beogradu. Potom je dat kratak pregled programa (XAlign, Concordancier, WS4LR), odnosno softverskih alata koji se pri tome koriste. Nedostatak udobnog okruženja ...... paralelizovani tekst (Gale and Church, 1993). Veće kolekcije paralelizovanih tekstova nazivaju se paralelizovanim korpusima. Podrazumeva se da se tekstovi u paralelizovanim korpusima u elektronskom obliku, odnosno da se mogu obrađivati uz pomoć računarske tehnologije. Paralelizovani korpusi se mogu koristiti ...
... paralelizovanih tekstova, kontrola i korekcije uparivanja 2 • generisanje TMX formata paralelizovanog teksta • razlaganje TMX formata na pojedinačne tekstove u XML formatu • vertikalizacija pojedinačnih tekstova • kreiranje korpusa Prvi korak obuhvata pripremu i segmentaciju teksta, odnosno ...
... korisničkog interfejsa, kao i dobra podrška za rad sa XML podacima. 5. Zaključak Priprema paralelnih tekstova za paralelni korpus predstavlja kompleksan zadatak koji se odvija u nekoliko koraka. Veći dao ovog zadatka moguće je automatizovati, ali je intervencija korisnika u određenim fazama neophodna ...Ivan Obradović, Ranka Stanković, Miloš Utvić. "Integrisano okruženje za pripremu paralelizovanog korpusa" in Zbornik radova međunarodnog simpozijuma Razlike između bosanskog/bošnjačkog, hrvatskog i srpskog jezika, Graz, Austria, April 2007, - (2007)
-
Увођење доменских и семантичких маркера за област рударства у српске електронске речнике
... број речи. Уочава се да је највећи код литературе, потом следи законска регулатива, дисертације и коначно пројектна документација, што је и очеки- ван резултат. Слика 1. Проценат речи у корпусу према типу текстова Слика 2. Лексичка разноврсност текстова за рударски корпус Иван Обрадовић, Александра ...
... постоји и SPARQL приступна тачка за RESTfulAPIs. 4. Опис корпуса рударских текстова Новопредложени маркери значајни су пре свега за екстракцију инфор- мација из корпуса текстова везаних за рударство. Прикупљање корпуса са текстовима из рударског домена је почело 2014, након чека је урађена прва ...
... тим развијан је и корпус текстова из области рударства. Анализа ових текстова показала је да појмови и терминологија специфични за рударски домен захтевају увођење нових доменских и семан- тичких маркера како би се обезбедила што прецизнија екстракција информа- ција из овог корпуса. Наредни одељак ...Иван Обрадовић, Александра Томашевић, Ранка Станковић, Биљана Лазић. "Увођење доменских и семантичких маркера за област рударства у српске електронске речнике" in Научни састанак слависта у Вукове дане - Српски језик и његови ресурси: теорија, опис и примене, Београд : Међународни славистички центар на Филолошком факултету, Филолошки факултет (2017). https://doi.org/10.18485/msc.2017.46.3.ch10
-
Белешка о дигитализацији речника
У раду ће се анализирати ограничења која проистичу из линеарног процеса традиционалне израде речника на примеру Речника САНУ. Начин да се превазиђу ова ограничења се састоји у формирању електронске лексикографске базе која не представља само пуку дигиталну транскрипцију папирног издања речника. Посебно се указује на чињеницу да текст речника може представљати корпус и приказују се одабрани примери анализе таквог корпуса формираног из текстове 1. и 19. тома Речника САНУ.... само пуку дигиталну транскрипцију папирног издања речника. Посебно се указује на чињеницу да текст речника може представљати корпус и приказују се одабрани примери анализе таквог корпуса формираног из текстове 1. и 19. тома Речника САНУ. Кључне речи: лексикографија, рачунарска лексикографија, информатика ...
... 5. Речник као корпус Целина речника је својеврстан корпус који омогућава увид у различита својства речника невидљива листањем његове папирне верзије. Упоредили смо неструктуриране дигиталне верзије 1. и 19. тома10 са циљем да испитамо могућност аутоматске анотације сировог текста, али и да сагледамо ...
... 5. Речник као корпус Целина речника је својеврстан корпус који омогућава увид у различита својства речника невидљива листањем његове папирне верзије. Упоредили смо неструктуриране дигиталне верзије 1. и 19. тома10 са циљем да испитамо могућност аутоматске анотације сировог текста, али и да ...Душко М. Витас, Цветана Ј. Крстев, Ранка М. Станковић. "Белешка о дигитализацији речника" in Српски језик и његови ресурси, Међународни славистички центар, Филолошки факултет, Универзитет у Београду (2019). https://doi.org/10.18485/msc.2019.48.3.ch3
-
Претрага корпуса заснована на употреби екстерних лексичких ресурса путем веб-сервиса
У раду се разматра хибридни приступ претрази корпуса, илустрован на примеру алатки OCWB и NoSketch Engine, примењених на специјални корпус из области рударства (РудКор) и Корпус савременог српског језика (СрпКор). Разматрани приступ комбинује постојеће могућности алатки OCWB и NoSketch Engine, које своју претрагу заснивају на лингвистичкој анотацији корпуса, са новим могућностима претраге у виду консултовања екстерних језичких ресурса (морфолошки електронски речници српског језика и лексичка база података Српски ворднет). Хибридни приступ је реализован надоградњом вебсучеља која поменуте алатке користе ...... формату вертикал(изова)ног текста (Утвић 2014а: 129–130), као и у формату XML. Табела 1 илуструје како изгледа једна реченица из Андрићеве приповетке прича о везировом слону у формату вертикалног текста (прва колона), односно у формату аноти- раног вертикалног текста у корпусу СрпКор2013. Поједностављено ...
... илустроване неке могућности претраге тих корпуса засноване на њиховој лингвистичкој анотацији. Табела 1: Реченица из Андрићеве приповетке прича о везировом слону у форми вертикалног текста (прва колона), односно у форми анотираног вер- тикалног текста у корпусу СрпКор2013 (колоне 2–4 као позициони атрибути ...
... лингвистичкој анотацији корпусних текстова, • на консултовању екстерних језичких ресурса током претраге и • на комбиновању поменутих приступа. У овом раду ће бити речи о комбинованом приступу претрази корпуса заснованој и на лингвистичкој анотацији корпусних текстова и на консулто- вању екстерних језичких ...Милош Утвић, Ранка Станковић, Александра Томашевић, Михаило Шкорић, Биљана Лазић. "Претрага корпуса заснована на употреби екстерних лексичких ресурса путем веб-сервиса" in Научни састанак слависта у Вукове дане - Vol. 48/3 Српски језик и његови ресурси, Међународни славистички центар, Филолошки факултет, Универзитет у Београду (2019). https://doi.org/10.18485/msc.2019.48.3.ch12
-
The Many Faces of SrpKor
Акроним СрпКор означава фамилију електронских корпуса савременог српског језика чија је изградња почела крајем седамдесетих година прошлога века, а која је постала шире видљива заинтересованој истраживачкој заједници објављивањем његове прве верзије на вебу 2002. године. У овом дугом периоду, посебно пре појаве корисних текстуелних ресурса на вебу, развој корпуса се састојао у прикупљању и обради грађе као и у развоју метода обраде корпуса. Наиме, електронски корпус није само колекција текстова у дигиталном облику (како се то, на пример, наводи ...Duško Vitas, Ranka Stanković, Cvetana Krstev. "The Many Faces of SrpKor" in South Slavic Languages in the Digital Environment JuDig Book of Abstracts, University of Belgrade - Faculty of Philology, Serbia, November 21-23, 2024, University of Belgrade - Faculty of Philology (2024.)
-
Речник САНУ као база терминолошких речника (на примеру речника кулинарства)
... САНУ (чија је дигитализација у току), а истраживање се такође ограничава само на лексику текстова кулинарског домена. Имајући у виду да је корпус текстова произведен аутоматски из пдф датотека, у тексту је велики број речи био преломљен (растављен), те се јавила потреба за аутоматском корекцијом хифенације ...
... кулинарском корпусу и у општем корпусу. Коришћењем електронских речника у креираном кулинарском корпусу препознате су семантичке категорије карактеристичне за лексику кулинарских текстова (Крстев, Лазић, 2015): Табела: Примери из корпуса који су препознати семантичким маркерима за текстове кулинарског ...
... вишечланих лексичких јединица које се према фреквенцији издвајају као кандидати за термини јер је њихова учесталост у кулинарском тексту значајно већа од учесталости у корпусу савременог српског језика. На овај начин успели смо да идентификујемо изузетно богат фонд кулинарске лексике садржане у Речнику ...Рада Стијовић, Олга Сабо, Ранка Станковић. "Речник САНУ као база терминолошких речника (на примеру речника кулинарства)" in Словенска терминологија данас, Београд : Српска академија наука и уметности (2017)
-
Нове технологије за оживљавање старих текстова
удаљено читање, књижевни корпус, обрада српског језика, анотација врстом речи, лематизација, именовани ентитетиЦветана Крстев, Ранка Станковић, Бранислава Шандрих Тодоровић, Милица Иконић Нешић. "Нове технологије за оживљавање старих текстова" in Зборник радова Међународне научне конференције Дигитална хуманистика и словенско културно наслеђе II, Београд, 28-29 јуни 2021., Београд : Савез славистичких друштава Србије (2023)
-
Contrastive Analysis of Syntax Patterns in Comparable Football Corpora in Spanish and Serbian Languages
Jelena Lazarević, Olivera Kitanović (2024.)Cilj rada je istraživanje kolokabilnosti kao načina na koji se leksičke jedinice povezuju sa rečima iz različitih kategorija, formirajući veće jedinice. Istraživanje semantičkih i sintaksičkih principa ovih kombinacija u španskom i srpskom jeziku fudbala izvedeno je na komparabilnim fudbalskim korpusima SrFudKo i EsFudko, razvijenim u okviru doktorske disertacije Jelene Lazarević pod nazivom: Jezičke odlike diskursa novih medija o fudbalu: kontrastivna analiza na korpusu srpskog i španskog jezika. Korpus fudbala SrFudKo, kreiran na osnovu tekstova o fudbalu sa pet srpskih veb-portala: ...Jelena Lazarević, Olivera Kitanović . "Contrastive Analysis of Syntax Patterns in Comparable Football Corpora in Spanish and Serbian Languages" in South Slavic Languages in the Digital Environment JuDig Book of Abstracts, University of Belgrade - Faculty of Philology, Serbia, November 21-23, 2024, University of Belgrade - Faculty of Philology (2024.)
-
Чији је пример? Анализа лексичких обележја на примерима Речника САНУ
У овом раду поставља се питање: да ли се може утврдити ко је аутор неког текста уколико се анализирају искључиво његова лексичка обележја? Како бисмо покушали да добијемо одговор на ово питање, посматрали смо примере у оквиру речничког чланка појединачне лексеме Речника САНУ, који су забележени у пет томова (и то: I, II, XVIII, XIX и XX). Сваки пример је преузет из неког извора на шта упућују скраћенице, наведене у заградама. Од преко 5.000 понуђених извора, определили смо се ...... укупан број речи са почетним великим словом, а не налазе се на почетку текста; o no_rare_tokens: број токена са фреквенцијом мањом од неке за- дате вредности у референтном корпусу; o Avg_freq_in_corpus: просечна фреквенција речи присутних у тексту у односу на референтни корпус; • остало: o no_pronouns: ...
... број речи са почетним великим словом, а не налазе се на почетку текста; o no_rare_tokens: број токена са фреквенцијом мањом од неке задате вредности у референтном корпусу; o Avg_freq_in_corpus: просечна фреквенција речи присутних у тексту у односу на референтни корпус; остало: o no_pronouns: ...
... број речи са почетним великим словом, а не налазе се на почетку текста; o no_rare_tokens: број токена са фреквенцијом мањом од неке задате вредности у референтном корпусу; o Avg_freq_in_corpus: просечна фреквенција речи присутних у тексту у односу на референтни корпус; остало: o no_pronouns: ...Бранислава Б. Шандрих, Ранка М. Станковић, Мирјана С. Гочанин. "Чији је пример? Анализа лексичких обележја на примерима Речника САНУ" in Српски језик и његови ресурси, Међународни славистички центар, Филолошки факултет, Универзитет у Београду (2019). https://doi.org/10.18485/msc.2019.48.3.ch13
-
Ontološki model upravljanja rizikom u rudarstvu
Olivera Kitanović (2021)Rudarska proizvodnja obuhvata kompleksne tehnološke sisteme, što nameće potrebu za uspostavljanjem i unapređivanjem sistema upravljanja rizikom. Heterogenost i obim podataka neophodnih za upravljanje rizikom zahtevaju sistem koji ih na fleksibilan način integriše i omogućava njihovo optimalno korišćenje. Osnovni cilj ove disertacije je razvoj ontologije za domen rudarstva i na njoj zasnovanog modela za upravljanje rizikom. Njegova realizacija podrazumeva i implementaciju algoritama ekstrakcije informacija za popunjavanje ontologije, kao i odgovarajuće softversko rešenje. Razvoj modela obuhvata i značajno proširenje rudarskog korpusa, kao ...rudarstvo, rizik, upravljanje rizikom, procena rizika, ontologija, semantička mreža, ekstrakcija informacija, upravljanje znanjem, računarska lingvistika... dopunjavanje traje i danas. Ovaj korpus sadrži književne i umetničke tekstove pisaca 20. i 21. veka, naučne tekstove iz oblasti društvenih i prirodnih nauka, administrativne tekstove i tekstove iz dnevnih novina, časopisa i magazina počevši od 1991. godine. Manji deo korpusa čine prevodi književnih, umetničkih ...
... analize velikih količina podataka otvorile su nove mogućnosti za analizu korpusa obimnih tekstualnih podataka i ekstrakciju podataka i znanja iz njih. Tako, na primer, Chen i njegove kolege (L.-C. Chen, Chang, and Chung 2020) predlažu novi, statistički zasnovan pristup obradi korpusnih tekstova, koji ...
... Istraživanje u okviru disertacije se u velikoj meri oslanjalo na dostupne resurse, kako u papirnom tako i u elektronskom obliku, korišćeni su tradicionalni rečnici na papiru koji se koriste u rudarstvu, baze podataka koje pokrivaju rudarsku terminologiju, korpusi tekstova iz domena rudarstva, kao i elektronski ...Olivera Kitanović. Ontološki model upravljanja rizikom u rudarstvu, Beograd : [O. Kitanović], 2021
-
Social-Emo.Sr: Emotional Multi-Label Categorization of Conversational Messages from Social Networks X and Reddit
U digitalnom okruženju južnoslovenskih jezika, analiza emocija u tekstovima na društvenim mrežama postaje sve važnija za razumevanje javnog mnjenja, kreiranje personalizovanog sadržaja i analizu međusobnih interakcija korisnika. U okviru ovog rada predstavljamo detaljnu metodologiju i rezultate označavanja korpusa na srpskom jeziku prema Plutčikovom modelu kategorizacije, koji prepoznaje osam osnovnih emocionalnih kategorija, kao što su radost, tuga, bes, strah, poverenje, gađenje, iščekivanje i iznenađenje. Cilj istraživanja je da se analizira emocionalni sadržaj tekstova preuzetih sa društvenih mreža X (nekada Twitter) ...Milena Šošić, Ranka Stanković, Jelena Graovac. "Social-Emo.Sr: Emotional Multi-Label Categorization of Conversational Messages from Social Networks X and Reddit" in South Slavic Languages in the Digital Environment JuDig Book of Abstracts, University of Belgrade - Faculty of Philology, Serbia, November 21-23, 2024., University of Belgrade - Faculty of Philology (2024)
-
Integracija heterogenih tekstualnih resursa
Ranka Stanković, Ivan Obradović (2007)U radu je opisan pristup integraciji heterogenih tekstualnih resursa za srpski jezik uz pomoć jednog kompleksnog softverskog alata, razvijenog specijalno za ove potrebe. Opisani su struktura i osnovne komponente razvijenog sistema. Iznete su i mogućnosti unapređivanja resursa međusobnom razmenom informacija, koje pruža razvijeno integrisano okruženje. Konačno, opisana je i mogućnost primene integrisanih heterogenih resursa za proširenje upita, kao i pretraživanje tekstova uopšte, a naznačeni su i neki od pravaca daljeg razvoja.... Kada je u pitanju pretraživanje korpusa, sem najjednostavnijih upita, po 11 pravilu je moguće formulisanje i složenijih upita regularnim izrazima. Međutim, i kada je u pitanju tekstualni sadržaj na internetu, i kada se pretražuju korpusi, postoje znatno veće mogućnosti za proširenje upita. ...
... i grafova WS4LR o iva na jednoj ili više re mogućava i pretraživanje tekstova koje se ne zasn či, već na regularnim izrazima i grafovima. Ovakav način pretraživanja uobičajen je, inače, kada su u pitanju korpusi. U upitima koji se zasnivaju na regularnim izrazima i grafovima upit se ne formira ...
... pretraživanje tekstova uopšte, a naznačeni su i neki od pravaca daljeg razvoja. 1. Uvod Leksički resursi za srpski jezik se razvijaju u okviru Grupe za jezičke tehnologije na Matematičkom fakultetu Univeziteta u Beogradu (Grupa) već duži niz godina, tako da je danas na raspolaganju veliki broj različitih ...Ranka Stanković, Ivan Obradović. "Integracija heterogenih tekstualnih resursa" in Zbornik radova međunarodnog simpozijuma Razlike između bosanskog/bošnjačkog, hrvatskog i srpskog jezika, Graz, Austria, April 2007, - (2007)
-
Annotation of the Serbian ELTeC Collection
Ovaj rad predstavlja takozvano izdanje nivoa 2 kolekcije tekstova SrpELTeC razvijene u okviru aktivnosti Radne grupe 2 – Metode i alati COST akcije CA 16204 (Distant Reading for European Literary History) i njene specifikacije šeme. Izdanje nivoa 2 je nastavak izdanja nivoa 1, koje se koristi kao ulaz za morfosintaksičke i NER anotacije romana. Srpska obrada nivoa-2 je navedena kroz potrebne korake, uključujući metode i alate koji se koriste u tom procesu. Neki statistički podaci iz srpske kolekcije nivoa ...udaljeno čitanje, literarni korpus, tagiranje, prepoznavanje imenovanih entiteta, lematizacija, ELTeCRanka Stanković, Cvetana Krstev, Branislava Šandrih Todorović, Mihailo Škorić. "Annotation of the Serbian ELTeC Collection" in Infotheca, Faculty of Philology, University of Belgrade (2021). https://doi.org/10.18485/infotheca.2021.21.2.3
-
Српски језик у дигиталном добу -- The Serbian Language in the Digital Age
Duško Vitas, Ljubomir Popović, Cvetana Krstev, Ivan Obradović, Gordana Pavlović-Lažetić, Mladen Stanojević (2012)... од секвенције лава Ла- уна (Лауна је издавач). Статистички језички мо- дели се могу аутоматски извести из велике количине (исправних) језичких података (који се зову тексту- ални корпуси). До сада су ови приступи коришћени и процењивани за податке на енглеском језику. Они се, међутим, не могу увек ...
... 1,5 Семантичка анализа 1 1 1 1,5 1 1 1,5 Генерисање текста 0 0 0 0 0 0 0 Машинско превођење 1 1 0 1 0 1 1 Језички ресурси (ресурси, подаци, базе знања) Текстуални корпуси 0,5 1 0,5 1 1 1 0,5 Говорни корпуси 1 2 4 4 3 3 3 Паралелни корпуси 3 3 3 2 2 2 3 Лексички ресурси 1 2 2 2 2 2 2,5 Граматике ...
... AlfaNum има значајан рој корисника међу српским фирмама. С друге стране, први корпус са- временог српског језика, електронски морфолошки речник, паралелни француско-српски и енглеско- српски корпуси литерарних текстова, као и разли- чити софтверски алати развијени су у оквиру зајед- ничких пројеката ...Duško Vitas, Ljubomir Popović, Cvetana Krstev, Ivan Obradović, Gordana Pavlović-Lažetić, Mladen Stanojević. "Српски језик у дигиталном добу -- The Serbian Language in the Digital Age" in META-NET White Paper Series, G. Rehm, H. Uszkoreit (eds.), Springer (2012)
-
Proširivanje upita zasnovano na leksičkim resursima
U radu je opisano kako se leksički resursi za srpski jezik i softverski alati, razvijeni u okviru Grupe za jezičke tehnologije Univerziteta u Beogradu, mogu koristiti za unapređenje postavljanja upita. Rezultati pretrage mogu biti značajno unapređeni korišćenjem različitih leksičkih resursa, kakvi su morfološki rečnici i semantičke mreže. Izloženi pristup može se iskoristiti i u Sistemu naučnih, tehnoloških i poslovnih informacija, jer je efikasno pretraživanje ovog dragocenog resursa, imajući u vidu njegovu heterogenost i obim, kao i preovladavajući tekstualni sadržaj, ...... Univerziteta u Beogradu već duži niz godina, tako da je danas na raspolaganju veliki broj različitih resursa, razvijenih u značajnom obimu (Vitas et al., 2003). Pored korpusa srpskog jezika, kao i višejezičnih paralelnih korpusa, od posebnog su značaja sistem morfoloških rečnika srpskog jezika, kao ...
... eksploataciju paralelizovanih korpusa, uključujući i vizuelizaciju u HTML-u, integrisano okruženje koje objedinjuje kompleksne aplikacije (Intex, NooJ, Unitex, Visdic), jezičke resurse i podsistem za ekspanziju upita, korišćenje i prezentacija paralelizovanih tekstova, veb servis za ekspanziju ...
... bolje iskorišćenje paralelizovanih tekstova koji predstavljaju resurs velikih mogućnosti, a koji zahteva veoma mnogo napora i znanja da bi se konstruisao. Objedinjavanje raspoloživih resursa se ilustruje pravljenjem konkordansi, odnosno izdvajanjem delova teksta koji zadovoljavaju određeni kriterijum ...Ranka Stanković, Ivan Obradović, Cvetana Krstev. "Proširivanje upita zasnovano na leksičkim resursima" in SNTPI 09 - Naučno-stručni skup Sistem naučnih, tehnoloških i poslovnih informacija, Beograd 19. i 20. jun 2009, Beograd : Fakultet informacionih tehnologija (2009)
-
Употреба веб платформе Омека за дигиталне библиотеке из домена рударства
У овом раду биће представљена Омека, веб платформа за приказивање дигиталних колекциjа и систем за управљање њиховим садржаjем. Њену примену у области техничких наука, а конкретно у области рударства, приказаћемо на примеру дигиталне библиотеке ROmeka@RGF. За Омеку смо се определили првенствено због чињенице да jе jедноставна за коришћење, има обимну пратећу документациjу и не захтева уско специфичне информатичке вештине што jе чини приступачном за већину корисника, а нарочито за рударске инжењере, коjима jе ова дигитална библиотека првенствено намењена. Документа ...... уследити и екстракциjа вишечланих термина према методологиjи описаноj у раду (Stanković et al., 2012). У плану jе интегрисање претраге корпуса рударских текстова са Корпусом српског jезика SrpKor. 5. Претраживање текстуалних ресурса При потрази (коjа подразумева скуп метода и техника) за информациjама ...
... података било због ауторских права. Сви текстови коjи су ускладиштени у дигиталну библиотеку биће даље коришћени за терминолошка истраживања. У ту сврху из текстова су уклоњени делови на страном jезику, табеле, слике, референце и линкови. Спаjањем свих текстова, ради заjедничке обраде, формирана jе jедна ...
... представља de facto стандард за анотациjу произвољних типова докумената, укључуjући правне текстове и текстове проjектне документациjе. Анотациjа у складу са смерницама TEI треба да омогући повезивање делова текста у проjектноj документациjи коjи упућуjу на чланове закона и реферисане законске регулативе ...Александра Томашевић, Биљана Лазић, Далибор Воркапић, Михаило Шкорић, Љиљана Колоња. "Употреба веб платформе Омека за дигиталне библиотеке из домена рударства" in Инфотека, Филолошки факултет, Универзитет у Београду; Универзитетска библиотека „Светозар Марковић“; Заједница библиотека универзитета у Србији (2017)
-
Digital Library From A Domain Of Criminalistics As A Foundation For A Forensic Text Analysis
U ovom radu predstavljen je model koji omogućava prikupljanje, pripremu, opis metapodataka, upravljanje i eksploataciju, uključujući pretragu punog teksta dokumenata iz domena kriminalistike napisanih na srpskom jeziku. Predloženi pristup primenjuje se na veb portalu koji sakuplja različite tekstove nastale iz časopisa Akademije za kriminalistiku i policijske studije, Krivičnog zakona Srbije, konferencija „Tara“ i „Reiss“, kao i iz nekih doktorskih disertacija vezanih za ovu oblast istraživanje. Nakon obrade teksta, korpus koji sadrži preko 5500 stranica običnog teksta, kreiran je i ...... Karkaletsis, pp. 97-104, 2003 uc Use Case Preaživ anje korpusa Leksikograf Terminolog Pretraga po lemi Pretraga oblika reči Pretraga po sinonimima Pretraga po semantičkim obrascima Pretraga sintaksičkim grafov ima Lingv ista Urednik korpusa Terminolog Prikupljanje tekstov a Leksička obrada ...Dalibor Vorkapić, Aleksandra Tomašević, Miljana Mladenović, Ranka Stanković, Nikola Vulović. "Digital Library From A Domain Of Criminalistics As A Foundation For A Forensic Text Analysis" in International Scientific Conference “Archibald Reiss Days” Thematic Conference Proceedings Of International Significance, Belgrade, 7-9 November 2017, Academy Of Criminalistic And Police Studies Belgrade (2017)
-
Football terminology: compilation and transformation into OntoLex-Lemon resource
У овом раду представља се пројекат који је у развоју, креирање првог дигиталног фудбалског речника на српском језику, као и да демонстрација примене модела OntoLex и љегових модула. OntoLex-FrAC модул укључује информације о учесталости и примерима употребе екстрахованих из корпуса. У овом случају, креиран је корпус за специфичан домен под називом СрФудКо, који садржи чланке вести о фудбалу на српском језику. Вишечлани термини аутоматски су екстраховани из српског корпуса, а затим ручно евалуирани и класификовани као спортски или ...Jelena Lazarević, Ranka Stanković, Mihailo Škorić, Biljana Rujević. "Football terminology: compilation and transformation into OntoLex-Lemon resource" in LDK 2023 – 4th Conference on Language, Data and Knowledge, 12-15 September in Vienna, Austria, Lisabon : NOVA FCSH - CLUNL (2023). https://doi.org/10.34619/srmk-injj
-
Multiword Expressions between the Corpus and the Lexicon: Universality, Idiosyncrasy and the Lexicon-Corpus Interface
Verginica Barbu Mititelu, Voula Giouli, Kilian Evang, Daniel Zeman, Petya Osenova, Carole Tiberius, Simon Krek, Stella Markantonatou, Ivelina Stoyanova, Ranka Stankovic, Christian Chiarcos (2024)Predstavljamo trenutne aktivnosti na definisanju interfejsa leksikona i korpusa koji će služiti kao referenca u prikazu polileksemskih jedinica - višečlanih izraza - (različitih tipova - imenskih, glagolskih, itd.) u specijalizovanim leksikonima i povezivanju ovih unosa sa njihovim pojavljivanjima u korpusima. Konačni cilj je korišćenje ovakvih resursa za automatsko identifikovanje višečlanih izraza u tekstu. Uključivanje nekoliko prirodnih jezika ima za cilj univerzalnost rešenja koje nije usredsređeno na određeni jezik, kao i prilagođavanje idiosinkrazijama. Raspravljaju se izazovi u leksikografskom opisu višerečnih ...Verginica Barbu Mititelu, Voula Giouli, Kilian Evang, Daniel Zeman, Petya Osenova, Carole Tiberius, Simon Krek, Stella Markantonatou, Ivelina Stoyanova, Ranka Stankovic, Christian Chiarcos. "Multiword Expressions between the Corpus and the Lexicon: Universality, Idiosyncrasy and the Lexicon-Corpus Interface" in Proceedings of the Joint Workshop on Multiword Expressions and Universal Dependencies (MWE-UD) @ LREC-COLING 2024, Turin, May 25, 2024, ELRA and ICCL (2024)