Skip to main content
Пријава

Collected Item: “Digital Library From A Domain Of Criminalistics As A Foundation For A Forensic Text Analysis”

Врста публикације

Рад у зборнику

Верзија документа

рецензирана

Језик

енглески

Аутор/и (Милан Марковић, Никола Николић)

Dalibor Vorkapić, Aleksandra Tomašević, Miljana Mladenović, Ranka Stanković, Nikola Vulović

Наслов рада (Наслов - поднаслов)

Digital Library From A Domain Of Criminalistics As A Foundation For A Forensic Text Analysis

Назив конференције (зборника), место и датум одржавања

International Scientific Conference “Archibald Reiss Days” Thematic Conference Proceedings Of International Significance, Belgrade, 7-9 November 2017

Издавач (Београд : Просвета)

Academy Of Criminalistic And Police Studies Belgrade

Година издавања

2017

Сажетак рада на српском језику

U ovom radu predstavljen je model koji omogućava prikupljanje, pripremu, opis metapodataka, upravljanje i eksploataciju, uključujući pretragu punog teksta dokumenata iz domena kriminalistike napisanih na srpskom jeziku. Predloženi pristup primenjuje se na veb portalu koji sakuplja različite tekstove nastale iz časopisa Akademije za kriminalistiku i policijske studije, Krivičnog zakona Srbije, konferencija „Tara“ i „Reiss“, kao i iz nekih doktorskih disertacija vezanih za ovu oblast istraživanje. Nakon obrade teksta, korpus koji sadrži preko 5500 stranica običnog teksta, kreiran je i pripremljen za publikaciju kao mrežni resurs za pretragu punog teksta korišćenjem Omeka, sistema za upravljanje sadržajem otvorenog koda za razvoj digitalne biblioteke u mreži. Mogućnosti pretraživanja, i pretraživanje punog teksta i metapodataka, prilagođavaju se i poboljšavaju proširenjem upita putem veb servisa koji se prenosi na morfološkom rečniku Srbije i srpskoj semantičkoj mreži VordNet za pružanje morfološkog i semantičkog proširenja pretraživanja teksta. U radu su navedene mogućnosti za dalju upotrebu i analizu digitalne biblioteke kao korpusa, anotiranje, tagovane, klasifikaciju dokumenata i klasteroovanja, kao i analize osećanja sa prvim rezultatima u tom smeru.

Сажетак рада на енглеском језику

This paper presents a model that provides harvesting, preparation, metadata description, management and exploitation including full text search over documents from a domain of criminalistics written in Serbian. Proposed approach is applied in a web portal that collects various texts derived from journals of The Academy of Criminalistics and Police Studies, Criminal code of Serbia, the “Tara” and “Reiss” conferences, and from some of PhD dissertations related to this field of research. After text processing, a corpus containing over 5500 pages of plain text is created and prepared for publication as an online resource for full text search using Omeka, an open source content management system for on line digital library development. Search capabilities, both full text and metadata search are customized and improved by query expansion via web service relaying on the Serbian morphological dictionary and the Serbian WordNet semantic network for providing morphological and semantic text search expansion. The paper outlines possibilities for further use and analysis on a digital library as a corpus, annotation, tagging, document classification and clustering, as well as sentiment analysis with first results in that direction.

Почетна страна рада

169

Завршна страна рада

180

ISBN број изворне публикације

ISBN 978-86-7020-387-7

Кључне речи на српском (одвојене знаком ", ")

Omeka, Wordnet, pretraga punog teksta, morfološka i semantička pretraga teksta, proširenje upita

Кључне речи на енглеском (одвојене знаком ", ")

Omeka, WordNet, full text search, morphological and semantic text search, query expansion

Линк

http://www.nsar.org.rs/sites/default/files/docs/Rajs_2017_Tom_3_1.pdf

Шира категорија рада према правилнику МПНТ

М30

Ужа категорија рада према правилнику МПНТ

М33

Ниво приступа

Отворени приступ

Лиценца

Creative Commons – Attribution-Share Alike 4.0 International

Формат датотеке

.pdf
Click here to view the corresponding item.