Skip to main content
Пријава

Collected Item: “A Twitter Corpus and Lexicon for Abusive Speech Detection in Serbian”

Врста публикације

Рад у зборнику

Верзија документа

објављена

Језик

енглески

Аутор/и (Милан Марковић, Никола Николић)

Danka Jokić, Ranka Stanković, Cvetana Krstev, Branislava Šandrih

Наслов рада (Наслов - поднаслов)

A Twitter Corpus and Lexicon for Abusive Speech Detection in Serbian

Назив конференције (зборника), место и датум одржавања

3rd Conference on Language, Data and Knowledge (LDK 2021)

Уредник/ци зборника

Gromann, D. and Serasset, G. et al.

Издавач (Београд : Просвета)

MDPI AG

Година издавања

2021

Сажетак рада на српском језику

Uvredljivi govor na društvenim medijima, uključujući psovke, pogrdni govor i govor mržnje, dostigao je nivo pandemije. Sistem koji bi bio u stanju da detektuje takve tekstove mogao bi da pomogne da internet i društveni mediji postanu bolji virtuelni prostor sa više poštovanja. Istraživanja i komercijalna primena u ovoj oblasti do sada su bili fokusirani uglavnom na engleski jezik. Ovaj rad predstavlja rad na izgradnji AbCoSER-a, prvog korpusa uvredljivog govora na srpskom jeziku. Korpus se sastoji od 6.436 ručno označenih tvitova, od kojih je 1.416 označeno kao tvitovi koristeći neku vrstu uvredljivog govora. Tih 1.416 tvitova je dalje podklasifikovano, na primer na one koji koriste vulgaran, govor mržnje, pogrdni jezik, itd. U ovom radu objašnjavamo proces prikupljanja podataka, beleženja i izgradnje korpusa. Takođe razmatramo rezultate početne analize kvaliteta napomene. Na kraju, predstavljamo strukturu leksikona uvredljivog govora i njeno obogaćivanje uvredljivim okidačima izvučenim iz AbCoSER skupa podataka.

Сажетак рада на енглеском језику

Abusive speech in social media, including profanities, derogatory and hate speech, has reached the level of a pandemic. A system that would be able to detect such texts could help in making the Internet and social media a better and more respectful virtual space. Research and commercial application in this area were so far focused mainly on the English language. This paper presents the work on building AbCoSER, the first corpus of abusive speech in Serbian. The corpus consists of 6,436 manually annotated tweets, out of which 1,416 were labelled as tweets using some kind of abusive speech. Those 1,416 tweets were further sub-classified, for instance to those using vulgar, hate speech, derogatory language, etc. In this paper, we explain the process of data acquisition, annotation, and corpus construction. We also discuss the results of an initial analysis of the annotation quality. Finally, we present an abusive speech lexicon structure and its enrichment with abusive triggers extracted from the AbCoSER dataset.

Почетна страна рада

13:1

Завршна страна рада

13:17

Укупан број страна (само уколико стране нису нумерисане)

17

DOI број

10.4230/OASIcs.LDK.2021.13

ISBN број изворне публикације

978-3-95977-199-3

ISSN број изворне публикације

2190-6807

Кључне речи на српском (одвојене знаком ", ")

uvredljivi jezik, govor mržnje, srpski, tviter, leksikon, korpus

Кључне речи на енглеском (одвојене знаком ", ")

abusive language, hate speech, Serbian, Twitter, lexicon, corpus

Линк

https://www.mdpi.com/2076-3417/11/7/2892/pdf

Шира категорија рада према правилнику МПНТ

М30

Ужа категорија рада према правилнику МПНТ

М33

Ниво приступа

Отворени приступ

Лиценца

Creative Commons – Attribution-Share Alike 4.0 International

Формат датотеке

.pdf
Click here to view the corresponding item.