U nauci, industriji i mnogim istraživačkim oblastima, terminologija se brzo razvija. Najčešće, jezik koji je „lingua franca“ za većinu ovih oblasti je engleski. Kao posledica toga, za mnoga polja termini domena su koncipirani na engleskom, a kasnije se prevode na druge jezike. U ovom radu predstavljamo pristup za automatsko izdvajanje dvojezične terminologije za englesko-srpski jezički par koji se oslanja na usaglašeni dvojezični korpus domena, ekstraktor terminologije za ciljni jezik i alat za usklađivanje delova. Ispitujemo performanse metode na domenu ...
... Bilingual Terminology Using Graphs, Dictionaries and GIZA++
Branislava Šandrih, Ranka Stanković
Дигитални репозиторијум Рударско-геолошког факултета Универзитета у Београду
[ДР РГФ]
Extraction of Bilingual Terminology Using Graphs, Dictionaries and GIZA++ | Branislava Šandrih, Ranka Stanković |
Infotheca ...
... introduced
above.
The numbers in the columns represent the following results:
Input and GIZA++ output results
A Number of entry pairs in LIS-dict, i.e. English terms extracted by Eng-
TE;
B Number of lines obtained from GIZA++ phrase table, after preprocess-
ing steps;
C Number of distinct, lemmatised Serbian ...
...
Figure 3. Input module of the BiLTe Web application
Alignment and Post-Processing Module
Aligning with GIZA++ yields a so called “phrase-table”.
The alignment works in the following way. GIZA++ reads the two
input texts in parallel. Whenever two bilingual chunks appear together,
their co-occurrence ...
Branislava Šandrih, Ranka Stanković. "Extraction of Bilingual Terminology Using Graphs, Dictionaries and GIZA++" in Infotheca, Faculty of Philology, University of Belgrade (2020). https://doi.org/10.18485/infotheca.2019.19.2.6