WorNet-Affect român și rus
Aceasta este prima resursă lexicală creată de laboratorul nostru și descrisă în Sokolova M., Bobicev V. "Classification of Emotion Words in Russian and Romanian Languages." Proceedings of RANLP-2009 conference, Borovets, Bulgaria, pp. 415-419, 2009. pdf
Descrierea
WordNet-Affect este o resursă lexicală care conţine informaţii despre emoţiile provocate de cuvinte. El a fost creat în baza WordNet,
lexiconul semantic al limbii engleze, prin selectarea şi etichetarea conceptelor emotive reprezentate prin seturi de sinonime. Un număr de etichete afective (affective labels, a-labels) au fost manual ataşate seturilor de sinonime din WordNet care reprezentau diferite emoţii. Mai târziu cuvintele acestea au fost re-etichetate mai minuţios, utilizând şase etichete cu principalele categorii de emoţii: bucurie (joy), frică (fear), mînie (anger), tristeţe (sadness), dezgust (disgust), surpriză (surprise). WordNet-Affect poate fi descărcat în scopuri de cercetare de pe http://wndomains.itc.it.
Colecţia seturilor de sinonime WordNet-Affect utilizată a fost obţinută de pe sit-ul SemEval-2007 “Affective Text” task dedicat etichetării textului cu taguri ale emoţiilor.
WordNet-Affect este organizat în şase fişiere: anger.txt, disgust.txt, fear.txt, joy.txt, sadness.txt, surprise.txt. Noi am lăsat aceiaşi organizaţie. Datele în fişiere sunt organizate în modul următor:
fiecare rând din fişier conţine un set de sinonime;
prima literă în rând indică partea de vorbire: n - substantiv (noun); a - adjectiv (adjective); v - verb (verb); r - adverb (adverb);
după literă urmează numărul sinsetului;
după număr urmează definiţia sensului sinsetului englez separată prin tab;
după definiţie urmează cuvintele sinsetului englez separate prin spaţii;
după cuvintele sinsetului englez urmează cuvintele româneşti separate prin spaţii;
după cuvintele româneşti urmează cuvintele ruseşti separate prin spaţii;
seturile de cuvinte engleze, româneşti şi ruseşti sunt separate prin tab.
A doua versiune a WordNet-Affect român și rus
A doua versiune este aliniată cu WordNet român accesat pe situl MultiWordNet. Alinierea nu a fost simplă deoarece WordNet-Affect a fost creat pe baza la WordNet versiunea 1.6, iar WordNet român se bazează pe WordNet versiunea 2.0. În unele cazuri nu am găsit corespondenţă exactă. Însă în majoritatea cazurilor am reusit să găsim sinset-uri româneşti.
Crearea versiunii date este descrisă în Bobicev V., Maxim, V. Prodan, T., Burciu, N., Angheluş, V., Emotions in words: developing a multilingual WordNet-Affect, 11th International Conference on Intelligent Text Processing and Computational Linguistics, 2010, Iaşi, România. pdf
Descrierea în imba română este dată în Bobicev V., Maxim, V. Prodan, T., Burciu, N., Angheluş, V., Emoţii în cuvinte: elaborarea unei resurse multilingve, Conferinţa Resurse Lingvistice şi Instrumente pentru Prelucrarea Limbii Române, ediţia a IV-a, 2010, Bucureşti, România. pdf
Datele în fişiere sunt organizate în alt mod:
după cuvintele sinsetului englez urmează cuvintele ruseşti separate prin spaţii;
după cuvintele ruseşti urmează cuvintele româneşti separate prin spaţii;
seturile de cuvinte româneşti sunt urmate de definiţia sensului în limba română în caz dacă sinset-ul respectiv a fost găsit în WordNet român.