Румынский и русский WordNet-Affect
Это первый лексический ресурс созданный в нашей лаборатории. Мы представили его в
Sokolova M., Bobicev V. "Classification of Emotion Words in Russian and Romanian Languages". Proceedings of RANLP-2009 conference, Borovets, Bulgaria, pp. 415-419, 2009. pdf
Мы планируем продолжить нашу работу. Обновленная версия нашего ресурса будет выставлена на сайт как только он будет готов.
WordNet-Affect переведённый на румынский и русский язык.
WordNet-Affect является лексическим ресурсом, который содержит слова описывающие эмоции. Он был создан на базе WordNet, семантического лексикона английского языка, путем выбора и разметки наборов синонимов (синсетов) эмоциональными концепциями. Наборы синонимов (синсеты) глаголов, существительных, прилагательных, наречий которые содержат описание эмоций были вручную размечены эмоциональными метками (affective labels). Синсеты, помеченные эмоциональными метками были дополнительно переразмечены шестью эмоциональными категориями: радость, страх, гнев, печаль, отвращение, удивление. WordNet-Affect доступен для исследовательских целей на http://wndomains.itc.it.
Набор синсетов WORDNET-AFFECT который мы использовали был представлен в качестве ресурса на SemEval-2007 Affective Text task, задаче, состоящей в автоматической разметке текста эмоциональными метками.
WordNet-Affect состоит из шести файлов: anger.txt, disgust.txt, fear.txt, joy.txt, sadness.txt, surprise.txt. Мы сохранили эту организацию. Данные в файлах сгруппированы следующим образом:
- каждый синсет записан в отдельной строке;
- первая буква в строке указывает часть речи синсета: n-noun; a-adjective; v-verb; r-adverb;
- за буквой следует идентификационный номер синсета;
- затем следует определение смысла синсета на аглийском языке (gloss), отделенный символом табуляции;
- затем, отделённые символом табуляции, следуют слова английского синсета разделенные между собой только пробелами без знаков препинания;
- затем, отделённые символом табуляции, следуют слова румынского синсета разделенные между собой пробелами;
- затем следуют слова русского синсета разделенные между собой пробелами;
- английский, румынский и русский синсеты разделены знаком табуляции.
Пожалуйста, при использовании данного ресурса приводите ссылку на
Sokolova M., Bobicev V. "Classification of Emotion Words in Russian and Romanian Languages". Proceedings of RANLP-2009 conference, Borovets, Bulgaria, pp. 415-419, 2009. pdf
Вторая версия WordNet-Affect переведённого на румынский и русский язык
Вторая версия приведена в соответствие с румынским WordNet который доступен на сайте MultiWordNet. Русская версия практически не изменилась.
Данные во второй версии сгруппированы в несколько иной последовательности:
- определение смысла синсета на аглийском языке (gloss) следует за идентификационным номером, отделенный символом табуляции;
- затем, отделённые символом табуляции, следуют слова английского синсета разделенные между собой только пробелами без знаков препинания;
- затем, отделённые символом табуляции, следуют слова русского синсета разделенные между собой пробелами;
- затем следуют слова румынского синсета разделенные между собой пробелами;
- для румынских синсетов найденных в MultiWordNet прилагается определение их смысла, полученное с данного сайта;
английский, румынский и русский синсеты разделены знаком табуляции.
Работа над созанием второй версии этого ресурса описана в публикации: "Emotions in words: developing a multilingual WordNet-Affect". CICLING 2010, Iasi, Romania, 2010. pdf