BabelNet
BabelNet是一個多語詞彙語義網絡和本體,由羅馬薩皮恩扎大學(羅馬大學)計算機科學系的計算語言學實驗室所創建。[1][2] BabelNet是自動構建的,其將最大的多語Web百科全書維基百科連結到最常用的英語計算詞典WordNet。這種連結整合,以自動映射的方式完成;對於資源匱乏的語言所存在的詞彙空缺,藉助於統計機器翻譯來補充。其結果是一個「百科詞典」,提供了多種語言的概念和命名實體,並包含了它們之間的豐富的語義關係。通過與免費授權使用的OmegaWiki、英語維基詞典、維基數據、FrameNet、VerbNet等語義資源建立連結,BabelNet還補充了其它一些詞彙和定義。和WordNet類似,BabelNet將不同語言中的詞語以同義詞集的形式進行組織,稱之為Babel synset。對於每一個Babel synset,BabelNet提供簡短的定義(稱為註釋),這些定義具有多種語言版本,主要來自於WordNet和維基百科。
當前版本 | BabelNet 3.7(August 2016) |
---|---|
作業系統 | |
類型 | |
許可協議 | Attribution-NonCommercial-ShareAlike 3.0 Unported |
網站 | babelnet |
BabelNet的數據統計
編輯截至2016年8月,BabelNet(v3.7)已覆蓋了271種語言,包栝全部的歐洲語言、大多數亞洲語言及拉丁語。BabelNet 3.7包含了大約1400萬個同義詞集和7.46億個詞義(不論其語言)。在每種語言中,每個Babel synset(詞義)平均包含2個同義詞。BabelNet的語義網絡包含了豐富的詞彙語義關係。這些語義關係有兩個來源:一是,來自於WordNet的語義關係,如上下位關係、部分整體關係、反義、同義關係等,總共大約36.4萬條關係;二是,來自於維基百科的非特定的相關關係,總共大約3.8億條關係。[1] BabelNet 3.7將大約1100萬張圖片與Babel synset建立了關聯,並為這些資源提供了Lemon RDF編碼[3],可通過SPARQL endpoint獲取。BabelNet 3.7為267萬個同義詞集指定了領域標籤。
應用
編輯BabelNet可廣泛應用在多語自然語言處理中。BabelNet中的詞彙化知識可在以下任務中取得最佳效果:
獎勵榮譽
編輯BabelNet是一個多語詞彙語義網絡和本體,因其在克服語言障礙和利用異構數據源方面做了巨大的開創性工作,BabelNet於2015年被授予META(頁面存檔備份,存於互聯網檔案館)獎。
BabelNet是最新的詞彙知識資源庫,具有巨大創新性,《時代周刊》曾專題報道BabelNet的研究工作[9],認為BabelNet將在21世紀發揮引領作用。
參照
編輯參考文獻
編輯- ^ R. Navigli, S. P. Ponzetto. BabelNet: Building a Very Large Multilingual Semantic Network (頁面存檔備份,存於互聯網檔案館). Proc. of the 48th Annual Meeting of the Association for Computational Linguistics (ACL 2010), Uppsala, Sweden, July 11–16, 2010, pp. 216–225.
- ^ M. Ehrmann, F. Cecconi, D. Vannella, J. McCrae, P. Cimiano, R. Navigli. Representing Multilingual Data as Linked Data: the Case of BabelNet 2.0 (頁面存檔備份,存於互聯網檔案館). Proc. of the 9th Language Resources and Evaluation Conference (LREC 2014), Reykjavik, Iceland, 26–31 May 2014.
- ^ R. Navigli and S. Ponzetto. 2012. BabelRelate! A Joint Multilingual Approach to Computing Semantic Relatedness (頁面存檔備份,存於互聯網檔案館). Proc. of the 26th AAAI Conference on Artificial Intelligence (AAAI 2012), Toronto, Canada, pp. 108-114.
- ^ J. Camacho-Collados, M. T. Pilehvar and R. Navigli. NASARI: a Novel Approach to a Semantically-Aware Representation of Items (頁面存檔備份,存於互聯網檔案館). Proc. of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL 2015), Denver, Colorado (US), 31 May-5 June 2015, pp. 567-577.
- ^ R. Navigli and S. Ponzetto. Joining Forces Pays Off: Multilingual Joint Word Sense Disambiguation (頁面存檔備份,存於互聯網檔案館). Proc. of the 2012 Conference on Empirical Methods in Natural Language Processing (EMNLP 2012), Jeju, Korea, July 12–14, 2012, pp. 1399-1410.
- ^ A. Moro, A. Raganato, R. Navigli. Entity Linking meets Word Sense Disambiguation: a Unified Approach (頁面存檔備份,存於互聯網檔案館). Transactions of the Association for Computational Linguistics (TACL), 2, pp. 231-244, 2014.
- ^ D. Jurgens, R. Navigli. It's All Fun and Games until Someone Annotates: Video Games with a Purpose for Linguistic Annotation (頁面存檔備份,存於互聯網檔案館). Transactions of the Association for Computational Linguistics (TACL), 2, pp. 449-464, 2014.
- ^ Katy Steinmetz. Redefining the modern dictionary (頁面存檔備份,存於互聯網檔案館), TIME magazine, vol. 187, 23 maggio 2016, pp. 20-21.