DBpedia
DBpedia (DB乃是資料庫,database的意思,也可做資料庫百科全書解) 是一項從維基百科裏萃取結構化內容的專案計劃。這些計劃所得的結構化資訊,也將放在互聯網中公開讓人取閱。[1]DBpedia允許用戶查詢跟維基百科相關資源之間的關係與性質,甚至也可查詢從維基百科外連到其他資料組的內容。[2]DBpedia曾被萬維網創始人添·柏納斯-李評論為世界上最有名的幾個去中心化連結資料的專題之一。[3]
開發者 | |
---|---|
首次發佈 | 2007年1月23日 |
目前版本 | DBpedia 3.9(September 2013) |
原始碼庫 | |
程式語言 | |
作業系統 | Virtuoso Universal Server |
類型 | |
許可協定 | GNU General Public License |
網站 | dbpedia |
緣起
編輯此計劃一開始是由來自柏林自由大學以及萊比錫大學的人士所開啟,並與開放連結軟件(Open Linked Software)同盟合作[4]。第一份公開可取得的資料集在2007年時發佈。它是透過自由授權的方式所發佈,允許他人自由利用這些資料集。
維基百科的條目大部分都是沒有固定格式的文字,不過也有部分的資料是屬於結構化的資訊並且被鑲嵌在條目中,像是資訊框的表格內容(也就是預設在桌機版維基百科瀏覽格式,出現在條目右上角出現的欄位,或是流動版維基百科的條目一開始就顯示的欄位。)、分類、圖像、地理座標、以及外部網頁連結。這些結構化的資訊會在此計劃案被提取出來並且將其統一的放在一個資料集裏頭以方便查詢。
資料組
編輯2013年9月,DBpedia發佈了第3.9版的更新。[5]如同之前版本的加強,這次也新增了維基百科更多資訊框的比對,同時也新增了維基數據的連結。(透過 owl:sameAs
的連結)。[5]此版的資料組描述了四百萬筆實體(entities),其中有322萬筆實體是在一個連貫的知識本體中進行分類,這些實體包含了832,000位人物、639,000個地景、116,000份音樂專輯、78,000部影片、18,500個電動遊戲、209,000個組織、226,000個物種以及5,600種疾病。[6]。DBpedia資料集提供了最多有119個不同語言的特色標籤以及資料摘要;現總共有2460萬個圖片連結以及2760萬筆連到外部網頁的連結資料、4500萬筆連結到其他RDF格式的資料集、6700萬筆連結到維基百科的分類頁,以及4120萬筆YAGO2分類的資料[6]。DBpedia計劃使用資源描述框架(Resource Description Framework,簡稱RDF)來呈現擷取的資料,目前包含了24.6億筆的RDF triple資料、4700萬從英文版本維基百科上擷取的資料、19.8億則來自其他的語言版本,同時有大約4,500萬的資料連往外部的資料集。[6]
從本資料集,多個頁面之間傳播的資訊可以被擷取,例如某書籍的作者資料,能夠被放在關於此書或關於作者的頁面中。
從維基百科擷取資料其中的一個重大挑戰是,相同概念可能會在資訊框以及其他的模版中被用不同的參數表示,例如|birthplace=
以及|placeofbirth=
意義相同。在這樣的情況下,查詢人物出生地點就必須要在這兩個參數下都有查詢才能夠得到完整的結果。於是,DBpedia的映對語言就被開發了出來,以幫助映對知識本體裏頭這些定義的異同,進而減少同義詞的重疊。有鑑於維基百科中使用資訊框以及其他數值非常的多元,開發以及改善映對語言的機制是以開源的方式徵求大眾參與[7]。
範例
編輯DBpedia摘取維基百科頁面上的事實資訊,讓用戶可以不用在多個維基百科條目之間瀏覽便找到問題的答案。查詢資料的方式是利用SPARQL(像SQL的查詢語言)來對資源描述框架(RDF)進行查詢。舉例,假如你對日本少女漫畫系列東京喵喵感興趣,想要找這部漫畫的繪者創作的其他作品。DBpedia結合了維基百科上東京喵喵、征海未亞這些條目,以及相關作品諸如麗佳公主以及戀きゅー的資訊。因為DBpedia把這些資料都標準化到單一的資料庫裏,下列查詢 (頁面存檔備份,存於互聯網檔案館)就能夠在不需具體清楚哪一個條目有包含了哪一部分的片段資訊,就能夠完整的列出相關作品類型:
PREFIX dbprop: <http://dbpedia.org/property/>
PREFIX db: <http://dbpedia.org/resource/>
SELECT ?who, ?WORK, ?genre WHERE {
db:Tokyo_Mew_Mew dbprop:author ?who .
?WORK dbprop:author ?who .
OPTIONAL { ?WORK dbprop:genre ?genre } .
}
使用DBpedia的相關計劃或組織
編輯DBpedia廣納了人類知識不同領域,十分多元的範疇資料。這使得它自然而然成為連結眾多資料集的樞紐,讓外部資料集能夠連結到相關的概念。[8]DBpedia的資料集是跟其他許多網絡上不同的開放資料資料集在RDF的層級互動相連着。透過這些資料集,可以讓應用程式豐富DBpedia的資料。截至2013年9月[update],已經有超過4500萬筆在DBpedia與外部資料集之間的互動連結產生,外部資料集包含:Freebase (database)、OpenCyc、UMBEL、GeoNames、Musicbrainz、CIA World Fact Book、DBLP、Project Gutenberg、DBtune Jamendo、Eurostat、Uniprot、Bio2RDF、以及美國普查等資料[9][10]。湯森路透公司的前導計劃OpenCalais、紐約時報的連結開放資料計劃、Zemanta以及DBpedia Spotlight也納入了DBpedia的連結[11][12][13]。BBC也使用DBpedia來輔助其內容組織[14][15]。Faviki使用DBpedia進行語意標籤(semantic tagging)[16]。
亞馬遜公司提供一串DBpedia公共資料集(Public Data Set),這可整合進亞馬遜網絡服務應用之中[17]。
DBpedia Spotlight
編輯2010年6月,來自Web Based Systems Group以及柏林自由大學的研究人員開始了一個叫做「DBpedia Spotlight」的計劃,開發工具來將文字資料中使用DBpedia資源的部份加上註解。這個工具解決了過去透過DBpedia連結非結構化資訊來源到開放連結資料雲的問題。DBpedia Spotlight可展示已命名實體擷取(named entity extraction)、包含實體偵測(entity detection)以及命名衝突化解(name resolution)(也就是消歧義(disambiguation))。此工具也能在其他資訊擷取(information extraction)任務中,用來進行命名實體辨識(named entity recognition)。DBpedia Spotlight聚焦在多種不同用途的客製應用。不去聚焦於少部分的實體類型,此計劃試圖支援全部DBpedia上來自超過320個不同分類裏,共約三百五十萬個實體與概念。
DBpedia Spotlight可公開獲取,是以一個為了測試用途而提供的網絡服務,或者也可以從Apache授權的Java/Scala API。DBpedia Spotlight分配也包含了一jQuery外掛程式,此外掛程式允許開發人員在網絡上的任何一頁加上註解,只要在他們的頁面上增加一行文字即可[18]用戶端也有Java或PHP的支援應用[19]。此工具可從其展示頁(demo page)裏,處理多種的英語資料[20]以及網絡服務。國際化的支援部分,只要此語言有開維基百科即可支援[21]。
參見
編輯參考來源
編輯- ^ Bizer, Christian; Lehmann, Jens; Kobilarov, Georgi; Auer, Soren; Becker, Christian; Cyganiak, Richard; Hellmann, Sebastian. DBpedia - A crystallization point for the Web of Data (PDF). Web Semantics: Science, Services and Agents on the World Wide Web. September 2009, 7 (3): 154–165 [2014-06-04]. ISSN 1570-8268. doi:10.1016/j.websem.2009.07.002. (原始內容 (PDF)存檔於2010-02-02).
- ^ Komplett verlinkt - Linked Data. 3sat. 2009-06-19 [2009-11-10]. (原始內容存檔於2013-01-06) (德語).
- ^ Sir Tim Berners-Lee Talks with Talis about the Semantic Web. Talis. 7 February 2008 [2014年6月4日]. (原始內容存檔於2013年5月10日).
- ^ wiki.dbpedia.org Team, [2009-11-23], (原始內容存檔於2014-09-21)
- ^ 5.0 5.1 Changelog. DBpedia. September 2013 [23 September 2013]. (原始內容存檔於2014-06-06).
- ^ 6.0 6.1 6.2 DBpedia 3.9 released.... DBpedia. [2013-09-23]. (原始內容存檔於2013-09-27).
- ^ DBpedia Mappings. mappings.dbpedia.org. [2010-04-03]. (原始內容存檔於2020-10-24).
- ^ E. Curry, A. Freitas, and S. O』Riáin, "The Role of Community-Driven Data Curation for Enterprises," (頁面存檔備份,存於互聯網檔案館) in Linking Enterprise Data, D. Wood, Ed. Boston, MA: Springer US, 2010, pp. 25-47.
- ^ Statistics on links between Data sets, SWEO Community Project: Linking Open Data on the Semantic Web (W3C), [2009-11-24], (原始內容存檔於2009-10-02)
- ^ Statistics on Data sets, SWEO Community Project: Linking Open Data on the Semantic Web (W3C), [2009-11-24], (原始內容存檔於2009-10-15)
- ^ Sandhaus, Evan; Larson, Rob. First 5,000 Tags Released to the Linked Data Cloud. open.blogs.nytimes.com. 2009-10-29 [2009-11-10]. (原始內容存檔於2020-10-26).
- ^ Life in the Linked Data Cloud. www.opencalais.com. [2009-11-10]. (原始內容存檔於2009-11-24).
Wikipedia has a Linked Data twin called DBpedia. DBpedia has the same structured information as Wikipedia – but translated into a machine-readable format.
- ^ Zemanta talks Linked Data with SDK and commercial API. blogs.zdnet.com. [2009-11-10]. (原始內容存檔於2010-02-28).
Zemanta fully supports the Linking Open Data initiative. It is the first API that returns disambiguated entities linked to dbPedia, Freebase, MusicBrainz, and Semantic Crunchbase.
- ^ European Semantic Web Conference 2009 - Georgi Kobilarov, Tom Scott, Yves Raimond, Silver Oliver, Chris Sizemore, Michael Smethurst, Christian Bizer and Robert Lee. Media meets Semantic Web - How the BBC uses DBpedia and Linked Data to make Connections. www.eswc2009.org. [2009-11-10]. (原始內容存檔於2009-06-08).
- ^ BBC Learning - Open Lab - Reference. bbc.co.uk. [2009-11-10]. (原始內容存檔於2009-08-25).
Dbpedia is a database version of Wikipedia. It is used in a lot of projects for a wide range of different reasons. At the BBC we are using it for tagging content.
- ^ Semantic Tagging with Faviki. www.readwriteweb.com. (原始內容存檔於2010-01-29).
- ^ Amazon Web Services Developer Community : DBpedia. developer.amazonwebservices.com. [2009-11-10]. (原始內容存檔於2010-02-13).
- ^ Mendes, Pablo. DBpedia Spotlight jQuery Plugin. jQuery Plugins. [15 September 2011]. (原始內容存檔於2011-04-03).
- ^ DiCiuccio, Rob. PHP Client for DBpedia Spotlight. GitHub. [2014-06-04]. (原始內容存檔於2019-02-15).
- ^ Demo of DBpedia Spotlight. [September 8, 2013]. (原始內容存檔於2012年10月11日).
- ^ Internationalization of DBpedia Spotlight. [September 8, 2013]. (原始內容存檔於2019-09-24).
外部連結
編輯- 官方網站
- 在TED大會上,由添·柏納斯-李所做的關於語意網(semantic web)短講影片(頁面存檔備份,存於互聯網檔案館),參照了DBpedia作為範例。
- DBpedia - Extracting structured data from Wikipedia(頁面存檔備份,存於互聯網檔案館) 以及 LinkedGeodata(頁面存檔備份,存於互聯網檔案館),2009年國際維基年會兩個談到關於DBpedia計劃的議程。
- DBpedia: Querying Wikipedia like a Database(頁面存檔備份,存於互聯網檔案館) - Chris Bizer, World Wide Web Conference Developers Track, 11 May 2007
- W3C SWEO Linking Open Data Community Project(頁面存檔備份,存於互聯網檔案館)
- DBpedia Spotlight的首頁連結(頁面存檔備份,存於互聯網檔案館)