圖片來源: 

Google

Google周三宣佈一項能幫科學家或記者找到各種網路公開資料庫的資料集搜尋服務

今天網路上有成千上萬個資料庫,提供多如牛毛的資料集,各國中央及地方政府也將大量資料公佈於網路上。為使資料更容易搜尋,Google釋出資料集搜尋(Dataset Search),方便科學家、媒體記者、喜歡研究各種資料的用戶可以更快找到資料做研究、寫報告或寫報導。

在此之前,Google也曾提供 Google Scholar給做學術研究的師生。和Google Scholar一樣,資料集搜尋讓用戶可以上天下海搜尋各種公開資料,不論它是放在出版者的網站、數位圖書館或作者個人網頁上。為了方便政府或商業、學術機構等單位加入資料集搜尋,Google也發展了一套資料集描述的共同標準給資料供應單位遵循,使Google更容易索引到他們的網頁內容,包括資料集建立、出版時間、資料如何蒐集到、資料使用期限等等。Google會再蒐集並連結這些資訊、分析同一資料集不同版本出版地方,以及找出討論該資料集的出版品等。輸入想搜尋的主題,Google就會幫你找到各種相關資料庫。例如輸入每日天氣,就會看到來自美國太空總署、美國國家海洋及大氣總署、或是哈佛大學Dataverse及其他學術資料庫。

Google的作法是根據資料描述的開放標準(schema.org),因此使用者也能沿用開放標準加入它的資料集搜尋。

這個計畫一開始會先連結環境及社會科學,以及政府資料或像ProPublic等新聞網站的資料集,而隨著愈來愈多資料庫都使用schema.org標準來描述資料,這項服務能搜尋到的資料種類也會更多元化。Google AI研究科學家Natasha Noy指出,資料集搜尋現在已支援多種語言,未來還會再增加。

這類計畫基本上是將Google原本索引到的資料集以更明顯的形式提供出來。七月間Google也釋出了針對表格資料的搜尋服務,方便媒體記者搜尋。

熱門新聞

Advertisement