Dataset Search搜尋頁面示意圖

Google在2018年9月發表的資料集搜尋引擎Dataset Search,終於在本周邁入正式版,目前Dataset Search已索引了全球網路上近2,500萬個資料集,最受使用者歡迎的主題,包括教育、天氣、癌症、犯罪、足球,以及小狗。

顧名思義,資料集搜尋引擎所搜尋的,是經過組織且結構化的資料,它或許以照片呈現,也可能是表格或文字,而當輸入「滑雪」時,它可能會出現全球最快滑雪選手的成績列表,或者是全球滑雪旅館的營收報告。

根據Google的統計,現在Dataset Search所索引的資料集中,內容最多的類別為地球科學、生物學及農業;而最受出版商歡迎的資料集格式為表格,在2,500萬個資料集中,就有超過600萬個是表格;此外,絕大多數的政府都利用schema.org開放標準來描述這些資料集,而美國則是全球政府資料開放平台中,貢獻最多資料集的政府,有超過200萬個資料集被Google索引。

不管是學者、學生、各個領域的研究人員或一般使用者,都可利用Dataset Search找到更多的結構化資料集,邁入正式版的Dataset Search也新增了篩選功能,例如可以根據資料集的格式(文字、圖片或表格),或是資料集免費與否進行過濾,此外,原本只支援桌面的Dataset Search現在也有行動版了。

Google也鼓勵那些已建立資料集的業者,可遵循schema.org標準來描述資料,以確保這些資料集能被Google索引,並被使用者看見。

熱門新聞

Advertisement