有鑒於當前皮膚科影像資料集的不足,Google與史丹佛大學醫學院合作,收集涵蓋各種膚色、身體部位皮膚病狀的照片,推出了皮膚病狀圖像網路(SCIN)資料集,由於該資料集的收集方式來自網路,因此也可反映出人們常在線上搜尋的常見皮膚問題。SCIN資料集補充臨床皮膚疾病資料集的不足,並提高人工智慧工具的泛用性。

健康資料集在研究和醫學教育都非常重要,但研究人員提到,要創建能夠代表現實世界的資料集具有挑戰性。像是皮膚問題的外觀和嚴重程度各有不同,而且現有皮膚科影像資料集缺乏人們日常經常出現的皮疹、過敏和感染等病狀的圖片,同時內容多淺色皮膚也欠缺種族資訊,使得研究人員難以評估差異和創建通用解決方案。

而SCIN資料集經過仔細設計,收集廣泛條件的圖片,具有詳細貢獻者的資訊,還有專業皮膚科醫師標注。SCIN資料集共收錄超過1萬張皮膚、指甲和頭髮狀況的圖像,這些圖像由本人自願貢獻,並被要求拍攝特寫與稍遠距離的圖像。貢獻者可選擇提供人口統計資料與日曬傾向,還有描述他們關心的問題、症狀與持續時間等資訊。

由一到三位皮膚科醫生對貢獻者的皮膚狀況,給出最多5個皮膚病狀,以及附上每個標籤的信賴分數。研究人員提到,資料集包含單獨的標籤,以及衍生出的聚合和加權差異診斷,可用於模型測試和訓練。雖然這些標籤屬於回顧性的資訊,無法等同於臨床診斷,但研究人員可以將SCIN資料集中皮膚病狀的分布,與現有資料集進行比較。

許多皮膚病資料集針對良性與惡性腫瘤,以協助診斷皮膚癌,但是SCIN資料集的組成,主要是常見的過敏、發炎和感染性疾病。SCIN資料集中的大多數圖像,展示了皮膚病的早期狀況,超過一半的皮膚病狀在照片拍攝一周內出現,甚至有30%的症狀是在圖像拍攝不到一天內出現。

在現有的皮膚病學資料庫中,這些短時間出現的症況,往往得到關注不足,因此在健康系統內不常見。也就是說,當臨床環境少有文件紀錄,這些早期症狀沒有被資料集紀錄,對於病狀研究和診斷工具的開發就會受限,進而影響了對這些病狀的理解和治療。

研究人員特別提到,他們在創建SCIN資料集,採用了一種群眾外包新方法。研究人員藉由在網頁搜尋結果頁面投放廣告,吸引網路參與者,並與之建立聯繫,這個方法擴大了參與者的範圍,確保可以從廣泛且多元的人群中收集資料,而且由於貢獻者在醫療健康研究中扮演積極角色,使研究者能夠接觸到處於健康問題早期階段的人們。

結果也顯示,這種群眾外包方法收集到的資料不只品質高且垃圾訊息率低,超過97.5%的貢獻都是真實的皮膚狀況圖像,也有大約一半的貢獻回報了人口統計資訊,且有80%包含皮膚狀況的自我評估,像是膚質、持續時間和其他症狀描述。

熱門新聞

Advertisement