資料集 | Page 2

| google | TensorStore | 資料集

Google開源專門存放N維資料的可擴展儲存TensorStore

Google所開發的TensorStore，可用於儲存複雜的N維資料集，並且提供簡單的API供機器學習應用存取大型資料集

2022-09-26

| MLCommons | 關鍵字 | 資料集 | 語音辨識 | Multilingual Spoken Words Corpus | 開源 | 語音助理

MLCommons釋出多語言口語大型語音辨識資料集

這個以CC-BY 4.0授權釋出的MSWC資料庫，包含50種語言的音訊資料，而MSWC是其中46種語言第一個開源口語資料集。

2021-12-17

| google | 增強學習 | 資料集

Google打造增強學習資料集生態系RLDS，促進資料收集和交流

增強學習資料集（RLDS）是一個資料集生態系，能夠完整收集增強學習需要的訓練資料，也能方便地與其他研究人員共享

2021-12-07

| google | 自然語言處理 | 資料集

Google釋出細緻分類的情緒資料集GoEmotions

Google研究人員收集Reddit上的英文評論，並且移除不適當的言論，對5.8萬條評論以27種情緒分類，製作成目前最大的全註解情緒資料集GoEmotions

2021-11-02

| 臉書 | AI | 第一人稱 | 資料集

臉書釋出資料集Ego4D讓AI透過人眼認識世界

Ego4D資料集由專案參與者，佩戴頭戴式攝影機和各種感測器，拍攝第一人稱視角的影片，教人工智慧透過人眼理解世界

2021-10-15

Google釋出目前最大型的圖文資料集WIT

研究人員擷取維基百科中的圖片以及相關解說文字，創建出具有3,750萬筆圖文樣本，涵蓋108種語言的圖文資料集WIT

2021-09-23

| 臉書 | 圖像相似性 | 資料集

臉書釋出圖像相似性資料集，促進圖片變造偵測技術發展

臉書現在釋出的圖像相似性資料集，是目前已知最大的同類資料集，可用作圖像相似性偵測技術的評估基準

2021-06-22

Google釋出不帶有性別與年齡屬性的人物註解資料集，避免人物辨識模型產生偏見

Google解釋因爲各個資料註解者的文化與背景不同，因此無法產生一致的性別和年齡人物註解，可能在機器模型中出現偏見，因此最新的MIAP資料集，人物皆使用無關性別和年齡的特徵註解。

2021-06-16

| 臉書 | 機器翻譯 | 資料集 | FLORES-101 | 多語言翻譯 | AI

臉書開源可精確評估多對多翻譯模型的Flores-101資料集

FLORES-101是可用來評估翻譯模型的測試資料集，包含了101種語言的語句，其中有80％為低資源語言

2021-06-07

| google | 資料集 | 參照基礎架構

Google公共雲端資料集解決方案現加入商業資料集

Google公共雲端資料集現在提供更豐富的資料集類型，供企業探索並且可結合私人資料集，獲得深入且獨特的分析結果

2021-05-24

| 臉書 | AI | 偏見 | 資料集

臉書釋出新資料集供研究人員評估人臉辨識系統偏見

Casual Conversations資料集是由臉書付費召集參與者，所收集而來的人像影片，由參與者自己提供年齡和性別，並且經訓練人員以費氏量表標記參與者的膚色

2021-04-12

| google | 機器學習 | 資料集 | 電腦視覺

Google要借助群眾外包力量創建未知物測試資料集

CATS4ML要挑戰者從開放圖像資料集中，找出機器學習模型對答案很有把握，但是實際上卻錯誤分類的例子，這些例子可用來避免未來模型可能發生的錯誤

2021-02-16

iThome 研討會

數位轉型攻略 VII : GenAI 加速企業創新落地，更需要全新 IT 戰略

善用 GenAI 技術和工具，快速打造出更多高性價比的應用，不只是考驗企業的 AI 技術能力，更是基礎架構管理、雲原生開發能力、全方位資安與 IT 永續發展的挑戰。

日期: 即日起~06/25

2025 iThome 臺灣雲端大會

不論您是技術專家、企業決策者，還是關注 AI 與雲端技術的從業者，iThome Cloud Summit Taiwan 2025 都將為您帶來最前沿的技術洞察與實戰經驗！

日期: 7/2 (三) 08:30 ~ 17:00

Kubernetes Summit 2025 誠邀技術專家投稿

Kubernetes Summit 2025 議程徵稿現正開放，誠邀技術專家、架構師、SRE、DevOps 工程師及開發者踴躍投稿，分享您的技術實踐與實戰經驗。

日期: 即日起至 6 月 13 日