
Google Cloud分享企業打造AI資料基礎的5步驟
攝影/王若樸
Google Cloud今日(3/25)分析,企業擁抱生成式AI前,得先建立整合的資料基礎,包括制定AI優先的資料策略、建置統一的資料平臺、運用AI將流程自動化、確保資料安全和資料治理,以及提高資料平臺效率並降低資料成本等5步驟。尤其,企業得要有套整合式的資料分析平臺,來彙整資料來源、與其他包括AI在內的系統串接,才能發揮AI效用。Google Cloud也觀察到,臺灣企業大都有成熟的資料蒐集模式,但將這些資料實際用於GenAI應用仍有段距離。
步驟1:制定AI優先的資料策略
要讓AI發揮效益,首先得要制定AI優先的資料策略,包括建立資料策略、建立資料所有權和使用藍圖,以及形成資料生態系,來支援跨部門、跨場景的AI應用。
Google Cloud資料分析專家黃介榮解釋,就好比企業內不同部門的員工,都有其運用資料和AI來解決問題的場景,比如人資單位可將自己的資料,如員工會議次數、進辦公室的時長、工作績效等,來運用AI模型預測其離職率,並及早因應。
此時,企業就可根據這些需求和場景來制定資料策略,解決過往發展AI時,必須經歷的資料收集、資料清洗、建立資料分析模型並落地的冗長階段。
步驟2:建置統一的資料平臺,連結資料與AI
有了策略,下一步是建置整合式的資料平臺,來連結資料和AI。黃介榮指出,常見的企業情況是許多資料庫和系統獨立,有些可能為了權限管理,有些為了業務方便。但到了大數據和AI分析時代,需處理的資料量和資料類型(模態)大幅增加,資料平臺就得重新設計,需建置一套統一的資料平臺。
這種資料平臺,要能支援結構化、半結構化和非結構化資料,比如零售業的多維度客戶資料,來優化行銷與庫存管理。這套平臺還要能整合各系統資料,以及有能力快速分析即時資料串流並反應。
Google Cloud的自家資料平臺產品BigQuery,也針對這類需求,在今年提供新功能,如支援多模態表格和自動探索、編目,來簡化多模態資料的擷取與管理;整合大型語言模型(LLM)與SQL查詢的AI查詢引擎;以及即時RAG功能,來讓LLM提供能精確的回答。
步驟3:運用AI將流程自動化
有了統一的資料平臺,企業就可用來發展AI代理來自動化資料整理流程、產出洞察,來提高員工生產力。比如,運用AI代理來處理資料翻譯、提供個人化建議,或是用於電子商務的商品分析、提供精準行銷建議等。
不過,AI代理還能扮演一種資料分析角色,能協助使用者分析資料,打破過往資料分析的高門檻。這種代理又稱為資料代理。Google Cloud自己也在3月推出一套資料科學代理Data Science Agent,使用Gemini模型來為開發協作平臺Collab用戶簡化數據分析流程。
步驟4:確保資料安全和資料治理
另一方面,為發展AI,尤其是生成式AI應用,企業也要做好資料治理和安全管理。Google Cloud建議,企業可從資料品質、法規遵循和安全性下手,比如資料品質部分,需設置機制確保資料的正確性、完整性和一致性,安全性部分則需檢視,資料平臺是否具備加密、存取控制和威脅偵測等安全措施。
黃介榮指出,Google Cloud和財團法人人工智慧科技基金會在去年做了項《臺灣企業AI準備度調查報告》,並發現,在發展AI所需的資料準備度中,超過半數的臺灣企業具備良好的資料蒐集能力,但是,只有17.8%的企業擁有整合的資料平臺或明確定義的資料管理解決方案,來快速處理多個來源的資料,顯示臺灣企業從蒐集到實作還有段距離。
這份報告也發現,企業的生成式AI資料治理成熟度,仍處於發展階段,整體治理力指數平均為41.61分。其中,17.7%的企業對AI準則不清楚或尚未採用,顯示其治理框架有待加強。此外,只有14.9%的企業已規畫專責團隊,來讓自家AI符合國際最新規範,並制定相關治理流程。這意味著,臺灣企業在AI資料治理上仍有很大的進步空間。
黃介榮也補充,有些高機敏性的產業,如金融、特定製造業,在發展AI資料治理上步調較慢,因為得先建立規範,才能進一步實作。
步驟5:提高資料平臺效率並降低資料成本
最後一步隨著AI應用的規模擴大,企業使用的資料平臺,也要能夠擴展這些AI工作負載、極小化非必要成本,比如簡化資料處理流程、提高資源利用率。
Google Cloud也建議,這個階段的企業應考慮將工作負載自動化,比如資料平臺來自動化資料管理任務(配置、擴展和備份等);另也需考量平臺是否有自動化工具或功能,來監控、分析或優化資料儲存狀況和運算成本;以及考慮平臺能否無縫擴展,來處理不斷增長的資料量和AI工作負載,且兼顧效能和成本。