Mistral AI推出一款全新的內容審核API,該工具能夠協助開發者自動檢測並分類不良文字內容。該API針對性、暴力、仇恨言論和自我傷害等9大類別進行分類,並可被用於多種語言情境中,像是即時通訊和對話系統。官方強調,內容審核API在提升內容安全性的同時,也能夠高度自定義,以應對不同應用的需求。

內容審核API之所以日益重要,主要是因為大型語言模型正迅速普及,確保生成和傳輸內容符合安全標準成為重要課題。隨著社交媒體、聊天機器人和客服平臺等人工智慧應用不斷擴展,內容審核工具有助於確保法令遵循和用戶安全。

新推出的Mistral內容審核API,其模型已經在Mistral聊天應用Le Chat服務中運作,並通過內部測試,在精確度和穩定性上表現良好。Mistral內容審核API特別之處在於根據不同應用情境,提供兩個端點,一個專門針對一般文字,另一個端點則是用於對話情境。

針對對話的端點能夠考量對話的背景和上下文,並對最後一句話進行審核,由於部分話語可能會因上下文而變得更具攻擊性或是敏感性,因此這種設計讓Mistral內容審核API更適合用於多變化的對話場景,使結果能夠更符合實際應用情境的需求。

Mistral內容審核API能夠自動分類輸入的文字,並且回傳每個類別的風險評分,供開發者快速做出回應。該API經過多語言訓練,能夠支援中文、英文、法文和德文等十多種語言。Mistral內容審核API經AUC PR(Area Under Precision-Recall Curve)指標評估,具高度準確性和穩定性。

市面上有不少類似工具,包括OpenAI內容審核API也支援多語言並可針對不良類別分類,而Google Jigsaw的Perspective API也主要用於過濾有害或具攻擊性的言論,AWS的Amazon Comprehend服務也可標記出有害言論。

熱門新聞

Advertisement