LinkedIn以機器學習偵測不適當的個人檔案內容

圖片來源:

LinkedIn揭露自家處理猥褻與非法服務廣告等，不當個人檔案內容的方法。官方提到，他們一直在開發各種安全系統，阻止假帳號、防止濫用以及避免用戶受虛假個人資料欺騙，他們以自動系統偵測並打擊違反服務條款的行為，而不當個人檔案內容便是其中一部分。

LinkedIn起初使用黑名單方法，建立一組違反服務條款的單詞和短語，當系統發現帳戶的個人檔案，含有其中任何一個不適當的單詞和短語時，便將帳戶標記為詐欺帳號，並從LinkedIn中移除。

但這個方法有一些缺點，首先是不可擴展性，因為這個方法需要手動調整黑名單列表，評估阻擋詞句需要非常的小心，且許多單詞適當與不適當的用法，跟上下文有關，LinkedIn表示，像是外送茶（Escort）這個詞常用在賣淫上，但是也可用作醫療護送（Medical Escort）。

另外，黑名單方法的可維護性不好，要名單追蹤整體的效能很簡單，但是根據列表追蹤每個詞就不是一件容易的事，需要大量的時間確保系統的穩定性。LinkedIn需要非常確定帳戶的不合法性，才能刪除帳號，但由於以上原因，像是上下文影響字義的情況，管理員需要花費許多心力判斷，因而限制了LinkedIn可以處理的帳戶數量。

為了提高偵測效率，LinkedIn決定使用機器學習方法，模型使用卷積神經網路（CNN），LinkedIn提到，CNN可以簡單地處理像是Escort這種要依據上下文判斷字義的案例。訓練的資料集分為適當與不適當，不適當資料集大部分的資料來源，是以黑名單方法捕捉的，一小部分則是成員回報並經過人工審核。適當的資料集則直接從6.6億個會員中抽樣。

但由於資料集中不良的樣本太少，可能會使訓練產生偏見，LinkedIn提到，適當資料集中的合法資料，有一大部分是因為受黑名單的限制，當沒有仔細調整訓練資料集，則模型可能會模仿過去黑名單系統的行為。

以Escort作為例子，不適當使用Escort的個人檔案數量，只是6.6億個會員基礎中的一小部分，當Escort適當使用的案例被降採樣，而不適當使用Escort的案例採樣數量不變，則會使訓練資料集看起來，像是Escort不當使用的案例比適當使用的案例還要多，但是以實際全球會員個人檔案來看，情況恰巧相反。針對這個問題，LinkedIn表示，他們找出各種產生偽陽性的問題詞彙，並搜尋正常使用這些詞彙的會員檔案，經手動標示放進適當資料集中。

目前這個模型被用來偵測平臺上濫用帳戶，除了評估新帳戶之外，也會用來辨識不適當內容的舊帳戶，LinkedIn提到，他們會擴充訓練資料集，來擴增可辨識的內容範圍。

熱門新聞