實踐大學數據分析實驗室

發表文章

RM 案例分享（一）

3月 15, 2022

RapidMiner在業界中有很多實際的應用，這些案例都是RapidMiner自帶的，都是真實存在的，大家可以用同樣的操作，對案例有一個很好的理解和應用。 01 |案例說明首先我們學習最經典的機器學習模型，就是監督學習（ Supervised Learning）中的分類模型。這邊使用的是一個電信公司的案例，通過客戶的基本資料和一些簡單的互動信息，建立一個模型，以預測哪些客戶有較高的可能性流失，從而進行補救。因為研究顯示得到：「一個新客戶的成本是维持一個老客戶的 7倍」，並且通過和老客戶维持良好的關係之後，有更多的機會得到老客戶的推薦而產生新客戶，所以對於任何的企業，掌握客戶何時可能會流失，而及早的提出補救做法，對於企業是非常必要和關鍵的，這個流程如下圖所示： 02 |數據資料首先我們分析數據，共有 9990筆的數據。包括了客戶所使用的電信種類、客戶年纪、客戶開始時間、聯絡紀錄、以及客戶的平均帳單金額。這邊所使用的流失指標，可能是通過其他模型或是人工的方式给予標識，我們使用這個作為我們的指標，來預測客戶流失的可能性。 03 |操作流程 Step1讀入數據這裡使用了一個簡單讀入數據的算式，但是不要先急著開始做數據的模型，應該先對數據做一個全面的了解，包括數據的質量（有沒有缺失？合不合理？）、種類（多項式？整數？）以及關聯性等等，如下圖所示：通過這個觀察，我們可以看到一些簡單的問題。流失指標並不能作為一個分類的目標值，而其目標必須是一個二項式（ Binomial）的數值，所以這個部分需要在數據整理之中進行處理，或者是有些人的年纪是 1歲，這個可能是錄入的錯誤，這個時候要判斷哪些是合理的數據或不是，從而進行處理。同時也應該做一些簡單的數據分析，大概理解數據的基本性質，這樣可以更有效地對模型進行一個直觀的判斷。通常都是對於數據進行直觀的圖形了解，要使用何種圖形則可以依照不同的目的來了解。例如我們可以通過對於不同屬性和目標值的關係，大概掌握一些特性，如下圖所示：但是這個只是一個分法，其真正的作用，是在之後的第二階段，我們將其和心理特徵解惑之後，就可以看出其強大的能力。通過這個圖形我們就可以發現數據裡面的一些性質，可以很清楚的看得出來流失的機會和賬單金额有一定的...

閱讀完整內容

搜尋此網誌

實踐大學數據分析實驗室

發表文章

RM 案例分享（二）

RM 案例分享（一）