RM 案例分享(二)
RapidMiner在業界中有很多實際的應用,這些案例都是RapidMiner自带的,都是真實存在的,大家可以用同樣的操作對案例有一個很好的理解和應用。 01 |案例說明 在實際的工作中,除了數據本身需要處理之外,同時也需要對所建立模型進行檢驗與了解。所以在這個過程之中我們學習 2個比較進階的功能:一個是關於决定屬性和结果之間的關係,從而判斷哪些是更重要的屬性;另外一部分則是在使用模型的时候,如何做更細緻的控制。 案例使用的模型,是一個典型的直接郵件模型,在市場營銷中,通常通過郵件和客戶之間互動或是推銷,雖然現在可能郵件的功能不如社群網路,但是其中的道理是可以一樣的。只要能掌握相關的客戶資料,就可以預測客戶的反應,從而制定和評估市場營銷的策略。但是不見得所有的屬性都很重要,我們希望知道在這麼多的屬性之中,哪一個是最為重要和關鍵的屬性,可以作為 KPI 來做設定。整體的流程如下圖所示: 同時在使用模型的過程之中,我們也希望了解如何使用模型的參數來符合實際的需求,而不是只依靠系统的缺省值而做設定,這樣系统的預測才能和實際的结果更為的吻合。 02 | 數據資料 第一步基本仍然是讀入和理解數據,來檢查數據本身的質量、種類和相關信息。除了基本的數據觀察,比如有無缺失,或者數據的種類之外,我們也可以將鼠標點擊每一個屬性,來得到其基本資料和數據的分布(如果有需要,也可以使用圖形下方的可視化連接,直接打開圖表頁面) 而這邊比較有意思的是,可以看到在數據的種類列表中,有 2個三角形的警示標誌如下圖所示。這個警示標誌只是作為一個建議;意思是說,如果模型使用的“年纪”或者“性别”不同,則可能會產生出在使用上造成不同的可能,並不是對於结果有質量的影響。這個只是作為一個參考,是否使用仍然是由用戶自己决定。 而對於數據本身的相關性,似乎並沒有特别的主要關聯。通常我們可以通過使用分散式矩陣 (Scatter Matrix) 和分散式3D圖(Scatter 3D),來檢視數據和目標值的關係,而這是一個很好的起始點。 03 |操作流程 Step1讀入數據 這個步驟是一個很標準的操作流程,基本上將數據讀入之後,對於數據可以進行初步的了解。然後將不需要的屬性(如 Name)直接去掉,並使用一個複製(Multiple)的算式...