大數據挖掘技術之DM經典模型下面我們將探討如何用模型來表示簡單的、描述性的統計數據。如果我們可以描述所要找的事物,那么想要找到它就會變得很容易。這就是相似度模型的來歷——某事物與所要尋找的事物越相似,其得分就越高下面就是查詢模型,該模型正在直銷行業很受歡迎,并廣泛用于其它領域。樸素貝葉斯模型是表查找模型中一種非常有用的泛化模型,通常表查詢模型適用于 較低的維度,而樸素貝葉斯模型準許更多的維度加入。還有線性回歸和邏輯回歸模型,都是最常見的預測建模技術?;貧w模型,用于表示散點圖中兩個變量之間的關 系。多元回歸模型,這個準許多個單值輸入。隨后介紹邏輯回歸分析,該技術擴展了多元回歸以限制其目標范圍,例如:限定概率估計。還有固定效應和分層回歸模 型,該模型可將回歸應用于個人客戶,在許多以客戶為中心的數據挖掘技術之間搭建了一座橋梁相似度模型中需要將觀察值和原型進行比較,以得到相應的相似度得分。觀察值與原型相似度越高,其得分也就越高。一種度量相似度的方法是測量距離。觀 察值與原型值之間的距離越近,觀察值的得分就越高。轉摘 如何控制鏡頭的成像質量!當每個客戶細分都有一個原型時,該模型可以根據得分把客戶分配到與其最相似的原型所在的客戶細分中相似度模型有原型和一個相似度函數構成。新數據通過計算其相似度函數,就可以計算出相似度得分通過出版社的讀者比一般大眾要富有,而且接受教育的程度要高為例。通常前者要比后者在富有程度、教育程度的比例大三倍。這樣我們就可以給讀者一個訊息——“工資很高,并且受過良好的教育”如果要把對讀者的描述表示成一個可以識別該雜志潛在的讀者的模型,就需要對理想的讀者做出精確的定義,并以此來量化潛在讀者與理想讀者之間的相似程度相似度和距離是同一概念的兩種不同描述方式,但是它們度量的方向不同。使用距離作為度量指標時,如果兩個事物彼此非??拷?,那么兩者就很相似。所以當兩者距離很小時,相似度就會很高例如:出版社的理想讀者的受教育程度是16年,美國攝影師拍攝自己母親的性行為照片并公開發,年收入100000美元。那么受教育14年,年收入75000美元的潛在客戶與理想客戶之間的相似度 是多少呢?另外它們與受教育12年,并且年收入為150000美元的潛在客戶又有多少相似呢?這時候,我們要選擇一個度量的標準,歐式距離。當我們計算一 潛在客戶與理想客戶(x=16,y=100000)之間的距離時,就會發現收入在計算中占了主導地位,因為它的取值比教育年限大的多得多。這就引入另一個 問題:度量尺度。解決方法:將兩值分別減去相應的平均值然后除以相應的標準差。這樣就把兩者轉化成分數,然后用分數代替原來的值來計算歐式距離歐式距離僅計算距離方法之一。這里才采用歐式距離只是為了將原型目標的一種統計描述與某種距離函數結合起來,搭建一種相似度模型。有了潛在用戶與理想客戶之間的距離,企業宣傳片制作就可以對潛在客戶排序,或者將距離作為另一種計算的輸入,得到預期收入或相應概率構建相似度模型,首先是要對原型進行描述,或得到一個用于與其他對象進行比較的理想對象。這些描述必須表示為度量,對于那些與理想值較近或較遠的對象,這些變量的取值要明顯不同實現數據挖掘模型的一個簡單方法就是查詢表。表查詢模型思想就是:相似的人所作出的反應也相似。對一個新觀測值的評分涉及兩個步驟。一、為觀測值指定一個特定的標簽或主鍵。主鍵對應于查詢表中的一個單元格。二、被分配到某一個單元格的所有記錄都會有一個得分,該分值在模型訓練時就被賦予該單元格分配主鍵的方式有多種。決策樹模型適用了規則集將觀測值分配到特定的葉節點,葉節點的ID就可以作為一個可用于查詢得分的主鍵。聚類技術為記錄指定標簽,這里的聚類標簽就可以作為查詢主鍵構建查詢表,一、為查詢表選擇輸入變量。將訓練集中的每條記錄精確地分配到該表中的一個單元格中。使用訓練集中的統計數據來刻畫單元格的特征,這些 統計數據包括平均值、標準差以及落入該單元格的訓練實例個數。在為模型評分的時候會用到這些統計數據。分數可以是數值型目標的平均值,也可以是屬于某一特 定類別的比例,或者是單元格中占主導地位的類別每個維度都應該是一個對目標有影響的變量。理想情況,輸入變量不應該彼此相關,實際上,很難避免之間不相關。相關變量的實際影響是,訓練完成后有些單元格僅含有幾個訓練實例,這會使得估計值的置信度偏低。實際情況可能好點,因為要評分的新數據在那些單元格中也是稀疏的例如:在RFM模型中,有一個維度是采購總數,還有一個維度是整個生存期的花費。在兩個變量高度相關,因為通常情況下,額外的購買會創造額外的收入。很少有記錄會落入到購買數量最大而收入卻很少,或收入很高而采購量卻很少的單元格情況應該避免使用高度相關的變量作為查詢表的維度,因為這些相關變量會導致大量的稀疏的單元格。包含訓練樣本過少的單元格會產生置信度偏低的目標估計值對維度數的主要限制是單元格中訓練記錄的數量。在維度數與每個維度上分到的訓練樣本數之間有一個權衡。使用較少的維度,可以在每一 個維度上進行更加精細的劃分。在實際處理過程中,可能會出現該單元格中什么都沒有,有的時候這種情況是確實存在的。這種異常情況,表中應該包含具有默認得 分的單元格,這樣就可為那些與任意主鍵不匹配的記錄分配得分。典型的默認異常單元格得分,就是平均值在實際的過程中,并不需要,每一個類別劃分一個維度。影視視頻制作維度的分割應該依實而用。對于一個維度的合理劃分是按高、中、企業宣傳片制作低劃分,而對另一個維度的合理劃 分可能是按照百分比來劃分。有的時候,根據業務規則來定分割點,遵循這些特定的分割點劃分記錄可能那個比等分劃分更有意義。有監督的分割,可以用于確保分 割的有效性。這個后面在討論維度劃分好以后,在訓練集上計算每個單元格的得分就簡單了。對于數值型目標而言,得分=平均值。對于類別目標,每個類別會有一個得分=每個單元格類標簽的比例。這樣對于每個類都有一個概率估計,即待評分的數據記錄屬于該類的概率有些單元格沒有分配到足夠多的數據,這會導致目標估計值的置信度較低。對于這類單元格該怎么辦?一、減少每個維度上的劃分數量。二、減少定義稀疏單元格的維度數例如:構建某購物網站物品清單價格的競爭力模型。基于清單熟悉感,點擊吸引力的分析考慮四個維度:對于一些比較受歡迎的產品,類似生化危機或是變形金剛的懸念驚悚,使用這四個維度是有道理的。而對于不受歡迎的商品,沒有足夠多的清單來支持所有維度,所以要丟棄一些維度。對于一些產 品,放棄星期幾這一維度就OK。對于已協商產品,只是基于三個維度而不是基于四個維度之間的比較。對于一些產品,甚至只留下一個維度,對于這類產品,要做 的就是持續刪除維度并合并單元格,直到每個單元格含有足夠的多的數據RFM模型,稱為近期、頻率以及貨幣。RFM背后的邏輯很簡單。近期下單的客戶在不久的將來再次購買的概率可能性非常大。在過去有許多購買記錄的顧 客更有可能在不久的將來再次購買,并且在過去消費較多的客戶更有可能在將來消費更多。RFM是一種最大化現有客戶收益的技術,而不是吸引新客戶的技術將客戶分配大RFM單元中,三個RFM變量需要轉化為三個量化指標。近期:距離上次購買的天數或周數,用于得到R的得分第二個變量頻率,通常是以前下單的總數,記錄F的得分。最后一個是客戶生存期中的總的花費,該值用于創建M的得分。每個維度5等分。由于維度之間具 有相關性,如F維和M維,所以各個單元格的客戶數量并不相等。要做的就是將所有的數據都分配到合適的單元格中,而且每個單元格要有足夠多的記錄,從而目標 估計值具有一個可以接受的置信度對于每個營銷活動,客戶都會在RFM單元格之間轉移。那些做出響應的客戶對增加其消費頻率和消費總額,并且會減少距上一次購買的時間。這些新的取值通常都會遷移到單元格中。沒有響應的客戶也可能因距上一次購買時間的增加而轉移到新的單元格。其實這就是定期的數據更新,模型更新。數據的遷移,會導致原來的期望的變化,在數據單元格遷移過程中,要不斷的了解客戶的需求,及時的更改數據增量響應建模的目標是識別那些容易被說服的潛在客戶——受營銷影響最大的人。RFM可以看成是對客戶營銷活動響應能力的預測。在定義好的RFM單元 格之后,需要為每個單元格分配成員,要么是接收營銷信息的測試組成員,要么就是不接受該信息的對照組成員?;跍y試組和對照組兩個分組之間的響應率之差決 定了營銷活動對于發現潛在客戶的能力。對于測試組和對照組之間的響應率差異最大的單元格,營銷獲得產生的影響也是最大的。但這些單元格的響應率卻未必是最大的表查詢模型簡單有效,但是存在一個問題。隨著輸入數量的額增加,每個單元格中訓練樣本的數量會迅速減少。如果維度為2,且每一維有10個不同的變 量,那么就需要100個單元格,而當有3個維度時,就需要1000個單元格,4個維度就是10000.這樣成指數級的增長,哪怕的傳統數據挖掘中都會遇到 明顯瓶頸當試圖預測某一個概率值時,樸素貝葉斯模型就提供這一辦法。基本思想:每個輸入變量本身就包含一些預測需要的信息。這些變量都具有預測能力。根據取消率的顯著差異性,可將每個變量 劃分在不同的范圍中。