1.Excel實現回歸分析的兩種方式
在如何制定辦公用品的營銷戰略的案例中,Excel標準的多元回歸分析要求解釋變量不得大于15,所以首先排除了周二和周四處理率這兩個解釋變量。而用挖掘功能來實現多元回歸分析時,并沒有這個限制,因此不需要手動重復篩選變量。
Excel 2016安裝數據挖掘插件
原理:
Excel通過的數據挖掘外部鏈接程序來連接 ,進而使用 的服務來完成數據挖掘操作。而 的安裝則是在sql 的安裝過程中一起完成的。
安裝步驟:
安裝sql 安裝 2013安裝sql 數據挖掘外部鏈接程序卸載2013
說明:
體會:
2.創建挖掘結構
按圖1所示的步驟,打開“創建挖掘結構”向導對話框。
圖1.png
如圖2所示,選擇合并后的表格化數據作為數據源。
圖2.png
選擇要追加到挖掘結構中的數據列,如圖3所示,“員工ID” 選擇“鍵”,其他列全部選擇“包括”。
圖3.png
點擊圖3中“用法”后面的“...”excel數據挖掘插件配置,在彈出的如圖4所示的設置列建模標志對話框中,確定內容類型為“”excel數據挖掘插件配置,確保用于分析的數據是定量數據。
圖4.png
在圖5所示的對話框中,將“要測試的數據的百分比”指定為“0”,因為這里不需要留一部分數據作為測試數據以驗證預測的精確度。
圖5.png
有時候會先用一部分定性數據做回歸分析,然后驗證用這部分數據得到的結果跟剩余的數據(測試數據)有多大的匹配度(交叉驗證法)。
如圖6所示,修改結構名稱。
圖6.png
3.用創建的挖掘結構做多元回歸分析
如圖7和圖8所示,將模型添加到結構。
圖7.png
圖8.png
如圖9所示,指定分析方法為“線性回歸”。
圖9.png
在圖10所示的對話框中,“員工ID”選擇“鍵”,輸出結果“銷售額”選擇“僅預測”,其他所有解釋變量選擇“輸入”。
圖10.png
確認圖11所示的信息無誤后,點擊“完成”確認添加模型到結構。
圖11.png
打開SSMS,瀏覽挖掘模型“各員工銷售額分析-線性回歸”,輸出結果如圖12和圖13所示。
圖12.png
圖13.png
未解決的錯誤
not set to of
步驟4完成后,彈出如圖14所示的錯誤,點擊“確定”關閉該窗口后,接著彈出如圖15所示的窗口。但是,打開SSMS查看 服務器中的數據挖掘模型,“各員工銷售額分析-線性回歸”挖掘模型成功建立,瀏覽該模型的如圖12、圖13所示的結果。這說明,數據挖掘外部鏈接程序成功連接了 sever,并成功將excel中創建的數據挖掘模型存入數據庫,但是excel引用 的實例失敗,導致excel中無法正常輸出分析結果。
圖14.png
圖15.png
一開始以為是excel版本問題,但用2013版操作也同樣出現了該問題。后來又以為是sql 版本問題,但到有2014版sql 一開始能正常使用,過了一段時間,也出現了上述問題的情況。
暫時還未找到有效的解決方案。
5.比較兩種分析結果
圖13中,系數是各解釋變量對應的回歸系數,最上面一行的空白項,是截距。
觀察每項解釋變量:
與如何制定辦公用品的營銷戰略中的結果相比,“PC其他用品”的銷售額占比最多和對加班敏感的員工銷售額低這兩項結果大致一樣。另外,文件夾、生活用品和文具的占比越高,銷售額越低,與PC主機、打印、電氣化產品等占比越高銷售額越高是相對的。
注意,用Excel標準回歸分析工具進行分析時,加班處理率、入職測試、性格測試等與銷售額體現了關聯性,但是這里卻沒有在輸出結果中保留下來。原因可能是之前是按p值小于0.05的標準進行變量取舍的,這里采用了更加嚴格的變量選擇法,所以導致了結果偏差。
用Excel標準回歸分析工具對數據挖掘輸出結果中的幾個解釋變量進行回歸分析,結如圖16所示。將圖16所得的輸出結果與數據挖掘回歸分析結果整理成圖17所示的表格,發現兩者的回歸系數相差不大,且Excel標準回歸分析得到的p值都小于0.05,說明兩種實現回歸分析的方式是一樣的。
圖16.png
圖17.png