數據分析師的招聘越來越火,越來越多的小伙伴都想要往這方面發(fā)展,其中有一項必不可少的技能要求就是會 Excel 做數據清洗、建模和分析,現在就用 Excel 來實戰(zhàn)分析數據分析師的招聘需求如何。用到的是 Mac 版 Excel 2016。
得到的原始數據如下:
第一步,明確分析問題
要分析數據分析師崗位的招聘需求可以從2個方面來看
城市需求分布如何薪資分布如何第二步,數據清洗
數據清洗是數據分析非常重要的一環(huán),做好數據清洗可以保證數據的準確度,一般會占用數據分析大部分時間,但隨著經驗的增長和技能的數量,效率會有所提升,但一定要細致保證每一步的準確性。
理解數據,選擇重點分析對象
得到原始數據后,要理解每一列的數據表示含義,選擇出重點的分析對象,將無關緊要或者意義重復的列進行隱藏(最好是隱藏,不要刪除數據,保留數據的完整性)。
2. 刪除重復值、處理缺失值
本數據中發(fā)現一個 “職位ID” 對應一個職位,所以只要去看 “職位ID“列 里面的 “職位ID” 有沒有重復值,有的話就把重復值刪除。
選擇:數據 > 刪除重復項 > 選擇列,出現以下圖示:
點擊確認后,會自動刪除有重復值的那一整行,如下圖:
重復值刪除后,若此列的值共有 A 個,其他分析列的值小于 A 個,就需要將有缺失值的列補全。比如此表發(fā)現 “城市” 列有缺失,選中 “城市” 列,使用定位功能,定位 “空值”,就可以將缺失值的單元格找出來,定位功能的快捷鍵是 + G,
找出空值的單元格后,如果需要輸入在所有空格中的內容一致,則在第一個空格中輸入內容后按住 + Enter 就可以自動將所有空值單元格補全,如果需要輸入在空格的內容不一致,則可以使用篩選功能篩選出空格,再進行填充。
處理缺失值有四種辦法:
3. 數據一致化處理
一致化是什么意思?就是把所有的數據處理成容易使用公式或者數據透視表的形式。
舉例1,在 “公司所屬” 列中,大部分公司從屬一個行業(yè),小部分公司從屬兩個行業(yè),此時就需要將這兩個行業(yè)分隔開來。此時需要用到的功能是 “分列”,一般需要將需要分列的列粘貼到最后一列,這樣分割出來的列有足夠的空間,不會遮擋原本單元格內容,操作如下圖:
選擇:數據 > 分列 > 分隔符號 > 填寫分隔符號
注:如果原單元格內容是 “A,B”,用分隔符 “,” 分列后成 A、B 兩列;如果原單元格內容是 “A,B,C”,用分隔符 “,” 分列后成 A、B、C 三列。
舉例2,我們需要分析薪水的水平如何,但是 “薪水”列中,薪水是使用一個區(qū)間表示的excel高級數據處理與分析,這時需要把最低薪水和最高薪水分隔開來,才能更好的直接使用圖表查看薪水情況,這里需要用到函數 Find 和 Left/Mid/Right 和 Len。
Find 函數,用于查找一個字符串在另一個字符串中出現的位置,公式為:
Find("需要查找的字符串”,單元格)
Left/Mid/Right 函數,用于截取字符串內容,分別表示從左中右截取,公式為:
Left(字符串所在單元格,從左開始到##位置進行截取)
Right(字符串所在單元格,從右開始在##位置進行截取)
Mid(字符串所在單元格,開始位置,截取長度)
Len 函數,用于計算文本串的字符個數,公式為:
Len(文本串)
所以如下圖所示,最低薪水和最高薪水計算公式為:
公式完成后,用篩選功能檢查數據是否全部都截取正常,發(fā)現 “最低薪水”列 有不能顯示的值,如下圖:
此時需要找出問題在哪,既然公式是正確的,那去查看原本的字符串是否有問題,發(fā)現這些不能顯示的值對應的 “薪水”列中都是大寫的 “K”,而前面用到的公式中都用的小寫的 “k”,此時使用替換功能將 K 替換為 k 即可。
在最高薪水列,也有不能顯示的值,
此時可看到,因為沒有最高薪水所以顯示不出來,處理辦法可用最高薪水=最低薪水,來彌補這些缺失值。
計算完成后,將最低薪水和最高薪水復制,選擇性粘貼“值”到另兩行之后可以計算平均值,并降序排列。(注意粘貼完后需要將數值的 “文本”格式改成 “數字”格式)
按照以上步驟,分析好的數據如下,
4. 異常值處理
“職位名稱”列 中有非常多的職位名稱excel高級數據處理與分析,但我們需要分析的是數據分析類崗位,所以需要選擇出與數據分析類崗位匹配的 “職位名稱”。此時需要用到數據透視表功能。
插入數據透視表后,如下圖所示處理,
接著將 “職位名稱” 按計數項降序排列,如下圖,
挑選計數最多的職位名稱里面的關鍵詞,可看出為“數據分析”,“分析師”,“數據運營”為三個關鍵詞,于是回到原表,在 “職位名稱” 后插入新列,選擇出 ”職位名稱” 里包含這些關鍵詞的職位,此時需要用到 Find 和 Count 和 If 函數。
Count 函數,用于返回某一區(qū)域中數值的個數,公式為:
Count(區(qū)域)
If 函數,用于驗證一個條件是真是假,公式為:
If(條件判斷,結果為真顯示值,結果為假顯示值)
if與count經常嵌套,表示查找某單元格是否包含某字符串,此案例的公式如下圖:
篩選出 “是” 的所有數據,復制到新表中,作為已經清洗好的數據備用。
第三步,構建模型
數據清洗完成后,需要做的是構建模型。數據分析一定是有目的的,所以在最開始就提出的分析目標非常有助于建模。利用數透功能可得以下數據透視表:
利用 “描述統(tǒng)計” 功能可以對平均薪資進行分析,操作步驟如下:
第四步,數據可視化
根據上一步操作得出的數據透視表,作出以下可視化圖表:
得出結論:
數據分析師崗位的大量工作機會集中在一線城市和新一線城市,北京排在首位從待遇上看,該崗位在深圳的薪資最高,其次為北京、上海數據分析師是個較為年輕的職業(yè)方向,大量工作機會經驗要求集中在1-3年,5年為一個瓶頸期隨著經驗累積,薪酬不斷提升,10年以上工作經驗的人能獲得相當豐厚的薪酬對于上海來說,對于工作經驗要求分布較均勻,隨著工作年限增加,薪酬增長幅度不大