來 源:大數據分析和人工智能
對于剛進入數據分析行業新手來說,Excel可以被當做一款入門的軟件。在學習R或前,事先掌握一定的Excel知識是百利而無一害。Excel憑借其功能強大的函數、可視化圖表、以及整齊排列的電子表格功能,使你能夠快速而深入的洞察到數據不輕易為人所知的一面。
但與此同時,Excel也有它的一些不足之處,即它無法非常有效的處理大型數據。這是我曾經遇到的這個問題。當我嘗試使用Excel處理含有20萬行數據的數據集時,就會發現EXCEL運行的非常吃力。Excel并不適用于處理海量數據,雖然在某種程度上,可以通過一些其他的方法讓Excel處理大型數據集,但我更推薦使用 R或去處理 ,而不是Excel。
在這篇文章中,我將會提到一些關于Excel使用方面的小技巧,從而可以節省你寶貴的時間。
01
常用的函數
1.
它可以幫助你在表格中搜索并返回相應的值。讓我們來看看下面表和表。在表中,我們需要根據共同字段 “ id”將表內City字段的信息匹配到表中。這時,我們可以使用函數來執行這項任務。
提示:在復制公式中請別忘記使用符號 “$”如何在電子表格中將阿拉伯數字轉換為大寫金額,來鎖定表的查詢范圍。這被稱之為絕對引用,也是經常容易出錯的地方。
2.
這個函數可以將兩個或更多單元格的內容進行聯接并存入到一個單元格中。例如:我們希望通過聯接Host Name和 path字段來創建一個新的URL字段。
上面的問題可以通過使用公式 “ =(B3,C3)” 并且下拉復制公式來解決。
提示:相對于“”函數,我更傾向于使用連接符“&”來解決上述問題如何在電子表格中將阿拉伯數字轉換為大寫金額,公式為“= B3&C3”
3. LEN
這個公式可以以數字的形式返回單元格內數據的長度,包括空格和特殊符號。
示例:=Len(B3) =23
4. LOWER, UPPER and
這三個函數用以改變單元格內容的小寫、大寫以及首字母大寫(即每個單詞的第一個字母)。
在數據分析的項目中,這些函數對于將不同大小寫形式的內容轉換成統一的形式將會非常有用。否則,處理這些具有不同特征的內容將會非常麻煩。
下面的截圖中,A列有五種形式的內容,而B列只有兩種,這是因為我們已經將內容轉換成了小寫。
5. TRIM
這是一個簡單方便的函數,可以被用于清洗具有前綴或后綴的文本內容。通常,當你將數據庫中的數據進行轉儲時,這些正在處理的文本數據將會保留字符串內部作為詞與詞之間分隔的空格。并且,如果你對這些內容不進行處理,后面的分析中將產生很多麻煩。
6. If
我認為在Excel眾多函數之中最有用的一個。 當特定的事件在某個條件下為真,并且另一個條件為假時,可以使用這個公式來進行條件運算。 例如:你想對每個銷售訂單進行評級,“高級”和“低級”。假設銷售額大于或等于5000,則標記為“高級”,否則被標記為“低級”。
02
由數據得出結論
1. 數據透視表
每當你在處理公司的數據時,你需要從“北區分公司貢獻的收入是多少?”或“客戶購買產品A訂單的平均價格是多少?”以及許多類似的其它問題中尋找答案。
Excel的數據透視表將會幫你輕松的找到這些問題的答案。數據透視表是一款用于匯總如:計數,求平均值,求和,以及其他依據相關選擇進行特征計算的功能。它可以將數據表轉換為反應數據結論的表格,從而幫助你做出決策。請看下面的截圖:
從上圖可以看出,左邊的表格中有銷售產品的細節內容,即以區域分布和產品的對應關系匹配到每一個客戶。在右邊的表格中,我們按不同區域進行了匯總,并且幫助我們得出了南區有著最高銷售額的結論。
創建數據透視表的方法:
第一步:點擊數據列表內的任何區域,選擇: 插入—數據透視表。Excel將會自動選擇包含數據的區域,包括標題名稱。如果系統自動選擇的區域不正確,則可人為的進行修改。建議將數據透視表創建到新的工作表,點擊New (新工作表),然后點擊OK。
第二步:現在,你可以看到數據透視表的選項板了,包含了所有已選的字段。你要做的就是把他們放在選項板的過濾器中,就可以看到在左邊生成相應的數據透視表。
從上圖可以看到,我們將“”放入行,“”放入列中,“”放入值中。現在,數據透視表中展示了“”按照不同區域、不同產品費用的匯總情況。你也可以選擇計數、平均值、最小值、最大值以及其他的統計指標。
2.創建圖表
在Excel里面創建一個圖表,你只要選擇相應的數據,然后按 F11 ,就會自動生成系統默認的圖表。除此之外,你可以手工改變不同的圖表類型。如果你傾向于在當前工作表中生成圖表, 可以按ALT+F1,而不是F11。
當然,在任何一種情況下,只要你創建了圖表,就可以通過定義特定數據源來展示期望的信息。
03
數據清洗
1.刪除重復值
Excel有內置的功能,可以刪除表中的重復值。它可以刪除所選列中所含的重復值,也就是說,如果選擇了兩列,就會查找兩列數據的相同組合,并刪除。
如上圖所示,可以看到A001 和 A002有重復的值,但是如果同時選定“ID”和“Name”列,將只會刪除重復值(A002,2)。
按照下列步驟操作可以刪除重復值: 選擇所需數據-轉到數據面板-刪除重復值
2.文本分列
假設你的數據存儲在一列中,如下圖所示:
如上如所示,我們可以看到A列中單元格內容被“;”所區分。我們需要將其進行分列,建議使用EXCEL的文本分列功能。按照下面的步驟可以實現分列:
上圖中,有兩個選項,“分隔符號”和“固定寬度”。我選擇“分隔符號”是因為有分隔符“;”。如果我們希望按照寬度分列,例如:前四個字符為第一列,第五到第十個字符為第二列,則可以選擇按固定寬度分列。
04
基本的快捷鍵
通過快捷鍵來瀏覽單元格或更快速地輸入公式的是最佳的途徑。下面列出了最常用的幾種快捷鍵:
Ctrl + [向下|向上箭頭]:移動到當前列的最底部或最頂部,按Ctrl + [向左|向右箭頭],移動到當前行的最左端和最右端。
Ctrl + Shift +向下/向上箭頭:選擇包括從當前單元格直到最頂部或最底部范圍內的數據。
Ctrl + Home:定位到單元格A1
Ctrl + End:導航到包含數據的最右下角的單元格
ALT + F1:創建基于所選數據集的圖表。
Ctrl + Shift + L:激活自動篩選數據功能。
Alt +向下箭頭:打開下拉自動篩選的菜單。
ALT + D + S:要排序的數據集
Ctrl + O:打開一個新的工作簿
Ctrl + N:創建一個新的工作簿
F4:選擇范圍,并且按F4鍵,可以將數據引用改為絕對引用,混合引用,相對引用。
注意: 這不是一個詳盡的清單,從字面上講,我使用快捷鍵完成了平日工作的80%。
Excel作為使用最廣泛的數據統計分析軟件,無論你是小白還是資深用戶,總會有一些東西值得你去學習。
- END -