數據分析工作中我們常常需要處理大量的統計問題,這個時候就迫切的需要一個適合統計分析工具,今天小編就給大家介紹八個我們常用的統計分析軟件,并且詳細介紹各自的特點以及適用的專業,方面大家從中選擇一個切合自己需要的軟件。文章還介紹各個軟件的小tips,來幫助大家靈活使用。
01Python
Python是一種面向對象、直譯式計算機程序設計語言,也是一種功能強大而完善的通用型語言,已經具有十多年的發展歷史,成熟且穩定。優雅,明確,簡單,是它的標簽。數據分析、網絡爬蟲、編程開發、人工智能等,作為一門多功能的膠水語言,Python的使用目的和學習路徑更加多樣化。
應用Python的場景:數據分析、網絡爬蟲、系統編程、圖形處理、文本處理、數據庫編程、網絡編程、Web編程、數據庫連接、人工智能、機器學習等。
應用Python的職位:數據架構師、數據分析師、數據工程師、數據科學家、程序開發員等。
發展方向:結合各行業的專業知識,做各類型or協作型工作。
1.優勢它具有簡單、易學、速度快、免費、開源,而且由于它的開源本質,Python已經被移植在許多平臺上(經過改動使它能夠工作在不同平臺上)。
2.Tip-找到Python中文文檔如果我們在地址欄中手動鍵入 zh-cn,即:https://docs.python.org/zh-cn,那么我們就能看到官方的中文文檔。如下圖,我們現在從下拉項也可以直接看到中文選項。
02R語言
R是由統計學家開發的,它的出生就肩負著統計分析、繪圖、數據挖掘的重要使命。因此在R的語言體系里,有非常多統計學的原理和知識。
如果你具備一些統計背景,R會令你使用各類model和復雜的公式時更加愉悅有爽感,因為你總能找到對應的package,并且幾行代碼就可以調用搞定。
應用R的場景:數據探索、統計分析、數據可視化
應用R技能的職位:數據分析師、數據科學家、投資分析師、稅務人員、管理人員、科研人員等。
發展方向:結合各行業的專業知識,做深度的業務數據處理與統計分析。
1.特點
具有強大數據存儲和處理系統,齊全的數組運算工具、完整連貫的統計分析工具、優秀的統計制圖功能、簡便而強大的編程語言。
2.Tip-R語言常用函數
03Minitab
Minitab是一款適用于所有人的統計工具,minitab工具主要是通過智能數據分析為有需要的用戶或企業提升其工作效率和工作質量。minitab使用行業有銀行與金融、學術界、醫療設備、制造等。
適用職業:質量工程師,藥品檢測師,金工量化工程等。
1.特點
簡單易懂,很方便進行試驗設計及質量控制功能。
2.Tips-Minitab工具欄介紹和圖形化匯總
a:Minitab工具欄介紹
b:圖形化匯總
一般的統計分析軟件都可以輸出數據的描述性統計量,但是在Minitab的統計—基礎統計中還可以輸出圖形化匯總。
以Minitab中的圖形化匯總的內置示例數據集“開蓋轉矩.MTW”為例,在變量中選入“轉矩”,點擊確定,最終輸出的圖形如下所示:
04SPSS
SPSS是一款統計產品與服務解決方案的軟件。SPSS為IBM公司推出的一系列用于統計學分析運算、數據挖掘、預測分析和決策支持任務的軟件產品及相關服務的總稱,是世界著名的統計分析軟件之一。SPSS for Windows由于其操作簡單,已經在我國的社會科學、自然科學的各個領域發揮了巨大作用。該軟件還可以應用于經濟學、數學、統計學、物流管理、生物學、心理學、地理學、醫療衛生、體育、農業、林業、商業等各個領域。
適用職業:建模數據分析師
1.特點SPSS系統特點是操作比較方便,統計方法比較齊全,繪制圖形、表格較有方便,輸出結果比較直觀。
2.Tip-SPSS常用多變量分析技術比較匯總表
05Stata
Stata統計軟件由美國計算機資源中心(Computer Resource Center)1985年研制。目前,Stata 是計量經濟學,特別是微觀計量經濟學的主流軟件。
主要應用領域:統計學、經濟學、計量經濟學、醫學。
適用人群:需要進行數據分析和繪圖等任何相關專業(包括但不限于統計學、社會學、經濟學、政治學以及醫學等領域)的科研人員。
1.特點特點是采用命令操作,程序容量較小,統計分析方法較齊全,計算結果的輸出形式簡潔,繪出的圖形精美。不足之處是數據的兼容性差,占內存空間較大,數據管理功能需要加強
2.Tip-Stata常用命令及其縮寫
06MySQL
MySQL是一個開放源碼的小型關聯式數據庫管理系統,MySQL優化了SQL查詢算法,有效地提高查詢速度;支持多線程,充分利用CPU資源,支持多用戶;提供用于管理、檢查、優化數據庫操作的管理工具。
適用職業:業務分析師、前端開發工程師,程序員、數據庫工程師。
1.特點
由于其體積小、速度快、總體擁有成本低,尤其是開放源碼這一特點,目前被廣泛地應用在Internet上的中小型網站中。
2.Tips-查詢數據庫中的所有用戶和密碼和密碼加密算法
a:查詢數據庫中的所有用戶
可以通過以下查詢語句直接查詢 MySQL 數據庫中的所有用戶和密碼
b:MySQL 密碼加密算法
MySQL 實際上是使用了兩次 SHA1 夾雜一次 unhex 的方式對用戶密碼進行了加密。具體的算法可以用公式表示:password_str = concat('*', sha1(unhex(sha1(password)))),可以通過查詢語句進行驗證。
07SQL Server
SQL Server 是Microsoft 公司推出的關系型數據庫管理系統。Microsoft SQL Server 是一個全面的數據庫平臺,使用集成的商業智能 (BI)工具提供了企業級的數據管理。
適用職業:商業分析員、商務智能開發、DBA。
1.特點Microsoft SQL Server 數據庫引擎為關系型數據和結構化數據提供了更安全可靠的存儲功能,可以構建和管理用于業務的高可用和高性能的數據應用程序。
2.Tip-SQL Server插件:SQL Prompt
這款插件可以智能提示關鍵字,隨時查看對象信息和創建對象的SQL腳本。還能一鍵美化SQL代碼等等許多好用的功能。軟件安裝好后,可以在SQL Server管理工具欄看到這個插件,如下圖:
08EXCEL
EXCEL電子表格是Microsoft公司推出的Office系列產品之一,是一個功能強大的電子表格軟件。
可謂用途最廣、涉及最廣的軟件,各行各業的數據員都需要精通。
適用場景:
1.一般的辦公需求下的數據處理工作;
2.中小公司數據管理,存儲(很多國有企業都用);
3.學校學生,老師做簡單的統計分析(如方差分析,回歸分析);
4.結合Word,PowerPoint制作數據分析報告;
5.數據分析師的主力分析工具(部分數據分析師的輔助工具);
6.部分商業雜志,報刊圖表制作(數據可視化)。
1.特點特點是對表格的管理和統計圖制作功能強大,容易操作。Excel的數據分析插件XLSTAT,也能進行數據統計分析,但不足的是運算速度慢,統計方法不全。
2.tip-數據透視表數據透視表綜合了Excel在數據排序、篩選、分類匯總、合并計算、函數統計等多角度數據分析方法的優點,是一種緊靠點擊和拖動“鼠標”就完成和掌握的技能。如下面這些透視表,都是通過點點鼠標,就能夠快速制作的。
最后用一張圖也概括它們的關系:
那么同學們準備好自己該做的事情了嗎?
了解更多內容,請加WX:internbox002
#問與答# #SPSS#
這是我在群里接到的一個問題。
本來回答了也就沒什么了,可是相同的問題,我在不同的群里,不同的時間先后接到了四次,這就比較有意思了。。。
實際上我想的事情要更復雜一點,因為畢竟我不可能回答完所有人的所有問題。那么再碰上類似的SPSS出故障的時候,究竟該如何處理呢?
在軟件報錯以后,我們應該首先認真地閱讀一下報錯信息,從內容上做一個大致判斷:究竟是相應的功能直接就沒有能夠運行,還是說正常運行了,但是因為數據的原因導致沒有辦法繼續運行下去,這對下一步判斷非常重要。
可以簡單總結一下,所有故障的源頭,大概可以歸納為以下幾個方向:
SPSS軟件自己的鍋
眾所周知,軟件有bug,使用需謹慎,SPSS在這方面簡直是戰斗機中的戰斗機。比如說某大版本剛發行的時候,讀入Excel會報錯;再比如說某正式版本調用非參數模塊一律會出錯,等等等等,不一而足。所以說我一再強調一定要打SP1補丁之后才能拿他正式干活,不要追新。
軟件破解的鍋
使用非正版軟件是一個必須要面對的問題。有的非正版軟件是直接使用了其他人的license,這個和正版在使用上沒有任何的區別,只是沒有技術支持。而另外一種情況則是用的破解軟件,破解軟件因為失去修改dll或者exe文件,在很多情況下可能導致軟件的某些命令或模塊使用異常,最典型的情況就是很多破解版本都沒有辦法裝上R的擴展插件。
各種兼容性問題導致的鍋
在使用Python插件或者R插件的時候,有可能會因為各種各樣的兼容性問題報錯。因為官方測試只能覆蓋到SP4S軟件本身,而對于插件的測試有可能就不會那么完善。比如說在使用創建啞變量這個python插件的時候,有可能會碰到如下錯誤:
出現報錯信息不要慌,其實里面的英文基本上都很簡單,把意思搞清楚就行了,像上面一句關鍵字就在UTF8這個字符集上。現在的SPSS版本對雙字節字符有unique和GB(跟隨系統設定)兩種編碼方式,顯然應該是這個代碼頁設定有問題。關閉數據,將軟件代碼頁更改一下,重新運行,問題解決。
比上面這種情況更復雜的是使用插件的時候涉及到R等軟件的安裝包版本不合適,安裝包丟失等況。此時對R熟悉的最好直接進入R,確認所需的包能夠正常運行,然后再回到SPSS進行調試。如果對R不熟悉的話,則可以考慮重新裝一個完全干凈的R環境來供SPSS調用,這樣最省事。
系統設定導致的鍋
讓我們回到本文最初的那個報錯:
這個很明顯是管理權限的問題,最優分箱功能需要在硬盤上寫臨時文件,而現在就是因為無法創建臨時文件導致報錯。
現在windows的臨時目錄有可能是在用戶路徑下,也有可能是在系統路徑下,因此可能的原因有下列這些。
按照上述思路逐一排查即可。
自身數據問題導致的鍋
雖然是放在最后面,但實際上一多半的報錯都是這種情況。讓我們來看一看下面這個求助。
這是在計算信度系數的時候的報錯,從內容可知,協方差矩陣已經在計算了,但是因為數據的原因導致無法完成計算。顯然。這不是軟件功能有故障,這是數據不滿足相應的計算需求所導致的。
那么究竟是數據有什么問題導致計算無法完成?這就是我的回答所指的方向。提問者根本沒有去做相應的數據理解,也就是詳細的數據描述,對變量的分布特征,缺失值的情況,變量間的關聯性的強弱都不了解,直接開始做信度分析,所以看到了這樣的報錯才會一頭霧水。
當然,對于初學者而言,也有可能做了數據理解,但是看到這個報錯還是get不到問題出在哪,那么這種情況下就應該從方法的原理,或者說各種方法之間的關聯去考慮。
比如本例,信度系數本質上是將各個變量間的關聯性的強弱綜合成了一個數值,也就是說,它類似于把多個變量間的相關性從多個相關系數綜合成了一個相關系數。現在既然綜合起來的相關性計算報錯,那么就往回退一步,直接去看變量間的兩兩相關系數,去尋找相應的蛛絲馬跡,如此問題自然迎刃而解。
所以說,統計分析是沒有捷徑可走的,前期的準備工作一點都少不了。
按照上面的分析路徑研究下來,基本上絕大部分的報錯都可以自行解決。