操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    導讀:前期,分別對數據分析三劍客(numpy、、)進行了逐一詳細入門介紹,今天推出系列第4篇教程:。這是一個基于進行高級封裝的可視化庫,相比之下,繪制圖表更為集成化、繪圖風格具有更高的定制性。

    ?

    01 初始

    是中的一個可視化庫,是對進行二次封裝而成,既然是基于,所以的很多圖表接口和參數設置與其很是接近。相比而言,個人認為的幾個鮮明特點如下:

    正是由于的這些特點,在進行EDA( Data , 探索性數據分析)過程中,往往更為高效。然而也需指出,與的關系是互為補充而非替代:多數場合中是繪圖首選分類變量 散點圖,而在某些特定場景下則仍需用進行更為細致的個性化定制。

    按照慣例,后文將簡寫為sns。

    至于簡寫為sns而非sbn的原因,感興趣者可自行查閱(關鍵詞:why as sns?)。02 風格設置

    的風格設置主要分為兩類,其一是風格(style)設置,其二是環境()設置。

    1. 風格設置

    設置風格的方法主要有三種:

    當前支持的風格主要有5種:

    5種內置風格與繪圖風格對比

    相比繪圖風格,繪制的直方圖會自動增加空白間隔,圖像更為清爽。而不同風格間,則主要是繪圖背景色的差異。

    2. 環境設置

    設置環境的方法也有3種:

    當前支持的繪圖環境主要有4種:

    數值變量分類變量_因子分析 分類變量_分類變量 散點圖

    4種繪圖環境對比

    可以看出,4種默認繪圖環境最直觀的區別在于字體大小的不同,而其他方面也均略有差異。詳細對比下4種繪圖環境下的系列參數設置:

    03 顏色設置

    風格多變的另一大特色就是支持個性化的顏色配置。顏色配置的方法有多種,常用方法包括以下兩個:

    同時,為了便于查看調色板樣式,還提供了一個專門繪制顏色結果的方法。

    提供了均勻過渡的8種顏色樣例,而則只是提供了8種不同顏色04 數據集

    自帶了一些經典的數據集,用于基本的繪制圖表示例數據。在聯網狀態下,可通過()接口進行獲取,首次下載后后續即可通過緩存加載。返回數據集格式為.對象。

    當前內置了10幾個數據集,常用的經典數據集如下:

    本文后續所有繪圖主要基于前2個數據集完成。

    05 常用繪制圖表

    內置了大量集成繪圖接口,往往僅需一行代碼即可實現美觀的圖表結果。按照數據類型,大體可分為連續性(數值變量)和離散型(分類數據)兩類接口。

    1. 數值變量

    1.1 單變量分布

    變量分布可用于表達一組數值的分布趨勢,包括集中程度、離散程度等。中提供了3種表達單變量分布的繪圖接口

    +plot,接口內置了直方圖()、核密度估計圖(kde, )以及rug圖(直譯為地毯,繪圖方式就是將數值出現的位置原原本本的以小柱狀的方式添加在圖表底部),3種圖表均可通過相應參數設置開關狀態,默認情況下是繪制hist+kde。

    分類變量 散點圖_因子分析 分類變量_數值變量分類變量

    支持3種格式數據:.、numpy中的以及普通的list類型。以鳶尾花數據為例,并添加rug圖可得如下圖表:

    是一個專門繪制核密度估計圖的接口,雖然中內置了圖表,并且可通過僅開啟kde開關實現的功能,但實際上支持更為豐富的功能,比如當傳入2個變量時繪制的即為熱力圖效果。

    仍以鳶尾花為例,繪制雙變量核密度估計圖,并添加陰影得到如下圖表:

    這是一個不太常用的圖表類型,其繪圖方式比較樸素:即原原本本的將變量出現的位置繪制在相應坐標軸上,同時忽略出現次數的影響。

    1.2 多變量分布

    單變量分布僅可用于觀察單一維度的變化關系,為了探究多變量間分布關系時,如下繪圖接口更為有效:

    joint意為聯合,顧名思義是一個雙變量分布圖表接口。繪圖結果主要有三部分:繪圖主體用于表達兩個變量對應的散點圖分布,在其上側和右側分別體現2個變量的直方圖分布:

    當變量數不止2個時,是查看各變量間分布關系的首選。它將變量的任意兩兩組合分布繪制成一個子圖,對角線用直方圖、而其余子圖用相應變量分別作為x、y軸繪制散點圖。顯然,繪制結果中的上三角和下三角部分的子圖是鏡像的。

    實際上,查看源碼可以發現,其繪圖接口大多依賴于一個類實現。例如:在中實際上先實現了一個名為的類,然后在調用時即是調用該類實現。相比之下分類變量 散點圖,可以實現更為豐富的可定制繪圖接口,而則是其一個簡單的樣例實現。類似地,則是依賴于類實現。

    例如,如下案例調用了類實現,與標準不同的是上三角子圖選用了kde圖表,效果更為豐富。

    與此同時,中的繪圖接口雖然大多依賴于相應的類實現,但卻并未開放所有的類接口。實際上,可供用戶調用的類只有3個,除了前面提到的和外,還有一個是,它是一個中很多其他繪圖接口的基類。

    1.3 關系型圖表

    因子分析 分類變量_分類變量 散點圖_數值變量分類變量

    還提供了幾個用于表達雙變量關系的圖表,主要包括點圖和線圖兩類。主要提供了3個接口,(+plot)、和,其中為-level(可簡單理解為操作對象是中),而后兩者是axes-level(對應操作對象是中的axes),但實際上接口調用方式和傳參模式都是一致的,其核心參數主要包括以下4個:

    同時,可通過kind參數選擇繪制圖表是還是line類型。默認為類型。

    仍以鳶尾花數據集為例,繪制不同種類花的兩變量散點圖如下:

    也可實現同樣的散點圖效果:

    不同于中的折線圖,會將同一x軸下的多個y軸的統計量(默認為均值)作為折線圖中的點的位置,并輔以陰影表達其置信區間??捎糜诳焖儆^察點的分布趨勢。

    1.4 回歸分析

    在查看雙變量分布關系的基礎上,還提供了簡單的回歸接口。另外,還可設置回歸模型的階數,例如設置order=2時可以擬合出拋物線型回歸線。

    基礎回歸模型接口,即+plot。繪圖結果為散點圖+回歸直線即置信區間。另外,還可通過參數設置是否啟用邏輯回歸。

    提供了擬合后的殘差分布圖,相當于先執行中的回歸擬合,而后將回歸值與真實值相減結果作為繪圖數據。直觀來看,當殘差結果隨機分布于y=0上下較小的區間時,說明具有較好的回歸效果。

    =+,也是用于繪制回歸圖表,但功能相比更為強大,除了增加hue參數支持分類回歸外,還可添加row和col參數(二者均為中的常規參數,用于添加多子圖的行和列)實現更多的分類回歸關系。這里以中的小費數據集進行繪制,得到如下回歸圖表:

    1.5 矩陣圖

    矩陣圖主要用于表達一組數值型數據的大小關系,在探索數據相關性時也較為實用。

    數值變量分類變量_分類變量 散點圖_因子分析 分類變量

    原原本本的將一組數據以熱力圖矩陣的形式展現出來,同時可通過設置數值上下限和顏色板實現更為美觀的效果。如下圖表展示了鳶尾花數據集中各變量間的相關系數,從中可以很容易看出、、三者之間彼此呈現較強的相關性,而則與它們相關性不大。

    在的基礎上,進一步挖掘各行數據間的相關性,并逐一按最小合并的原則進行聚類,給出了聚類后的熱力圖:

    2.分類數據

    2.1 散點圖

    分類數據散點圖接口主要用于當一列數據是分類變量時。相比于兩列數據均為數值型數據,可以想象分類數據的散點圖將會是多條豎直的散點線。繪圖接口有和兩種,常用參數是一致的,主要包括:

    常規的散點圖接口,可通過參數開啟散點左右"抖動"效果(實際即為在水平方向上加了一個隨機數控制x坐標,默認=True;當設置為False時,散點圖均嚴格位于一條直線上)

    在的基礎上,不僅將散點圖通過抖動來實現相對分離,而且會嚴格講各散點一字排開,從而便于直觀觀察散點的分布聚集情況:

    2.2 分布圖

    與數值型變量分布類似,也提供了幾個分類型數據常用的分布繪圖接口。且主要參數與前述的散點圖接口參數是十分相近的。

    箱線圖,也叫盒須圖,表達了各分類下數據4分位數和離群點信息,常用于查看數據異常值等。

    從各日期的小費箱線圖中可以看出,周六這一天小費數值更為離散,且男性的小費數值隨機性更強;而其他三天的小費數據相對更為穩定。

    是一個增強版的箱線圖,即box++plot,在標準箱線圖的基礎上增加了更多的分位數信息,繪圖效果更為美觀,信息量更大。

    數值變量分類變量_分類變量 散點圖_因子分析 分類變量

    = value+plot,是的前身,繪圖效果與后者一致。現已被所替代,不再提倡使用。

    小提琴圖,相當于+,即在標準箱線圖的基礎上增加了kde圖的信息,從而可更為直觀的查看數據分布情況。因其繪圖結果常??崴菩√崆傩螤?,因而得名。在hue分類僅有2個取值時,還可通過設置split參數實現左右數據合并顯示。

    2.3 統計(估計)圖

    給出了數據的統計量(默認統計量為均值)和相應置信區間( ,默認值為95%,即參數ci=95),并以相應的點和線進行繪圖顯示:

    與用折線表達統計量變化不同,以柱狀圖表達統計量,而置信區間則與前者一致,僅僅是適用場景不同而已。

    注:當x軸分類變量為連續日期數據時,選用得到的繪圖意義更為明確;而對于其他分類型變量,則選用更為合適。

    這是一個功能比較簡單的統計圖表,僅用于表達各分類值計數,并以柱狀圖的形式展現:

    2.4 -level分類繪圖總接口

    最后,還提供了一個用于分類數據繪圖的-level接口,與其他分類數據繪圖接口的關系相當于與的關系;同時中還可通過kind參數實現前面除外的所有繪圖接口,功能更為強大。kind默認為strip,此時等效于接口。

    =+plot,用其實現分類條件下小提琴圖。

    是的前身,二者實現功能完全一致,現已被后者更名替代,官方不再推薦使用。

    另外,中還提供了一個時序數據繪圖接口,個人用的較少。

    06 小結

    最后簡要總結制作可視化圖表的幾個要點:

網站首頁   |    關于我們   |    公司新聞   |    產品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有