操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    中央民族大學第一頁,共56頁。探索(tnsuǒ)式數(shù)據(jù)分析案例研究第二頁,共56頁。探索性數(shù)據(jù)分析所謂探索性數(shù)據(jù)分析(sis,以下簡稱EDA),是指對已有的數(shù)據(jù)(特別是調(diào)查或觀察得來的原始數(shù)據(jù))在盡量少的先驗假定下進行探索,通過作圖、制表、方程擬合(nǐh)、計算特征量等手段探索數(shù)據(jù)的結構和規(guī)律的一種數(shù)據(jù)分析方法。第三頁,共56頁。數(shù)據(jù)(shj)每天都在產(chǎn)生我們生活的世界是復雜的,隨機的和不確定的。同時它又是一個生成大數(shù)據(jù)的機器。當我們通勤于地鐵和出租車時,當我們的血液流經(jīng)我們的身體時,當我們通過瀏覽器在因特網(wǎng)購物、發(fā)郵件、完成工作和看股票時,當我們行動、飲食、與朋友談話時,當工廠生產(chǎn)(ǎn)出產(chǎn)品時,所有這一切都在生成數(shù)據(jù)。第四頁,共56頁。1.統(tǒng)計(tǒngj)推理一旦你持有了全部數(shù)據(jù),你就某種程度上掌握了這個世界或抓住了世界的軌跡。但是你不可能在一個有幾百萬數(shù)據(jù)的大型Excel表或數(shù)據(jù)庫上遍歷,獲取圖形,理解現(xiàn)實和處理(chǔlǐ)它所生成的數(shù)據(jù)。故你需要一個新的理念,去簡化這些捕獲的數(shù)據(jù),使之更加容易理解,方法更加簡潔,使得數(shù)據(jù)適合于建立數(shù)學模型和函數(shù)。

    這就是大家知道的統(tǒng)計方法。從現(xiàn)實到數(shù)據(jù)又從數(shù)據(jù)回到現(xiàn)實的全過程就叫統(tǒng)計推理。第五頁,共56頁。2.總體(zǒngtǐ)與樣本總體是指某一事物(shw)的全體成員。它可以是任何對象,如推特、照片或星球的全體。如果我們可以測度這些對象的特征,我們就要有一個完整的觀測集。通常用常數(shù)N來表示對于總體的觀測數(shù)量。總體中的N個單獨個體就是樣本。獲取樣本的過程叫采樣。第六頁,共56頁。3.抽樣(chu當我們抽樣時,我們是抽取總體中的一個大小為N的子集,以便對總體進行推理和得出某種結論。從總體取得子集有各種不同的方法。你要確保合理的采樣機制,因為它可能為數(shù)據(jù)帶來偏差并扭曲結果。所以樣本并不是總體收縮了的“小我”版本。一旦發(fā)生這種情況,你的所有結論都是錯誤(cuw)的和歪曲了的。第七頁,共56頁。抽樣案例(nl)研究在公司(ɡnɡs)郵件的案例中,你可以制作一個全體雇員的表,然后從所有他們已發(fā)送的郵件中隨機選擇十分之一。這些郵件就是你的樣本。你也可以每天從發(fā)送的郵件中隨機抽取十分之一作為你的樣兩個方法都是有道理的,兩方法也都抽取了同樣樣本個數(shù)。但是如果你用得到的樣本計算平均每個人發(fā)送的郵件個數(shù)和用樣本來估算公司(ɡnɡs)每個雇員發(fā)送郵件數(shù)的概率分布,你也許會得到完全不同的答案。

    第八頁,共56頁。4.大數(shù)據(jù)(shj)時代的總體和樣本大數(shù)據(jù)時代我們無時不在地記錄所有用戶的行為,我們就可以觀察所有的事物嗎?還需要考慮總體和樣本嗎?上例中如果我們?nèi)〉昧怂械泥]件(yujin),我們還需要抽樣嗎?第九頁,共56頁。大數(shù)據(jù)(shj)也需要抽樣在當前大數(shù)據(jù)的熱門討論中,人們(rnmen)主要聚焦于用這樣的企業(yè)解決方案來應對大數(shù)據(jù)引起的工程和計算挑戰(zhàn),忽略了抽樣這一合理的解決方法。可是在公司軟件工程師,數(shù)據(jù)科學家和統(tǒng)計學家一直在使用抽樣方法。你需要多少數(shù)據(jù)取決于你的目標是什么。對于目標為分析和推理來說沒必要取得全部時間的全部數(shù)據(jù)。而在有的情況下,出于服務目的,為了取得正確的信息以潤色一個用戶界面時(可視化圖形),對于特殊的用戶就需要全部信息。第十頁,共56頁。案例研究:大數(shù)據(jù)(shj)隱含的偏見如果你在颶風桑迪之前(zhqin)和之后立即分析數(shù)據(jù)。你會認為大部分人在桑迪前在超市購物,桑迪后在舉辦派對。可是事實是大部分推特用戶是紐約人,首先他們比海岸新澤西人用戶多得多。其次是海岸新澤西人在擔心他們的房子受損去找維護材料,他們沒有時間去上推特。換言之,你使用推特的數(shù)據(jù)來理解的話你會認為颶風桑迪沒有那么糟糕。

    你得出這樣的結論是因為你采用了颶風桑迪的推特用戶數(shù)據(jù)的一個子集(他們不能代表全體美國人)。缺席的人因為形勢所迫沒時間去上推特。第十一頁,共56頁。5.樣本與采樣(cǎiynɡ)分布在統(tǒng)計學中我們經(jīng)常用數(shù)學模型來模擬總體與樣本之間的關系。故我們總是要做一些能反應真實的簡化了的假設。用過程產(chǎn)生的數(shù)據(jù)來建立數(shù)學模型和圖形。我們只觀察生成過程中特殊的一部分數(shù)據(jù),這就叫樣本。由這種采樣(cǎiynɡ)產(chǎn)生的不確定性有個名字叫:采樣(cǎiynɡ)分布。第十二頁,共56頁。6.采樣(cǎiynɡ)取得的新數(shù)據(jù)類型(傳統(tǒng):十進制數(shù)值,二進制)文本:電郵,推特,報刊(bokn)文章記錄:用戶級數(shù)據(jù),時間戳事件數(shù)據(jù),格式化登錄文件地理位置信息:網(wǎng)絡數(shù)據(jù)傳感器數(shù)據(jù)圖像、視頻數(shù)據(jù)第十三頁,共56頁。7.大數(shù)據(jù)(shj)的定義“大”是相對的。構造一個類似于1PB這樣的閾值是沒有意義的,它聽起來太絕對。只有當數(shù)據(jù)的數(shù)據(jù)量大的成為一種挑戰(zhàn)時才能稱之為“大”。它是一個由于數(shù)據(jù)量大已經(jīng)無法求解(內(nèi)存(nicn),外存,復雜性,處理速度都無法滿足)時的相對的術語。上世紀七十年代與現(xiàn)在的“大”意義完全不同。“大”指你無法在一臺計算機上調(diào)試它。

    數(shù)據(jù)探索思路_探索性數(shù)據(jù)分析 pdf_窮人羊性富人狼性pdf

    不同的公司和個人有不同的適合于他們的計算資源。若作為一個科學家他不能把數(shù)據(jù)匹配到一個計算機上時就可稱之為大,一旦發(fā)生它必須去學習新的工具和方法。第十四頁,共56頁。8.大數(shù)據(jù)時代不再需要(xyo)采樣嗎?有人認為大數(shù)據(jù)(shj)時代特征是:搜集和使用大量的數(shù)據(jù)(shj)而不是采集少量樣本可承受數(shù)據(jù)(shj)的混亂放棄追究原因他們進一步認為大數(shù)據(jù)(shj)不需要理解原因,只要給定足夠大數(shù)據(jù)(shj)就行了。他們還認為不需要擔心采樣錯誤,因為它從字面上講是沿著真理的軌跡走的。因為在大數(shù)據(jù)(shj)研究中:令樣本個數(shù)“N=ALL”。第十五頁,共56頁。真的(zhnde)能做到“N=ALL"?例如就像有人說的那樣,因特網(wǎng)監(jiān)督從來未實施過。因為我們最想抓的非常聰明和技術精良的罪犯從來沒有抓住過。因為他們總是先我們一步。大量例子中一個是選舉夜間民意測驗,即使我們絕對調(diào)查了每一個離開測驗站的人,我們也任然沒有把握誰會決定不來投票。對這些人我們本應該與之談話使之了解投票意愿的。進一步說,我們關于N=ALL的假設是大數(shù)據(jù)時代最大的問題。上述案例中,人們不投票的原因包括沒有時間,沒有意愿和各種未說明的放棄投票的非正常原因。

    有些人可能做兼職工作(gngzu)并花費時間于通勤中,沒有出現(xiàn)而使得統(tǒng)計投票時沒有他們。第十六頁,共56頁。9.數(shù)據(jù)(shj)不是客觀的另外一個關于假定N=ALL的依據(jù)是數(shù)據(jù)是客觀的。相信數(shù)據(jù)是客觀的或“數(shù)據(jù)會說話”是完全錯誤的。而且要當心他們變換其他(qt)說法。你試圖比較一下以完全相同的資格招收的男雇員和女雇員。你會發(fā)現(xiàn)女雇員更容易毫無前兆的離職。與男性比較她們會對工作環(huán)境提出更多負面反饋意見。你的模型將在下次招聘時在同樣條件下傾向于男性。而沒有去檢討你的公司在對待女性方面存在的不足。第十七頁,共56頁。對于N=ALL的一個極端說法是N=1。意思是樣本的個數(shù)為1。在過去樣本個數(shù)為1是很荒唐的事。你從一個單個的實體上 無從做出任何推理。它是如此荒唐。但是N=1在大數(shù)據(jù) (shj)時代具有新的含義。對于一個人我們可以記錄海量 的信息。事實上,我們?yōu)榱送评砜赡軓乃麄兊男袨楹褪录?上進行了采樣(如電話,擊鍵)。這就是用戶級的模擬化。 第十八頁,共56頁。 10.建立(jinl)模型 人類用不同表達方式來試圖理解他們周圍的世界 (shji),建筑物的體系屬性通過藍圖和縮小的三維形式 來表示。

    探索性數(shù)據(jù)分析 pdf_窮人羊性富人狼性pdf_數(shù)據(jù)探索思路

    分子生物學家用三維可視化連接形式表示蛋白質(zhì) 的結構。數(shù)據(jù)科學家和統(tǒng)計學家則用代表數(shù)據(jù)的圖形和結 構的數(shù)學函數(shù)來描述數(shù)據(jù)生成過程中的不確定性和隨機性。 這種形式就是模型的概念。 第十九頁,共56頁。 統(tǒng)計(tǒngj)模型 在你進行編程以前最好勾畫一張圖來顯示怎么來處理與你的模型相關的內(nèi)容。思考一下應首先(shǒuxin)考慮那些因素?誰影響了誰?什么引起了什么?如何檢驗 它們等? 但是不同的人有不同的思維方式。有的人就喜歡用數(shù)學術語來表示這些關系。數(shù)學表達式一般會含有一些參數(shù),但是參數(shù)的值是未知的。 在數(shù)學表達式中常數(shù)用希臘字母表示,數(shù)據(jù)用拉丁字母表示。例如你有兩個數(shù)據(jù)x和y,它們之間具有線性關系,可以記作y=α 的實際值。所以它們是參數(shù)。 有的人喜歡首先(shǒuxin)用箭頭畫一個數(shù)據(jù)流圖。顯示事物間如如何相互影響和什么事多次發(fā)生。這在選擇方程前給他們一個形象的圖形理解。 第二十頁,共56頁。 建模是一種(y zhǒnɡ)藝術 你有什么訣竅可以(kyǐ)生成數(shù)據(jù)模型嗎?事實上建 模一半是科學,一半是藝術。盡管建模是所有事情的關鍵, 遺憾的是你在哪里也得不到多少指導。你必須假定許多現(xiàn) 實的隱含結構。

    這也是模型工作的一部分。我們應該有一 個標準答案告訴你們?nèi)绾巫龀鲞x擇和解釋,但是現(xiàn)在還沒 有一個公認的標準。我們只能深思熟慮并反復地去修改它。 第二十一頁,共56頁。 11.探索性數(shù)據(jù)分析( Data ) 一個啟動的好方法是做探索性數(shù)據(jù)分析(EDA)。這就意味著對你的數(shù)據(jù)集通過繪圖來建立直觀感覺。EDA很有用,只要你不斷嘗試,出錯和再嘗試必有效 果(xioguǒ)。 最好的辦法就是由淺入深,由簡到繁。做你能想到的也許是最愚蠢的事,但它最終結果可能并不壞。 比如你可以通過畫直方圖和散點圖來開始觀察數(shù)據(jù)。然后你就記下結果。也許結果會是錯誤的,但是這沒有什么關系。 接著按圖形選擇一個函數(shù)。寫下來后你自己要仔細想:對這函數(shù)有什么感覺嗎?為什么沒有?將會有什么樣的發(fā)展?一開始簡單,逐步復雜化,做出假設 并去驗證。 你可以使用發(fā)散的語句如“我假設我的用戶自然地形成5個簇,因為我聽到銷售代表談到他們時與五種不同類型人談話。”。接著你就可以用你自己的話 找出方程并開始編程。 第二十二頁,共56頁。 力求模型(mxng)簡單 記住從簡單開始總是好的。在模型的簡單和精確之間有一個權衡。

    探索性數(shù)據(jù)分析 pdf_數(shù)據(jù)探索思路_窮人羊性富人狼性pdf

    簡單模型易于解釋和理解。通常一個粗放 (cfng)的,簡單的模型可達到你90%的目的且只花幾個小 時就可建立和匹配好。而作一個復雜的模型花幾個月也就 達到92%的目的。 第二十三頁探索性數(shù)據(jù)分析 pdf,共56頁。 12.樣本(yngbn)概率分布 沒有計算機的時代,科學家觀察實際世界現(xiàn)象,對其進行檢測,并且記下它頻繁出現(xiàn)的數(shù)據(jù)的表現(xiàn)圖形。經(jīng)典的例子是人類的身高遵從正 態(tài)分布,形狀想一個鍾的形狀。也叫也叫哥西分布,這是由數(shù)學家高 斯命名的。 其他常用(chnɡynɡ)的形狀在它們被觀察到后都被命名(如普爾森分布和韋伯分布)。其他像伽馬分布和指數(shù)分布由相應的數(shù)學對象而 得名。 一般是通過實驗檢測獲取的形狀來近似逼近于一個帶有參數(shù)的數(shù)學函數(shù)。參數(shù)可以通過數(shù)據(jù)來估計。 第二十四頁,共56頁。 正態(tài)分布 第二十五頁,共56頁。 正態(tài)分布函數(shù)(hnsh) 是一個平均的中值,控制分布的中心(因為是對稱分布)。參數(shù)σ 控制分布式如何展開。這是一般的函 數(shù)形式。在特定的實際世界現(xiàn)象里。這些參數(shù)都有具體的 數(shù)值。它們是通過數(shù)據(jù)估計來取得。 隨機變量x或y可以指定一個概率分布p(x)。把x映射到一 個正實數(shù)(shsh)。為了使之成為一個概率密度函數(shù),必 須限制p(x)函數(shù)取值在曲線面積之下積分值.為1,則可解 釋為概率。

    第二十六頁,共56頁。 一些(yxi)常見的概率分布 第二十七頁,共56頁。 13.模型(mxng)匹配 匹配意味著使用觀測到的數(shù)據(jù)來估計模型的參數(shù)。你用你的數(shù)據(jù)為證據(jù)來近似實際數(shù)學處理并產(chǎn)生數(shù)據(jù)。匹配模型 經(jīng)常涉及到優(yōu)選法和算法(sunfǎ)。像最大似然法之類就 可幫助取得參數(shù)。 事實上,在你估計參數(shù)的時候它就是個估算器,意思是說它本身就是數(shù)據(jù)的函數(shù)。模型匹配好后你可以寫成 y=7.2+4.5x的樣子。例子中告訴你兩個變量之間的關系, 根據(jù)你的假定,它們是一種線性模式。 匹配好模型是在你開始編程的前提,你的程序?qū)⒁x入數(shù)據(jù),你要指定你在選擇的函數(shù)。R或者語言將使用內(nèi) 置的優(yōu)化方法給出相應數(shù)據(jù)最好的參數(shù)值。 第二十八頁,共56頁。 錯誤(cuw)匹配 你會被反復提醒關于錯誤匹配的問題,這個問題這會成為你的夢魘。過度(gud)匹配是一個術語,用來指你用一個 數(shù)據(jù)集來估計你的模型,但是你采集的樣本并不適合于你 的模型。 第二十九頁,共56頁。 14.探索性數(shù)據(jù)分析(EDA)方法(fngfǎ) EDA的基本工具是畫圖和綜合統(tǒng)計學。一般講,它是研究數(shù)據(jù)的系統(tǒng)化方法。畫出變量的分布(直方圖),畫出數(shù) 據(jù)的時間序列,變換變量,使用矩陣研究變量間的關系, 生成綜合條件結果。

    窮人羊性富人狼性pdf_數(shù)據(jù)探索思路_探索性數(shù)據(jù)分析 pdf

    很少去計算(jsun)平均值,最小最 EDA需要的工具也很多,你想要理解數(shù)據(jù)。理解它的形狀,根據(jù)你的理解去處理數(shù)據(jù)。EDA是你分析數(shù)據(jù)的工具。它不 能證明任何事情。 第三十頁,共56頁。15.EDA的作用(zuyng) 凡是做數(shù)據(jù)分析的人都要先做EDA的主要(zhǔyo)理由是為了得到數(shù)據(jù)的靈感。為了做分布函數(shù)的比較,為了審 驗數(shù)據(jù)(確保數(shù)據(jù)達到你期望的規(guī)模,符合你要的格式), 去發(fā)現(xiàn)數(shù)據(jù)丟失,數(shù)據(jù)超界和總結數(shù)據(jù)的特征。 數(shù)據(jù)是由日志生成的。EDA也可幫助調(diào)試處理。例如數(shù)據(jù)的模式在登錄時可能是錯誤的需要修改。如果你不調(diào)試 糾正問題,你將會認為的模式是真實的。我們一起工作的 工程師在這些方面總會對你很有幫助。 第三十一頁,共56頁。16、EDA與可視化的區(qū)別(qbi) 盡管EDA牽扯到許多可視化需求。我們還是要區(qū)別一下EDA與可視化有什么不同。EDA是在數(shù)據(jù)分析之前,而可視化用于我們的結果,是在數(shù)據(jù)分析之后。對于EDA來 說圖形只是為了幫助你理解。 EDA也可用來改進我們的算法。比如你想開發(fā)一個矩陣算法,你可以把內(nèi)容展示給用戶,這樣做是為了開發(fā)出一個廣受歡迎的產(chǎn)品出來。 在你決定吸引眼球之前(例如最高的點擊率,收到大量的評論,評論超過閾值,提高平均權重)。

    最好的辦法是觀察數(shù)據(jù)的行為并動手去實踐。 畫一下圖并進行比較使得你走的更遠。賽過你得到數(shù)據(jù)后以為(yǐwi)你了解而立即進行回歸計算。對于分析員和科學家來說,沒有經(jīng)過EDA階段就處理數(shù)據(jù)是一 個傷害。要抓住機會使之成為處理的一部分。 第三十二頁,共56頁。 17.數(shù)據(jù)科學(kxu)處理 第三十三頁,共56頁。 清洗(qngxǐ)數(shù)據(jù) 我們先從原始日志數(shù)據(jù)開始,奧林匹克記錄,雇員郵件,或被記錄的一般材料(當我們占據(jù)原始數(shù)據(jù)的時候,許多活動數(shù)據(jù)已缺失了)。為了分析用首先要清洗數(shù)據(jù): 合并,清除,填補或其他行為(xngwi)。為了做這件事我們要使用工具像 ,,R或SQL,或者都用。 這是一個典型的統(tǒng)計學開端。得到一個干凈、有序的數(shù)據(jù)集。但是真實世界可沒有這么典型。 第三十四頁探索性數(shù)據(jù)分析 pdf,共56頁。EDA 我們有了干凈(gnjng)的數(shù)據(jù)集就可以開始EDA了。在EDA的課程中我們知道數(shù)據(jù)不會那么干凈(gnjng),由于丟失、 重復、錯誤和數(shù)據(jù)沒有正確的記錄。如果這樣只能回去再 采集更多的數(shù)據(jù)或花更多時間去清洗。 第三十五頁,共56頁。數(shù)據(jù)挖掘 接著使用某個算法像k-近鄰法(k-NN),線性回歸,貝葉斯等等來設計我們的模型(mxng)。

    探索性數(shù)據(jù)分析 pdf_數(shù)據(jù)探索思路_窮人羊性富人狼性pdf

    模型(mxng)的選擇根 據(jù)我們要解決問題的類型。當然它可能是一個分類問題, 預測問題或基本標識問題。 第三十六頁,共56頁。數(shù)據(jù)(shj)產(chǎn)品 下面我們可以解釋、報告、或傳輸我們的結果。我們用報告的形式交給老板或合作者手里。可以在雜志上發(fā)表或在大會上作學術報告。 同時我們的成果可能成為一個“數(shù)據(jù)產(chǎn)品”的原型。例如一個郵件垃圾分類器,一個搜索算法或一個推送系統(tǒng)。與統(tǒng)計學的不同點在于數(shù)據(jù)產(chǎn)品又回饋給了真實世界。 用戶與產(chǎn)品交互又產(chǎn)生更多的數(shù)據(jù),形成一個反饋循環(huán)。 通過循環(huán)你可以調(diào)整任何分析中你的模型引起的問題。你的模型不僅可以預測未來,還可以影響未來。 產(chǎn)品化的數(shù)據(jù)產(chǎn)品與用戶的交互在一端而事實在另一端,不能認為你使用的數(shù)據(jù)產(chǎn)品是萬能的。公共政策由統(tǒng)計模型確定,健康保險、選舉調(diào)查(dioch)會受到廣 泛的影響。你應該觀察和理解變化的現(xiàn)象,擴展模型去適應之。 第三十七頁,共56頁。18.數(shù)據(jù)(shj)科學家的角色 第三十八頁,共56頁。 數(shù)據(jù)(shj)科學家的工作 可以認為數(shù)據(jù)科學處理是作為一種科學方法與現(xiàn)實的 結合。分幾個階段實施: 提問(twn) 做背景研究 構造假設 通過實驗驗證假設 分析數(shù)據(jù)和做出去結論 發(fā)布結果 第三十九頁,共56頁。

    19.建模的三個主要(zhǔyo)算法 k-平均算法(sunfǎ)第四十頁,共56頁。 20.EDA案例(n 某燈泡生產(chǎn)廠商測試某種新型燈泡的燃燒壽命,如下數(shù)據(jù)表格(biǎog)列出了200個燈泡樣本的可使用小時數(shù)。 要求建立燈泡燃燒壽命數(shù)學模型。第四十一頁,共56頁。 200個燈泡壽命()數(shù)據(jù): 第四十二頁,共56頁。 1.直方圖 >hist(x) 第四十三頁,共56頁。 >hist(x,=15) 第四十四頁,共56頁。 繪出直方圖 和密度估計曲線 (qxin)和正態(tài)分布的概率密度 曲線(qxin) >hist(x,freq=FALSE) >lines((x),col= "blue") >(w,dnorm(w,mean(x), sd(x)),col="red") 第四十五頁,共56頁。 繪出200個燈泡使用(shǐyng)時間 的經(jīng)驗分布圖和相應的正態(tài)分布 >plot(ecdf(x),=TRUE,do.p=FALSE) >(w,pnorm(w,mean(x), sd(x))) 第四十六頁,共56頁。 畫出數(shù)據(jù)的正態(tài)QQ圖和正態(tài)QQ曲線, 判斷(pndun)樣本是否來自正 態(tài)總體 (x);(x) 因此,根據(jù)Q-Q圖可以得出數(shù)據(jù)呈 正態(tài)分布的結論 第四十七頁,共56頁。

    EDA案例(n 為了(wile)對全球經(jīng)濟的發(fā)展趨勢和世界頂級公司的經(jīng)營狀況做一些研究,可以從公共網(wǎng)站上下載數(shù)據(jù),用 軟件JMP略作整理之后可以得到如表一所示的數(shù)據(jù)表,其中 包含了上榜公司的名稱、所屬行業(yè)、所屬國家、上榜年份、 上榜排名、市場價值、資產(chǎn)額、銷售額、利潤額等9個變量, 總計14000條記錄(每年2000條,從2004年至2010年共7個 年度)。 第四十八頁,共56頁。 第四十九頁,共56頁。畫出泡泡(po po)圖:泡大小表示利潤。 第五十頁,共56頁。 第五十一頁,共56頁。其他(qt)EDA案例 假如對一組2人的飲酒者所飲酒類進行調(diào)查,把飲酒者按紅酒(1)、白酒(2)、 黃酒(3)、啤酒(4)、分成四類(s >drink.count=table(drink)#y數(shù)據(jù) 分組后賦值給.count。 >names(drink.count)=c("紅酒","白酒","黃酒","啤酒") >pie(drink.count,col=c("","green","cyan","white")) >pie(drink.count)第五十二頁,共56頁。 1985~2001年我國財政收入(y,百億元)和稅收(x,百億元) 數(shù)據(jù),用散點圖分析稅收和財政 收入之間的關系。

    添()趨勢線第五十三頁,共56頁。 可以(kyǐ)用()函數(shù)做出箱線 圖,即兩樣本的均值檢驗,考察兩樣本 的均值是否相同。 對照組:11,8,4,5,9,5,10,5,4,10 >(x,y,names=c(′實驗組′,′對照組′),col=c(2,3)) 結果如圖6所示,可以(kyǐ)看出實驗組的均值要大于對照組的均值,且兩組都 是偏態(tài)分布,實驗組左偏,對照組右偏。 第五十四頁,共56頁。 為考察學生的學習情況,學校隨機抽取12名學生的5門課期末考 (wnjin).data。調(diào)用stars()函數(shù)繪制星象圖: >stars(X,full=T,draw.=T,key.loc=c(5,1)) 第五十五頁,共56頁。 第五十六頁,共56頁。

網(wǎng)站首頁   |    關于我們   |    公司新聞   |    產(chǎn)品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區(qū)    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有