操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    選自arXiv

    作者:Jaehoon Lee等

    編輯:Panda

    無限寬度神經網絡是近來一個重要的研究課題,但要通過實證實驗來探索它們的性質,必需大規模的計算能力才行。近日,谷歌大腦公布的一篇論文介紹了他們在有限和無限神經網絡方面的系統性探索成果。該研究通過大規模對比實驗得到了 12 條重要的實驗結論并在此過程中找到了一些新的改進方法。該文作者之一 Jascha Sohl-Dickstein 表示:「這篇論文包含你想知道的但沒有足夠的計算能力探求的有關無限寬度網絡的一切!」

    近日,谷歌大腦的研究者通過大規模實證研究探討了寬神經網絡與核(kernel)方法之間的對應關系。在此過程中,研究者解決了一系列與無限寬度神經網絡研究相關的問題,并總結得到了 12 項實驗結果。

    此外,實驗還額外為權重衰減找到了一種改進版逐層擴展方法,可以提升有限寬度網絡的泛化能力。

    最后,他們還為使用 NNGP(神經網絡高斯過程)和 NT(神經正切)核的預測任務找到了一種改進版的最佳實踐,其中包括一種全新的集成(ensembling)技術。這些最佳實踐技術讓實驗中每種架構對應的核在 CIFAR-10 分類任務上均取得了當前最佳的成績。

    論文鏈接:https://arxiv.org/pdf/2007.15801v1.pdf

    當使用貝葉斯方法和梯度下降方法訓練的神經網絡的中間層是無限寬時,這些網絡可以收斂至高斯過程或緊密相關的核方法。這些無限寬度網絡的預測過程可通過貝葉斯網絡的神經網絡高斯過程(NNGP)核函數來描述,也可通過梯度下降方法所訓練網絡的神經正切核(NTK)和權重空間線性化來描述。

    這種對應關系是近來在理解神經網絡方面獲得突破的關鍵,同時還使核方法、貝葉斯深度學習、主動學習和半監督學習取得了切實的進步。在為大規模神經網絡提供確切理論描述時,NNGP、NTK 和相關的寬度限制都是獨特的。因此可以相信它們仍將繼續為深度學習理論帶來變革。

    無限網絡是近來一個活躍的研究領域,但其基礎性的實證問題仍待解答。谷歌大腦的這項研究對有限和無限寬度神經網絡進行了廣泛深入的實證研究。在此過程中,研究者通過實證數據定量地解答了影響有限網絡和核方法性能的變化因素,揭示了出人意料的新行為,并開發了可提升有限與無限寬度網絡性能的最佳實踐。

    實驗設計

    為了系統性地對無限和有限神經網絡進行實證研究,研究者首先確立了每種架構的 base,方便直接對比無限寬度核方法、線性化權重空間網絡和基于非線性梯度下降的訓練方法。對于有限寬度的情況,base 架構使用了恒定小學習率且損失為 MSE(均方誤差)的 mini-batch 梯度下降。在核學習設置中,研究者為整個數據集計算了 NNGP 和 NTK。

    完成這種一對一的比較之后,研究者在 base 模型之上進行了大量不同種類的修改。某些修改會大致保留其對應關系(比如數據增強),而另一些則會打破這種對應關系,并且假設對應關系的打破會影響到性能結果(比如使用較大的學習率)。

    此外,研究者還圍繞 base 模型的初始化對其進行線性化嘗試,在這種情況下,其訓練動態可使用常量核來精準地描述。由于有限寬度效應,這不同于前文描述的核設置。

    該研究使用 MSE 損失的原因是能更容易地與核方法進行比較,交叉熵損失在性能方面比 MSE 損失略好,但這還留待未來研究。

    該研究涉及的架構要么是基于全連接層(FCN)構建的,要么就是用卷積層(CNN)構建的。所有案例都使用了 ReLU 非線性函數。除非另有說明,該研究使用的模型都是 3 層的 FCN 和 8 層的 CNN。對于卷積網絡,在最后的讀出層(readout layer)之前必須壓縮圖像形狀數據的空間維度。為此,要么是將圖像展平為一維向量(VEC),要么是對空間維度應用全局平均池化(GAP)。

    最后,研究者比較了兩種參數化網絡權重和偏置的方法:標準參數化(STD)和 NTK 參數化(NTK)。其中 STD 用于有限寬度網絡的研究,NTK 則在目前大多數無限寬度網絡研究中得到應用。

    除非另有說明,該研究中所有核方法的實驗都是基于對角核正則化(diagonal kernel regularization)獨立優化完成的。有限寬度網絡則全都使用了與 base 模型相對應的小學習率。

    這篇論文中的實驗基本都是計算密集型的。舉個例子,要為 CNN-GAP 架構在 CIFAR-10 上計算 NTK 或 NNGP,就必須用 6×10^7 乘 6×10^7 的核矩陣對各項進行評估。通常來說,這需要雙精度 GPU 時間約 1200 小時,因此研究者使用了基于 beam 的大規模分布式計算基礎設施。

    所有實驗都使用了基于 JAX 的 Neural Tangents 庫:https://github.com/google/neural-tangents。

    為了盡可能地做到系統性,同時又考慮到如此巨大的計算需求,于是研究者僅使用了一個數據集 CIFAR-10,即在該數據集上評估對每種架構的每種修改措施。同時,為了保證結果也適用于不同的數據集,研究者還在 CIFAR-100 和 Fashion-MNIST 上評估了部分關鍵結果。

    從實驗中得到的 12 條結論

    以下為基于實驗結果總結的 12 個結論(詳細分析請參閱原論文):

    1. NNGP/NTK 的表現可勝過有限網絡

    在無限網絡研究中,一個常見假設是它們在大數據環境中的表現趕不上對應的有限網絡。通過比較核方法與有限寬度架構(使用小學習率,無正則化)的 base 模型,并逐一驗證可打破(大學習率、L2 正則化)或改進(集成)無限寬度與核方法對應性的訓練實踐的效果,研究者驗證了這一假設。結果見下圖 1:

    圖 1:有限和無限網絡及其變體在 CIFAR-10 上的測試準確率。從給定架構類別的有限寬度 base 網絡開始,標準和 NTK 參數化的模型表現隨著修改而發生變化:+C 指居中(Centering)、+LR 指大學習率、+U 指通過早停實現欠擬合、+ZCA 指使用 ZCA 正則化進行輸入預處理、+Ens 指多個初始化集成,另外還有一些組合方案。Lin 指線性化 base 網絡的性能。

    從中可以觀察到,對于 base 有限網絡,無限 FCN 和 CNN-VEC 的表現要優于它們各自對應的有限網絡。另一方面,無限 CNN-GAP 網絡的表現又比其對應的有限版本差。研究者指出這其實與架構有關。舉例來說,即使有限寬度 FCN 網絡組合了高學習率、L2 和欠擬合等多種不同技巧,無限 FCN 網絡的性能還是更優。只有再加上集成之后,有限網絡的性能才能達到相近程度。

    另一個有趣的觀察是,ZCA 正則化預處理能顯著提升 CNN-GAP 核的表現。

    2. NNGP 通常優于 NTK

    從下圖 2 中可以看出,在 CIFAR-10、CIFAR-100 和 Fashion-MNIST 數據集上 NNGP 的性能持續優于 NTK。NNGP 核不僅能得到更強的模型,而且所需的內存和計算量也僅有對應的 NTK 的一半左右,而且某些性能最高的核根本就沒有對應的 NTK 版本。

    圖 2:當對角正則化經過精心調整時,NNGP 在圖像分類任務上通常優于 NTK。

    3. 居中和集成有限網絡都會得到類 kernel 的表現

    圖 3:居中可以加速訓練和提升性能。

    圖 4:集成 base 網絡可讓它們達到與核方法相媲美的表現,并且在非線性 CNN 上還優于核方法。

    4. 大學習率和 L2 正則化會讓有限網絡和核之間出現差異

    從上圖 1 中可以觀察到,大學習率(LR)的效果容易受到架構和參數化的影響。

    L2 正則化則能穩定地提升所有架構和參數化的性能(+1-2%)。即使使用經過精心調節的 L2 正則化,有限寬度 CNN-VEC 和 FCN 依然比不上 NNGP/NTK。L2 結合早停能為有限寬度 CNN-VEC 帶來 10-15% 的顯著性能提升,使其超過 NNGP/NTK。

    5. 使用標準參數化能為網絡提升 L2 正則化

    圖 5:受 NTK 啟發的逐層擴展能讓 L2 正則化在標準參數化網絡中更有幫助。

    研究者發現,相比于使用標準參數化,使用 NTK 參數化時 L2 正則化能為有限寬度網絡帶來顯著的性能提升。使用兩種參數化的網絡的權重之間存在雙射映射。受 NTK 參數化中 L2 正則化項性能提升的啟發,研究者使用這一映射構建了一個可用于標準參數化網絡的正則化項,其得到的懲罰項與原版 L2 正則化在對應的 NTK 參數化網絡上得到的一樣。

    6. 在超過兩次下降的寬度中,性能表現可能是非單調的

    圖 6:有限寬度網絡在寬度增大時通常會有更好的表現,但 CNN-VEC 表現出了出人意料的非單調行為。L2:在訓練階段允許非零權重衰減,LR:允許大學習率,虛線表示允許欠擬合(U)。

    7. 核對角正則化的行為類似于早停

    圖 7:對角核正則化的行為類似于早停。實線對應具備不同對角正則化 ε 的 NTK 推斷;虛線對應梯度下降到時間 τ = ηt 后的預測結果,線條顏色表示不同的訓練集大小 m。在時間 t 執行早停緊密對應于使用系數 ε = Km/ηt 的正則化,其中 K=10 表示輸出類別的數量。

    8. 浮點數精度決定了核方法失敗的關鍵數據集大小

    圖 8:無限網絡核的尾部特征值表現出了冪律衰減趨勢。

    9. 由于條件不好,線性化 CNN-GAP 模型表現很差

    研究者觀察到線性化 CNN-GAP 在訓練集上的收斂速度非常慢,導致其驗證表現也很差(見上圖 3)。

    這一結果的原因是池化網絡的條件很差。Xiao 等人的研究 [33] 表明 CNN-GAP 網絡初始化的條件比 FCN 或 CNN-VEC 網絡差了像素數倍(對 CIFAR-10 來說是 1024)。

    表 1:對應架構類型的核的 CIFAR-10 測試準確率。

    10. 正則化 ZCA 白化(whitening)可提升準確率

    圖 9:正則化 ZCA 白化可提升有限和無限寬度網絡的圖像分類性能。所有的圖都將性能表現為 ZCA 正則化強度的函數。a)在 CIFAR-10、Fashion-MNIST、CIFAR-100 上核方法輸入的 ZCA 白化;b)有限寬度網絡輸入的 ZCA 白化。

    11. 同變性(equivariance)僅對遠離核區域的窄網絡有益

    圖 10:同變性僅在核區域之外的 CNN 模型中得到利用。

    如果 CNN 模型能有效地利用同變性,則預計它能比 FCN 更穩健地處理裁剪和平移。出人意料的是,寬 CNN-VEC 的性能會隨輸入擾動的幅度而下降,而且下降速度與 FCN 一樣快,這說明同變性并未得到利用。相反,使用權重衰減的窄模型(CNN-VEC+L2+narrow)的性能下降速度要慢得多。正如預期,平移不變型 CNN-GAP 依然是最穩健的。

    12. 集成核預測器可使用 NNGP/NTK 進行實用的數據增強

    圖 11:集成核預測器(ensembling kernel predictors)可使基于大規模增強數據集的預測在計算上可行。

    可以觀察到,DA 集成可提升準確率,且相比于 NTK,它對 NNGP 的效果要好得多。

    這里研究者提出了一種直接讓集成核預測器實現更廣泛的數據增強的方法。該策略涉及到構建一組經過增強的數據批,為其中每一批執行核推斷,然后執行所得結果的集成。這相當于用模塊對角近似替代核,其中每個模塊都對應一個數據批,所有增強的數據批的并集即為完整的增強數據集。該方法在該研究所有無線寬度架構的對應核方法上都取得了當前最佳結果。

    大家好,我是小五爸爸,今天分享的內容是學術底層的部分,孩子開始系統英語啟蒙,家長一定要徹底的了解英語學習的科學性,不能只把孩子扔到機構就萬事大吉,即使有心無力不能參與到家庭環境的創造作為補充,但是最起碼明白了正確的英語學習路徑,不至于孩子在學習的道路上走彎路,浪費時間金錢還有孩子的興趣。有了這些能力的加持,我相信能解決大部分家長的問題。

    相信有些內容大家已經了解過,今天系統的幫大家從最基本的層次過一遍,首先我們看一下學習英語的三大基本要素 What 學什么 ,where 在哪學,who 給誰學,了解完這三個就可以給寶寶找一條科學的學習英語的方法和路徑。

    第一部分就是what,學什么。

    相信有些家長會說這有啥可研究的,不就是學英語么?遠不是那么簡單。我們先看一看英語和漢語的區別。在世界主流語言中,漢語是公認的最難的,英語是公認的最簡單的, 為什么呢,是因為英語和漢語正好是兩種語言形式的代表,就是音形文字和象形文字,這是語言的基因,英語的字是音的記錄,音與字關聯大,而漢語的漢字與音無關。

    所以英語有個很重要的學習邏輯,因為字和音相關聯,所以聽和讀的能力強相關,你聽力的能力越來越好,你就能認出越來越多的字,因為你聽到的就是字,大家能理解這個意思吧。

    但是漢語,不會因為你拼音學得好,你就能認字越好。

    所以我們說學英語有個很重要的工具就是自然拼讀,他是解決語言學習路徑中從聽到讀的解碼器,舉個例子,你天天聽到 bike,然后呢你也理解 bike 就是這個兩個輪子一個車把能騎的一個東西,再加上 letter name 和 letter sound 的學習,b for (波),i for (愛),k for (咳)and 還有一個 silent e 不發音, 你看到 bike 這個單詞的時候,你就能念出來,就能拼讀出來。但是漢語呢,拼音和字型之間基本上是沒有關系的,漢語的學習要學兩套,拼音學完了,還要學字形,他是象形文字,他的意思和型相關,和發音不相關。

    所以英語的學習非常注重拼讀,而漢語的學習非常注重抄寫。現在還有大量的老師在布置作業的時候讓抄 10 遍單詞,我覺得意義真的不大,你說有記憶的作用么,當然有,任何東西熟都能生巧,但他違背了英語的學習邏輯,相當于把英語當成漢語去學。難道記憶 bike還需要抄寫 20 遍么,你只要知道 B for 波,i for 愛,k for 咳,and there is a silent e,就 ok 了。

    說到 letter sound 和 letter name,外國小孩是先學 sound 還是 name 呢?肯定是 letter sound, 這也是為什么現在學齡前小朋友學英語不是從 abcd 開始學,同樣,中國小朋友也不是學說話的時候就學阿啵呲嘚。

    這些都是英語和漢語一些很有意思的區別,而正是這些區別,造成后面的整體的學習邏輯和路徑的不一樣,英語學習和漢語學習是完全不同的,那其實家長大部分的英語學習的誤區就是用學習漢語的方式去套英語學習。


    我們來看第二個部分,where,學習環境的分析,我們在哪學英語呢,在中國學。那么請問在中國學英語和在美國學英語是一回事么?在中國學英語和在新加坡學英語是一回事么?

    這個問題我經常給家長講,也給我們的員工培訓,在美國學英語,叫English Language Art(英語語言藝術),或者叫 English As the First Language ,因為美國現在也是多語種教學。在新加坡或者香港學英語叫做 English as a Second language(英語作為第二語言),但是你們知道世界上最大的 ESL 國家是哪個么?還是美國!美國有大量的人口在學習西班牙語和法語,還有中文。


    在中國現在大部分包括上一代人學習英語叫做 English as a foreign language(英語作為外語來學習),不過目前教育的改革還是特別明顯的,增加口語考試,弱化語法單獨測評,加大閱讀理解的深度和選材面,側重聽說讀寫的全面能力,明顯在和國際主流英語考試對標,例如雅思托福。代表把英語作為外語來學習已經不適合這一代的小孩了,學習英語的目的是為了熟練的應用,而不是只為了考試??荚囈苍诿黠@改革,去檢測小朋友的應用能力

    下面好好介紹下這三種英語學習的方式。

    1) ELA,全稱為 English Language Arts,也就是英語語言藝術,主要針對英語母語語言學習者。ELA 教材是在基本語言技能具備的前提下,探究語言的藝術,類似我們國內學的語文。美國原版的教材,在美國作為學校的主課,也是需要一學年幾百個課時去學習的。

    2)ESL,全稱是 English as a Second Language, 也就是非英語母語學生在英語語言國家學習英語。英語為二語的環境,指你在家里講母語,出門以后用到的就都是二語。無論是學校、工作場所還是公眾場合場所,都要使用二語。如一個中國學生在美國學英語就是典型的 ESL,新加坡、香港也是 ESL 環境,他們的官方語言是英語。ESL 環境的特點在于目標語言接觸頻率高,使用機會多,學習者更有可能達到更高的學習目標。

    我問一下,你覺得在北京學英語是哪種情況分類?中國因為幅員遼闊,經濟和教育的不均衡,學習英語也有很大的區別。北上廣等教育意識更強,教育資源更好的城市,因為有大量的外企員工、駐外使館,國際學校也多,ELA的學習者也相對較多,并且可以保證孩子的學習效果。但相對整體而言,ESL路徑更適合鄭州的小朋友。

    3)EFL,全稱是 English as a Foreign Language,意思是是母語并非英語的語言學習者在自己所在的國家學習英語,比如傳統上中國學生在中國學英語。英語作為外語,是指你在特定場合,比如學校才能接觸到英語,但是除了特定場合,一般情況下都接觸不到。中國和日本就是典型的 EFL 環境。在 EFL 環境中,語言接觸機會少,相對來說,比較難達到較高的語言要求。


    其實這三種分類,造成的英語學習的差異化的原因,主要是因為語言環境的不一樣帶來的學習時間的不一樣。第一種是全天,這個大家都明白,第二種最低的下限,每周不低 6 個小時,當然也上不封底。我們公立小學多長時間知道么?一周兩節課,80 分鐘。第二種比較常見的國家或地區就是香港和新加坡,你會發現,他們的學科學習也是通過英語在教學的。

    接下來我們做學習者的分析,who 的部分,誰在學,3 歲起點的小朋友對不對,二語習得理論,知道這個階段孩子學習的原因在于語言敏感期和布洛卡區。這個是底層的科學和生理原因,那我們想一想具象的表現,為什么 3 歲的孩子學英語有優勢 。優勢,時間多(這個我覺得是最重要的,英語學習無關于智商,根據 10000 小時理論,12歲之前達到高水平完全沒問題),臉皮厚,模仿力強,辯音的能力強,中文不強勢。

    那劣勢呢,第一個,在你身上或者你去看周邊的家長,是不是會有這樣的, 你在不好好學習,就去放羊,就去挖煤,就去撿垃圾,小朋友有的還很開心,好啊好啊。是不是,為什么呢,因為孩子沒有生存需求,大部分的學習或者說成年人的學習是為了生存需求,你們現在在聽,是因為聽了以后能夠運用到工作中,就有機會拿到更多的工資對不對,那孩子是沒有的。

    第二個,孩子沒有功利動機,比如有些成人學英語是為了泡妞,孩子是沒有的對吧,那對于孩子來說學英語的動機是什么呢,大家想一想,興趣。孩子學習是沒有功利和生存的內因驅使的,唯一驅使他的是通過不同的刺激產生的快樂和興趣,不要想著孩子可以自覺,可以有內驅力。兒童教育有個很經典的名言,有趣是通往有效的唯一途徑。

    還有一個孩子學習英語的劣勢是孩子缺乏抽象思維和對抽象事物的理解能力,孩子的學習是先具象在抽象,這是為什么我們要用閃卡,要用 tpr,讓孩子理解。沒有抽象思維能力會減緩學習速度,因為他找不到規律,沒有舉一反三的能力。


    Ok,我們講完了what,where,who,接下來我們看一看中國孩子為什么英語能力不行,難點到底在哪? 我覺得一,對于英語的語言底層邏輯研究不對,把英語當成中文學習,讓英語當成學科學習; 2,英語學習的路徑和體系不對,很多孩子都半途而廢,或者重復浪費,啟蒙做的好,但小學跟著公立走,又變成聽說讀寫同步,進度慢,應試了。本來在學能力英語,為了小升初又去新概念,到了初中又同步,中高考為了考試,造成啞巴英語,眼高手低。


    根據剛才的英語學習環境也就是where的部分,英語學習也有三種標準體系與之相對應,美標、歐標、國標這三種英語學習體系,哪個課程標準是進度最快的,哪個是最慢的呢?哪個更合適中國孩子呢?

    英 語 國 對 比

    美標:美國共同核心州立課程標準(CCSS)

    歐標:歐洲語言共同參考框架(CEFR)

    國標:中國基礎英語教學課程標準


    就這三條道路的快慢速度而言,相信大家都有一個最基本的認識: 美標和歐標肯定比國標要快。那么具體快多少呢?這里有一組數據: 到初中畢業,國標要求掌握的詞匯1540詞;歐標需要掌握8000詞;美標需要掌握14000個詞匯。

    從數據上,我們可以輕松地判斷美標最快,歐標其次,國標最慢,而且差距還不止一點。

    看到這里您可能會覺得那美標最好啊,因為他最快,如果您產生了這樣的想法,可能要先冷靜下來,因為學習這件事兒也講究因地制宜,因娃制宜,不同環境不同孩子合適的才是最好的

    說回美標,美標是給美國孩子,以英語為母語的孩子制定的標準,而我們的孩子不在母語環境。這樣的情況下,如果我們硬要他踏上母語環境的超快進度的跑道的話,會出現什么問題?跟不上。這個孩子很快出現學習者的挫敗感,他可能會慢慢失去學習的內在動力。

    什么是適合中國孩子的標準體系呢?歐標!《歐洲語言教學與評估框架性共同標準》以綜合方式描述了下述內容:交流所必需的能力、相關的知識及技能、交流的情形與領域。從低到高將學生的語言水平和所具備的實際交流能力進行了詳盡的描述。描述出在聽、說、讀、寫四項技能上所具備的典型能力,例如“能夠做自我介紹”,“能夠在社交,學術交流及工作環境下靈活及有效使用語言”。歐標這個體系把英語的聽說讀寫的技能全部拆分到了各個年齡層,更為不同年齡層的不同能力去做了精心的設計并且有合理的考試去匹配。歐標是最權威的針對母語非英語的國家孩子學英語的標準。大家經常見到的劍橋的教材啦,什么YLE考試啦,MSE考試啦,雅思考試啦都是匹配歐標來進行的。

    Ok,今天的分享結束了,在多一個小貼士,大家都知道英語學習是聽說讀寫,先聽說在讀寫,最重要是哪一關? 聽,不停的聽,大量的聽,聽不同的口音,但有個前提,得聽懂,就是可理解性輸入,聽不懂聽再多也無用。趕緊開始給孩子創造聽力環境吧。

網站首頁   |    關于我們   |    公司新聞   |    產品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有