操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    導讀:

    今年3月,阿里巴巴達摩院高級研究員、美國密歇根州立大學終身教授金榕參與了CIO學院技術公益大咖說,就《困局與破局:從深度學習到AI三大關鍵技術》這一主題進行了分享。金榕教授介紹了語音、自然語言處理、計算機視覺三大核心AI技術的關鍵進展,并就AI技術在在實際應用中的關鍵挑戰(zhàn),以及達摩院應對挑戰(zhàn)的創(chuàng)新實踐進行了解讀。

    本文為阿里技術整理的部分速記,如需獲取完整PPT可在本公眾號后臺回復“阿里005”獲取。

    本文將主要圍繞以下四個方面展開:

    一、AI技術背景介紹

    目前的 AI 技術都是以深度學習為基礎,而深度學習完成如此復雜的學習過程需要兩個條件,首先需要大量的數(shù)據(jù),深度學習非常依賴數(shù)據(jù)挖掘技術,用于產(chǎn)生大量有效的訓練數(shù)據(jù)。此外,深度學習還需要優(yōu)化算法,因為深度學習要在非常復雜的網(wǎng)絡中找到最好的模型,用于匹配數(shù)據(jù)。在最基礎的深度學習模型上,有三個主要的領域,既圖像視覺、語音交互和自然語言處理。其中,圖像視覺是由圖像處理和理解、自然人識別、視頻編解碼和內(nèi)容分析、三維視覺等技術組成。語音交互是由語音識別、語音合成、語音硬件技術等組成。自然語言處理包括自然語言應用技術、語義理解計算、翻譯基礎計算等技術。所有這些技術組成了人工智能技術。綜上而言,人工智能是由深度學習和機器學習組成的。

    1、機器學習

    機器學習的目標是利用有限的樣本對未知的目標函數(shù)求近似。任何機器學習模型都有三個 組成,首先確定要學習的函數(shù)空間、然后確定使用的數(shù)據(jù),用哪些訓練數(shù)據(jù)擬合機器學習模型,最后是找到優(yōu)化算法,讓機器從函數(shù)空間中學習到最好的模型,即最佳匹配數(shù)據(jù)的模型。

    2、深度學習

    機器學習是考慮所有可能的函數(shù),而深度學習只考慮一個特殊類的函數(shù),神經(jīng)網(wǎng)絡。在數(shù)據(jù)方面,深度學習的數(shù)據(jù)要求比普通模型的要求要高很多。在大數(shù)據(jù)支持的前提下,才能夠真正發(fā)揮深度學習的作用。傳統(tǒng)的優(yōu)化只是做凸優(yōu)化,而在深度學習場景中要處理非凸優(yōu)化。因此,深度學習在三個 中都會遇到非常大的挑戰(zhàn)。首先,神經(jīng)網(wǎng)絡構成的函數(shù)空間非常不清楚。其次,由于大數(shù)據(jù)的復雜性,訓練數(shù)據(jù)的難度比傳統(tǒng)機器學習的難度要大。最后,非凸優(yōu)化無論在理論或?qū)嵺`層面都沒有很成型的模版。所以業(yè)界為了找到最佳的實踐也在做很多的實驗研究。

    3、人工智能發(fā)展的關鍵

    人工智能發(fā)展主要包含兩個關鍵點。首先可以利用大量豐富的“活”數(shù)據(jù)。利用“活”數(shù)據(jù)的應用有很多,如 2016 年谷歌的 戰(zhàn)勝了圍棋世界冠軍。另外,AI 技術具備強大的計算能力,如目前非?;鸬淖詣玉{駛技術, 的 Waymo 可以在非常長的距離下無需人為干預的進行自動駕駛。但是這些技術早在 20 多年以前都有所實踐,在 1995 年, 通過和自己下 1.5 萬盤棋,成為了世界冠軍。在 1994 年,Alvin 以每小時 70 英里的速度從美國的東海岸開到了西海岸。相比這 20 多年的發(fā)展,本質(zhì)上的不同點是數(shù)據(jù)的數(shù)量級和計算能力的提升。如人臉識別技術現(xiàn)在都需要上億級別的訓練數(shù)據(jù),而以前只有幾百萬張的數(shù)據(jù)。傳統(tǒng)的 AI 技術要依靠很多的 GPU 才能得到比較好的模型效果。

    二、自然語言處理

    1、自然語言處理模型

    自然語言處理也有著很長的歷史,以前叫計算語言學。傳統(tǒng)的計算語言學方法使用統(tǒng)計學的語言概率模型構建自然語言模型。如下圖中的“中國鼓勵民營企業(yè)家投資國家基礎建設”,這一句話可以被解析為一個語言樹,分為主語、謂語、賓語、動詞和名詞等內(nèi)容。也就是利用語言樹表達這句話的語法結構。另外,傳統(tǒng)的自然語言中常用的技術叫統(tǒng)計語言模型。如下圖中的拼音串 “ta shi yan jiu sheng wu de” 可以有多種可能的漢子串表達,人為判斷的話應該是最后一條“他是研究生物的”。實際上,人類大腦中通過大量閱讀會形成一個概念圖表,知道哪些表達是可能發(fā)生的,形成了一種統(tǒng)計語言模型。最典型的統(tǒng)計語言模型是 Bi-gram 模型,計算一個詞之后可能出現(xiàn)的詞的概率。但傳統(tǒng)的計算語言學方法存在模型欠精準,文本處理效果一般等弊端。

    中班按兩種特征分類ppt_按物體的數(shù)量分類ppt_按物體顏色分類教案

    鑒于傳統(tǒng)方法的局限,深度學習可以用于自然語言處理中,其中最成功的的模型叫深度語言模型。與傳統(tǒng)方法的區(qū)別在于它將所有詞的上下文信息用張量表示,還可以雙向表示,即對未來和過去都做預測。此外,深度語言模型利用了 結構,可以更好的捕捉詞和詞之間的關系。

    問答應用傳統(tǒng)的方式是常見問答對(FAQ)和知識圖譜(KBQA)。如下圖中的例子,問答對是一個數(shù)據(jù)庫,包含問題和回答。這種方式相對保守,且編輯問答對要求人對相應的 有比較深的理解,很難擴大領域,且冷啟動慢。為了解決此問題,隨之出現(xiàn)了機器閱讀理解的技術,它可以直接自動從文檔中找到匹配問題的答案,通過深度語言模型將問題和文檔轉化為語義向量,從而找到最后的匹配答案。

    目前問答應用廣泛應用于各大企業(yè),如阿里小蜜,閑魚賣家助理,每天幫助百萬級的買家自動獲取商品和活動信息。

    2、自然語言處理 - 機器翻譯

    另外一個比較成熟的 AI 技術的應用是機器翻譯。傳統(tǒng)的翻譯模型叫統(tǒng)計機器翻譯模型(SMT),如下圖左側,從翻譯結果來看,統(tǒng)計機器翻譯模型容易產(chǎn)生錯譯,整體流暢度差,包含語法錯誤。引入深度學習的神經(jīng)網(wǎng)絡機器學習模型(NMT)的結果錯譯少,流暢度也比較高,符合英文的語法規(guī)則。

    下圖中可以看到, Brain 對神經(jīng)網(wǎng)絡做了一個評估報告,其中 based 翻譯模型達到的效果有限,而基于神經(jīng)網(wǎng)絡的翻譯模型有了明顯的提升。同時,在阿里巴巴業(yè)務中機器翻譯也得到了廣泛應用,如電商場景中對商品信息的翻譯,釘釘 AI 翻譯等。但是因為釘釘?shù)男畔⒍际潜容^隨意的表達,所以釘釘 AI 翻譯在未來還有很大的進步空間。

    三、語音技術

    語音技術在很長一段時間內(nèi)都被想象成是編碼的技術,將文字編譯成語音信號。而語音識別的過程是屬于解碼的過程。

    通常語音識別有兩種模型,語言模型( Model)和聲學模型( Model)。語言模型主要的場景是預測某詞或詞序列的概率。聲學模型預測通過詞 W 的發(fā)音生成特征 X 的概率。

    1、語音識別

    傳統(tǒng)的混合語音識別系統(tǒng)叫 GMM-HMM,GMM 用于聲學模型, HMM 用于語言模型。即使在語音識別領域大家做了很長一段時間的努力,但還是無法達到人類語音識別水平。到了 2009 年之后,基于深度學習的語音識別系統(tǒng)開始發(fā)展, 2017 年微軟聲稱它們的語音識別系統(tǒng)比傳統(tǒng)的語音識別系統(tǒng)有了明顯的提升,甚至比人類的語音識別水平更好。

    傳統(tǒng)的混合語音識別系統(tǒng)包含獨立優(yōu)化的聲學模型,語言模型和語言學家設計的發(fā)音詞典。不難發(fā)現(xiàn),傳統(tǒng)的語音識別系統(tǒng)的構建流程非常繁瑣,它需要多個 并行開發(fā),各個模型都是獨立優(yōu)化的,導致最終的優(yōu)化效果不盡人意。

    按物體的數(shù)量分類ppt_中班按兩種特征分類ppt_按物體顏色分類教案

    基于傳統(tǒng)的語音識別系統(tǒng)遇到的問題,端到端的語音識別系統(tǒng)中將聲學模型、解碼器、語言模型、發(fā)音詞典都結合在一起,統(tǒng)一進行開發(fā)和優(yōu)化,使得效果達到最優(yōu)。實際的實驗結果明端到端語音識別系統(tǒng)可以進一步降低識別 20+% 的錯誤率。此外,模型的達到會大大縮小,可以達到傳統(tǒng)語音識別模型的幾十分之一。而且端到端的語音識別系統(tǒng)還可以在云上發(fā)揮作用。

    2、語音合成

    語音合成大概分為幾個 。首先是前端的文本分析,進行詞的拆分,識別 break,這些會構成語言信息。之后,傳到后端通過聲學模型產(chǎn)生聲波。

    語音合成技術從最早的 GMM,到 2000 年的 HMM,再到 2013 年,基于深度學習的模型。而到了 2016 年, 相較于之前的模型,在語音質(zhì)量上有了質(zhì)的飛躍。2017 年出現(xiàn)了端到端的語音合成模型。2018 年阿里巴巴的 -aware 模型不僅能夠產(chǎn)生很好的音質(zhì),還實現(xiàn)了大規(guī)模的模型壓縮和計算效率的提升,可以實時產(chǎn)生有效的合成語音。

    語音合成一直存在一個較大的 ,即定制化成本非常高。通常傳統(tǒng)的語音定制則需要專業(yè)的發(fā)言人,還要在錄音棚中錄制,人工精準的標注,而且需要大量的數(shù)據(jù),一般大于 1 個小時。而如今,語音合成需要在個性化聲音定制方面做一些嘗試,任何的普通人只要通過手機進行錄制,即便在噪聲環(huán)境下,也可以完成個性化的聲音定制。如可以將車內(nèi)導航系統(tǒng)的語音換成家人的聲音。

    3、多模態(tài)語音交互方案

    當人和人對話時,不只是在聽聲音,而是通過視覺和聽覺結合起來理解對方表達的意思。未來的語音交互系統(tǒng)中,還需要將多模態(tài)交互方案引入進來。目前的語音識別系統(tǒng)在嘈雜環(huán)境下的效果還是不盡人意的,在地鐵等嘈雜的公共環(huán)境中還是會遇到較大的挑戰(zhàn)。阿里達摩院希望將語音識別和機器視覺進行結合,采用多模態(tài)的人機交互技術將語音識別與計算機視覺結合的方式,讓機器人看著對方,聽對方說話,就可以在嘈雜的環(huán)境中精準識別用戶發(fā)出的聲音。

    舉一個例子,假如在地鐵站買票,和賣票機器進行對話,同時因為后面也排著很多人,他們也會說話。這時通過視覺的方式,可以判斷哪一個人臉更大,從而識別買票的人說的話。下圖展示了基于人臉特征監(jiān)督信息的目標說話人語音分離主要算法處理流程。最后是提出的音視覺特征輸入和基于音視覺融和的信源掩碼估計模型。

    音視覺融合技術已經(jīng)在很多生活場景中得到廣泛應用。覆蓋了上海的主要交通樞紐,如地鐵站,虹橋火車站、上海火車站、上海南站、虹橋機場和浦東機場等。從 2018 年 3 月至今累計服務旅客超百萬人。此外,2018 年 9 月杭州云棲大會上達摩院和肯德基合作的基于多模態(tài)技術的智能點餐機在 3 天內(nèi)完成了4500 單。2019 年 8 月釘釘推出了搭載多模態(tài)交互技術的智能辦公硬件新品 M 25,可以在嘈雜的聲音環(huán)境下使得交互更加有效。

    四、視覺技術

    1、圖像搜索

    視覺技術中最核心的就是圖像搜索的識別,同樣也經(jīng)歷了很長的發(fā)展過程。在早期的 90 年代初期是基于全局信息的底層特征進行搜索,如將圖像顏色的信息做分布,但這種方法的精度非常糟糕,如 Top 5 只達到了 30%。到 2000 年初,大家開始基于局部的特征編碼特征做圖像的搜索和識別,精度達到了 70%。但是其中局部信息都是由人工確定,如果出現(xiàn)人沒有見過的特征,則無法有效提取。到了 2010 年左右,大家開始使用深度學習的技術,自動的提取局部信息特征,從而精度達到了 92%,使得圖像搜索技術完全可以應用于商業(yè)場景。

    按物體顏色分類教案_中班按兩種特征分類ppt_按物體的數(shù)量分類ppt

    圖像搜索和識別發(fā)展歷程

    目前,圖像搜索面臨的挑戰(zhàn)主要有三點,首先數(shù)據(jù)越來越多,10 億級別的訓練數(shù)據(jù)。同時還要處理上億級別的分類。而且模型的復雜度也越來越高。

    為了解決以上挑戰(zhàn),阿里推出了九鼎,一種大規(guī)模 AI 訓練引擎。九鼎是大規(guī)模訓練載體和專家系統(tǒng),涵蓋了視覺、NLP 等領域。九鼎由兩部分組成,首先是通訊,因為所有大規(guī)模訓練都需要多級多卡,如何有效的通過多級多卡提升模型的訓練,減少通訊的代價是較為重要的問題。另外一部分是優(yōu)化算法部分,如何做好分布式的優(yōu)化問題同樣也是目前遇到的較大的挑戰(zhàn)。這種大規(guī)模訓練引擎可以處理大規(guī)模數(shù)據(jù)的分類并達到很好的訓練效果。 可以在 2.8 分鐘內(nèi)就可以訓練完成。若處理 1 億級的 ID,10 億級別的圖片分類可以在 7 天內(nèi)訓練完成。

    圖像搜索在實際生活場景中被廣泛應用。目前,拍立淘可以處理超大規(guī)模的圖像識別和搜索任務,其中有 4 億+ 的商品,30 億+ 的圖片,和 2000 萬+ 的活躍用戶。可以識別 3000 萬+ 的實體,覆蓋了 SKU 商品,動物,植物,車輛等。

    天巡是用于遙感圖像識別分析的應用,可以進行大規(guī)模的遙感影像訓練,拖動遙感圖像的路網(wǎng)提取,地物分類,新增建筑物識別,違章建筑識別等任務。

    2、圖像分割

    圖像分割指的是從一張圖中將 分割出來。傳統(tǒng)的圖像分割方法是如下圖左側,分割成很多像素,看每個像素之間的相似度按物體的數(shù)量分類ppt,相似的像素聚合起來一些區(qū)域,再輸出。但傳統(tǒng)的圖像分割技術無法學習到語義的信息,只能知道圖中的 ,但不知道 是什么物體。另外,因為采用了無監(jiān)督的學習,在分割邊角時精度不高。

    而基于深度學習的分割技術基于監(jiān)督學習,將很多訓練樣本接入技術中。同時還可以得到分割的結果和分類的結果,理解每個像素的實例歸屬。而且在大規(guī)模的數(shù)據(jù)前提下,編碼器和解碼器模型可以精細的分割 的邊緣。

    阿里將圖像分割技術應用于淘系的全類目商品中,可以自動生成商品白底圖,提速商品發(fā)布。

    按物體顏色分類教案_中班按兩種特征分類ppt_按物體的數(shù)量分類ppt

    另外,還可以用于服飾的素材拼圖場景中,商家會提供模特素材,利用分割技術,將模特身上的服飾進行分割,自由組合搭配。

    3、模型壓縮

    目前,深度學習技術已經(jīng)廣泛應用于多種行業(yè)中,同時也遇到了很多挑戰(zhàn)。首先,深度學習模型越來越復雜,其中計算量在不斷增長,達到了 20G FLOPS+,還有不斷增加的連接。模型變大那就需要較大的 進行存儲,找到合適的 將是非常困難的事情。即使有了 ,模型也需要跑很長的時間。此時,模型的壓縮技術就顯得非常重要,它可以將幾十 G 的模型壓縮到幾十 M,用戶可以在任何的 上運行模型,無需等待很長時間。

    模型壓縮已經(jīng)發(fā)展了很長時間。如下圖中的模型,可以將模型中不重要的邊去掉,進行稀疏化。然后對模型的邊進行量化,給不同的權重。最后對模型進行分支,改變結構。FPGA 的加速方案可以在相同 QPS 條件下,相對 GPU 提速 170 倍(-18 僅需 174us)。

    模型壓縮本質(zhì)上是改變模型的結構。模型結構的選擇是比較難的問題,它不是一個普通的優(yōu)化問題,不同結構之間是一個離散的空間。阿里提出出的 方法,可以更快速的獲取準確的 ,在 2019 年 ICCV 大會舉辦的低功能耗圖像識別挑戰(zhàn)(Low-Power Image )中獲得了冠軍。

    基于 FPGA 的解決方案在盒馬自助收銀機得到了應用,利用機器視覺方法識別是否漏掃商品,GPU 成本縮小到 1/2。同時自研的高效檢測算法,可以在 1 秒內(nèi)完成多種行為分析任務,掃碼動作分類準確度達 90% 以上。場景分類準確度達 95% 以上。

    4、目標檢測

    另外,機器視覺技術可以應用與視頻信息的結構化任務中,檢測目標物體,跟蹤識別。目標檢測和跟蹤識別任務主要的處理流程如下圖,對視頻進行解碼,目標檢測,目標跟蹤,高維特征提取,屬性提取,存儲為結構化數(shù)據(jù)。

    目標檢測技術也出現(xiàn)了很長一段時間,傳統(tǒng)的檢測方法是 HoG,DPM 等,依靠 特征,即人工選擇特征。這種方法的問題在于魯棒性差,無法泛化,計算量冗余度高。而現(xiàn)在也出現(xiàn)了很多基于深度學習的目標檢測方法,如 RCNN、SSD、、FCOS 等。它們的優(yōu)點是機器可以替代人工識別的特征,可以對物體的尺寸,外觀的變化更加魯棒,泛化性能好。如下圖中的折線圖,可以發(fā)現(xiàn)從 2008 年到 2019 年,從較低的準確度(大約 20%)提升到了 83% 左右。

    5、目標跟蹤

    目標識別出來后還要進行跟蹤。在目標跟蹤中遇到的挑戰(zhàn)是人是動態(tài)的,在行動的過程中會被其它物體或人遮擋,這檔過程中會丟失目標,如下圖中的紅色衣服的人會被紫色衣服的人遮擋。傳統(tǒng)的方法是根據(jù) 進行匹配,但在上述擁擠場景中,預測位置難以精確,匹配很容易出現(xiàn)錯誤。而基于深度學習的方法是抽取 進行匹配,預測結果更加魯棒。

    按物體的數(shù)量分類ppt_中班按兩種特征分類ppt_按物體顏色分類教案

    目標跟蹤的應用場景一般在新零售場景中。購物中心和品牌門店需要對客流及場內(nèi)行為進行深入洞察,構建線下人、貨和場地的數(shù)據(jù)關聯(lián)。提升線下運營的管理效率,提升消費者體驗按物體的數(shù)量分類ppt,最終促進業(yè)務的增長。

    另外,目標跟蹤技術用于案發(fā)場景下。但因為案發(fā)場景中視頻都是非常長時間的內(nèi)容,難以人為檢查識別。那么能否將整個 24 小時的信息濃縮后在幾分鐘內(nèi)看完。其中需要利用目標檢測和目標跟蹤的技術,識別人和物,跟蹤軌跡。將不同時間的軌跡一起播放,如果對某一個或某一類軌跡感興趣可以點擊進去,看到這類的視頻內(nèi)容,大大減少了觀看視頻的時間。

    總結

    可以發(fā)現(xiàn) AI 技術的發(fā)展離不開大量數(shù)據(jù)的支持,因此目前的人工智能技術還是以數(shù)據(jù)為驅(qū)動。如機器翻譯和專業(yè)的翻譯人員相比,人在翻譯的時候并不是完全以數(shù)據(jù)為驅(qū)動,不需要閱讀上億的數(shù)據(jù),更多是基于 的方法,高效的處理已有的信息。所以在未來,如何讓機器從 Data 走向 Based 還需要進行不斷的探索和努力。

    往期干貨精選

    PPT獲取在本公眾號【智東西公開課】后臺回復“阿里005”獲取本次完整講解PPT。(限時24小時內(nèi)無門檻領取哦)

    END

    直播預告

    6月12日晚7點,AI數(shù)據(jù)服務公開課愛數(shù)智慧專場正式開講!愛數(shù)智慧首席數(shù)據(jù)科學家賈艷明將講解從數(shù)據(jù)角度看AI模型訓練的挑戰(zhàn)。

    掃描下方海報中的二維碼快速報名

    大會推薦

    6月21日,中國年度嘉賓規(guī)格最高的AI學術大會開啟, 等6位圖靈獎得主,以及iLSTM之父Jürgen 等世界級專家將親臨!

    掃描下方海報中的二維碼快速報名

    你的每一個“在看”,我都當成了喜歡

網(wǎng)站首頁   |    關于我們   |    公司新聞   |    產(chǎn)品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區(qū)    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有