操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    前置招聘貼:

    近來在同時做一個應(yīng)用深度學(xué)習(xí)解決淘寶商品的類目預(yù)測問題的項(xiàng)目,恰好碩士畢業(yè)時論文題目便是文本分類問題,趁此機(jī)會總結(jié)下文本分類領(lǐng)域特別是應(yīng)用深度學(xué)習(xí)解決文本分類的相關(guān)的思路、做法和部分實(shí)踐的經(jīng)驗(yàn)。

    業(yè)務(wù)問題描述:

    淘寶商品的一個典型的例子見下圖,圖中商品的標(biāo)題是“夏裝雪紡條紋短袖t恤女春半袖衣服夏天中長款大碼胖mm顯瘦上衣夏”。淘寶網(wǎng)后臺是通過樹形的多層的類目體系管理商品的,覆蓋葉子類目數(shù)量達(dá)上萬個,商品量也是10億量級,我們是任務(wù)是根據(jù)商品標(biāo)題預(yù)測其所在葉子類目,示例中商品歸屬的類目為“女裝/女士精品>>蕾絲衫/雪紡衫”。很顯然,這是一個非常典型的短文本多分類問題。接下來分別會介紹下文本分類傳統(tǒng)和深度學(xué)習(xí)的做法,最后簡單梳理下實(shí)踐的經(jīng)驗(yàn)。

    一、傳統(tǒng)文本分類方法

    文本分類問題算是自然語言處理領(lǐng)域中一個非常經(jīng)典的問題了,相關(guān)研究最早可以追溯到上世紀(jì)50年代,當(dāng)時是通過專家規(guī)則()進(jìn)行分類,甚至在80年代初一度發(fā)展到利用知識工程建立專家系統(tǒng),這樣做的好處是短平快的解決top問題,但顯然天花板非常低,不僅費(fèi)時費(fèi)力,覆蓋的范圍和準(zhǔn)確率都非常有限。

    后來伴隨著統(tǒng)計(jì)學(xué)習(xí)方法的發(fā)展,特別是90年代后互聯(lián)網(wǎng)在線文本數(shù)量增長和機(jī)器學(xué)習(xí)學(xué)科的興起,逐漸形成了一套解決大規(guī)模文本分類問題的經(jīng)典玩法,這個階段的主要套路是人工特征工程+淺層分類模型。訓(xùn)練文本分類器過程見下圖:

    整個文本分類問題就拆分成了特征工程和分類器兩部分,玩機(jī)器學(xué)習(xí)的同學(xué)對此自然再熟悉不過了

    1.1 特征工程

    特征工程在機(jī)器學(xué)習(xí)中往往是最耗時耗力的,但卻極其的重要。抽象來講,機(jī)器學(xué)習(xí)問題是把數(shù)據(jù)轉(zhuǎn)換成信息再提煉到知識的過程,特征是“數(shù)據(jù)-->信息”的過程,決定了結(jié)果的上限,而分類器是“信息-->知識”的過程,則是去逼近這個上限。然而特征工程不同于分類器模型,不具備很強(qiáng)的通用性,往往需要結(jié)合對特征任務(wù)的理解。

    文本分類問題所在的自然語言領(lǐng)域自然也有其特有的特征處理邏輯,傳統(tǒng)分本分類任務(wù)大部分工作也在此處。文本特征工程分位文本預(yù)處理、特征提取、文本表示三個部分,最終目的是把文本轉(zhuǎn)換成計(jì)算機(jī)可理解的格式,并封裝足夠用于分類的信息,即很強(qiáng)的特征表達(dá)能力。

    1)文本預(yù)處理

    文本預(yù)處理過程是在文本中提取關(guān)鍵詞表示文本的過程,中文文本處理中主要包括文本分詞和去停用詞兩個階段。之所以進(jìn)行分詞,是因?yàn)楹芏嘌芯勘砻魈卣髁6葹樵~粒度遠(yuǎn)好于字粒度,其實(shí)很好理解,因?yàn)榇蟛糠址诸愃惴ú豢紤]詞序信息,基于字粒度顯然損失了過多“n-gram”信息。

    具體到中文分詞,不同于英文有天然的空格間隔,需要設(shè)計(jì)復(fù)雜的分詞算法。傳統(tǒng)算法主要有基于字符串匹配的正向/逆向/雙向最大匹配;基于理解的句法和語義分析消歧;基于統(tǒng)計(jì)的互信息/CRF方法。近年來隨著深度學(xué)習(xí)的應(yīng)用, + Bi-LSTM+CRF方法逐漸成為主流,本文重點(diǎn)在文本分類,就不展開了。而停止詞是文本中一些高頻的代詞連詞介詞等對文本分類無意義的詞,通常維護(hù)一個停用詞表,特征提取過程中刪除停用表中出現(xiàn)的詞,本質(zhì)上屬于特征選擇的一部分。

    經(jīng)過文本分詞和去停止詞之后淘寶商品示例標(biāo)題變成了下圖“ / ”分割的一個個關(guān)鍵詞的形式:

    分詞工具 可自定義詞庫_淘寶關(guān)鍵詞分詞工具_(dá)分詞工具分好以后關(guān)鍵詞價格

    夏裝 / 雪紡 / 條紋 / 短袖 / t恤 / 女 / 春 / 半袖 / 衣服 / 夏天 / 中長款 / 大碼 / 胖mm / 顯瘦 / 上衣 / 夏

    2)文本表示和特征提取

    文本表示:

    文本表示的目的是把文本預(yù)處理后的轉(zhuǎn)換成計(jì)算機(jī)可理解的方式,是決定文本分類質(zhì)量最重要的部分。傳統(tǒng)做法常用詞袋模型(BOW, Bag Of Words)或向量空間模型( Space Model),最大的不足是忽略文本上下文關(guān)系,每個詞之間彼此獨(dú)立,并且無法表征語義信息。詞袋模型的示例如下:

                   ( 0, 0, 0, 0, .... , 1, ... 0, 0, 0, 0)

    一般來說詞庫量至少都是百萬級別,因此詞袋模型有個兩個最大的問題:高緯度、高稀疏性。詞袋模型是向量空間模型的基礎(chǔ),因此向量空間模型通過特征項(xiàng)選擇降低維度,通過特征權(quán)重計(jì)算增加稠密性。

    特征提取:

    向量空間模型的文本表示方法的特征提取對應(yīng)特征項(xiàng)的選擇和特征權(quán)重計(jì)算兩部分。特征選擇的基本思路是根據(jù)某個評價指標(biāo)獨(dú)立的對原始特征項(xiàng)(詞項(xiàng))進(jìn)行評分排序,從中選擇得分最高的一些特征項(xiàng),過濾掉其余的特征項(xiàng)。常用的評價有文檔頻率、互信息、信息增益、χ2統(tǒng)計(jì)量等。

    特征權(quán)重主要是經(jīng)典的TF-IDF方法及其擴(kuò)展方法,主要思路是一個詞的重要度與在類別內(nèi)的詞頻成正比,與所有類別出現(xiàn)的次數(shù)成反比。

    3)基于語義的文本表示

    傳統(tǒng)做法在文本表示方面除了向量空間模型,還有基于語義的文本表示方法,比如LDA主題模型、LSI/PLSI概率潛在語義索引等方法,一般認(rèn)為這些方法得到的文本表示可以認(rèn)為文檔的深層表示,而word 文本分布式表示方法則是深度學(xué)習(xí)方法的重要基礎(chǔ),下文會展現(xiàn)。

    1.2 分類器

    分類器基本都是統(tǒng)計(jì)分類方法了,基本上大部分機(jī)器學(xué)習(xí)方法都在文本分類領(lǐng)域有所應(yīng)用,比如樸素貝葉斯分類算法(Na?ve Bayes)、KNN、SVM、最大熵和神經(jīng)網(wǎng)絡(luò)等等,傳統(tǒng)分類模型不是本文重點(diǎn),在這里就不展開了。

    二、深度學(xué)習(xí)文本分類方法

    上文介紹了傳統(tǒng)的文本分類做法,傳統(tǒng)做法主要問題的文本表示是高緯度高稀疏的,特征表達(dá)能力很弱,而且神經(jīng)網(wǎng)絡(luò)很不擅長對此類數(shù)據(jù)的處理;此外需要人工進(jìn)行特征工程,成本很高。而深度學(xué)習(xí)最初在之所以圖像和語音取得巨大成功,一個很重要的原因是圖像和語音原始數(shù)據(jù)是連續(xù)和稠密的,有局部相關(guān)性,。應(yīng)用深度學(xué)習(xí)解決大規(guī)模文本分類問題最重要的是解決文本表示,再利用CNN/RNN等網(wǎng)絡(luò)結(jié)構(gòu)自動獲取特征表達(dá)能力,去掉繁雜的人工特征工程,端到端的解決問題。接下來會分別介紹:

    2.1 文本的分布式表示:詞向量(word )

    分布式表示( )其實(shí) 最早在1986年就提出了,基本思想是將每個詞表達(dá)成 n 維稠密、連續(xù)的實(shí)數(shù)向量,與之相對的one-hot 向量空間只有一個維度是1,其余都是0。分布式表示最大的優(yōu)點(diǎn)是具備非常的特征表達(dá)能力,比如 n 維向量每維 k 個值,可以表征 k^{n} 個概念。事實(shí)上,不管是神經(jīng)網(wǎng)絡(luò)的隱層,還是多個潛在變量的概率主題模型,都是應(yīng)用分布式表示。下圖是03年在 A Model 的網(wǎng)絡(luò)結(jié)構(gòu):

    淘寶關(guān)鍵詞分詞工具_(dá)分詞工具 可自定義詞庫_分詞工具分好以后關(guān)鍵詞價格

    這篇文章提出的神經(jīng)網(wǎng)絡(luò)語言模型(NNLM, Model)采用的是文本分布式表示,即每個詞表示為稠密的實(shí)數(shù)向量。NNLM模型的目標(biāo)是構(gòu)建語言模型:

    詞的分布式表示即詞向量(word )是訓(xùn)練語言模型的一個附加產(chǎn)物,即圖中的 C。

    盡管 86年就提出了詞的分布式表示, 03年便提出了NNLM,詞向量真正火起來是 13年發(fā)表的兩篇的文章 of Word in Space 和 of Words and and their ,更重要的是發(fā)布了簡單好用的工具包,在語義維度上得到了很好的驗(yàn)證,極大的推進(jìn)了文本分析的進(jìn)程。下圖是文中提出的CBOW 和 Skip-Gram兩個模型的結(jié)構(gòu),基本類似于NNLM,不同的是模型去掉了非線性隱層,預(yù)測目標(biāo)不同分詞工具分好以后關(guān)鍵詞價格,CBOW是上下文詞預(yù)測當(dāng)前詞,Skip-Gram則相反。

    除此之外,提出了 和 兩個方法,很好的解決了計(jì)算有效性,事實(shí)上這兩個方法都沒有嚴(yán)格的理論證明,有些trick之處,非常的實(shí)用主義。詳細(xì)的過程不再闡述了,有興趣深入理解的,推薦讀讀這篇很不錯的paper: 。額外多提一點(diǎn),實(shí)際上學(xué)習(xí)的向量和真正語義還有差距,更多學(xué)到的是具備相似上下文的詞,比如“good”“bad”相似度也很高,反而是文本分類任務(wù)輸入有監(jiān)督的語義能夠?qū)W到更好的語義表示,有機(jī)會后續(xù)系統(tǒng)分享下。

    至此,文本的表示通過詞向量的表示方式,把文本數(shù)據(jù)從高緯度高稀疏的神經(jīng)網(wǎng)絡(luò)難處理的方式,變成了類似圖像、語音的的連續(xù)稠密數(shù)據(jù)。深度學(xué)習(xí)算法本身有很強(qiáng)的數(shù)據(jù)遷移性,很多之前在圖像領(lǐng)域很適用的深度學(xué)習(xí)算法比如CNN等也可以很好的遷移到文本領(lǐng)域了,下一小節(jié)具體闡述下文本分類領(lǐng)域深度學(xué)習(xí)的方法。

    2.2 深度學(xué)習(xí)文本分類模型

    詞向量解決了文本表示的問題,該部分介紹的文本分類模型則是利用CNN/RNN等深度學(xué)習(xí)網(wǎng)絡(luò)及其變體解決自動特征提取(即特征表達(dá))的問題。

    1)

    是上文提到的 作者 轉(zhuǎn)戰(zhàn) 后16年7月剛發(fā)表的一篇論文 Bag of for Text 。把 放在此處并非因?yàn)樗俏谋痉诸惖闹髁髯龇ǎ撬鼧O致簡單,模型圖見下:

    原理是把句子中所有的詞向量進(jìn)行平均(某種意義上可以理解為只有一個avg 特殊CNN),然后直接接 層。其實(shí)文章也加入了一些 n-gram 特征的 trick 來捕獲局部序列信息。文章倒沒太多信息量,算是“水文”吧,帶來的思考是文本分類問題是有一些“線性”問題的部分[from項(xiàng)亮],也就是說不必做過多的非線性轉(zhuǎn)換、特征組合即可捕獲很多分類信息,因此有些任務(wù)即便簡單的模型便可以搞定了。

    2)

    本篇文章的題圖選用的就是14年這篇文章提出的的結(jié)構(gòu)(見下圖)。 中的網(wǎng)絡(luò)結(jié)果是完全沒有考慮詞序信息的,而它用的 n-gram 特征 trick 恰恰說明了局部序列信息的重要意義。卷積神經(jīng)網(wǎng)絡(luò)(CNN )最初在圖像領(lǐng)域取得了巨大成功,CNN原理就不講了,核心點(diǎn)在于可以捕捉局部相關(guān)性,具體到文本分類任務(wù)中可以利用CNN來提取句子中類似 n-gram 的關(guān)鍵信息。

    分詞工具 可自定義詞庫_淘寶關(guān)鍵詞分詞工具_(dá)分詞工具分好以后關(guān)鍵詞價格

    的詳細(xì)過程原理圖見下:

    詳細(xì)過程:第一層是圖中最左邊的7乘5的句子矩陣,每行是詞向量分詞工具分好以后關(guān)鍵詞價格,維度=5,這個可以類比為圖像中的原始像素點(diǎn)了。然后經(jīng)過有 =(2,3,4) 的一維卷積層,每個 有兩個輸出 。第三層是一個1-max 層,這樣不同長度句子經(jīng)過層之后都能變成定長的表示了,最后接一層全連接的 層,輸出每個類別的概率。

    特征:這里的特征就是詞向量,有靜態(tài)()和非靜態(tài)(non-)方式。方式采用比如預(yù)訓(xùn)練的詞向量,訓(xùn)練過程不更新詞向量,實(shí)質(zhì)上屬于遷移學(xué)習(xí)了,特別是數(shù)據(jù)量比較小的情況下,采用靜態(tài)的詞向量往往效果不錯。non-則是在訓(xùn)練過程中更新詞向量。推薦的方式是 non- 中的 fine-方式,它是以預(yù)訓(xùn)練(pre-train)的向量初始化詞向量,訓(xùn)練過程中調(diào)整詞向量,能加速收斂,當(dāng)然如果有充足的訓(xùn)練數(shù)據(jù)和資源,直接隨機(jī)初始化詞向量效果也是可以的。

    通道():圖像中可以利用 (R, G, B) 作為不同,而文本的輸入的通常是不同方式的方式(比如 或Glove),實(shí)踐中也有利用靜態(tài)詞向量和fine-詞向量作為不同的做法。

    一維卷積(conv-1d):圖像是二維數(shù)據(jù),經(jīng)過詞向量表達(dá)的文本為一維數(shù)據(jù),因此在卷積用的是一維卷積。一維卷積帶來的問題是需要設(shè)計(jì)通過不同 的 獲取不同寬度的視野。

    層:利用CNN解決文本分類問題的文章還是很多的,比如這篇 A for 最有意思的輸入是在 改成 () k-max ,階段保留 k 個最大的信息,保留了全局的序列信息。比如在情感分析場景,舉個例子:

                “ 我覺得這個地方景色還不錯,但是人也實(shí)在太多了 ”
    

    雖然前半部分體現(xiàn)情感是正向的,全局文本表達(dá)的是偏負(fù)面的情感,利用 k-max 能夠很好捕捉這類信息。

    3)

    盡管能夠在很多任務(wù)里面能有不錯的表現(xiàn),但CNN有個最大問題是固定 的視野,一方面無法建模更長的序列信息,另一方面 的超參調(diào)節(jié)也很繁瑣。CNN本質(zhì)是做文本的特征表達(dá)工作,而自然語言處理中更常用的是遞歸神經(jīng)網(wǎng)絡(luò)(RNN, ),能夠更好的表達(dá)上下文信息。具體在文本分類任務(wù)中,Bi- RNN(實(shí)際使用的是雙向LSTM)從某種意義上可以理解為可以捕獲變長且雙向的的 "n-gram" 信息。

    RNN算是在自然語言處理領(lǐng)域非常一個標(biāo)配網(wǎng)絡(luò)了,在序列標(biāo)注/命名體識別/模型等很多場景都有應(yīng)用, for Text with Multi-Task 文中介紹了RNN用于分類問題的設(shè)計(jì),下圖LSTM用于網(wǎng)絡(luò)結(jié)構(gòu)原理示意圖,示例中的是利用最后一個詞的結(jié)果直接接全連接層輸出了。

    4) +

    CNN和RNN用在文本分類任務(wù)中盡管效果顯著,但都有一個不足的地方就是不夠直觀,可解釋性不好,特別是在分析時候感受尤其深刻。而注意力()機(jī)制是自然語言處理領(lǐng)域一個常用的建模長時間記憶機(jī)制,能夠很直觀的給出每個詞對結(jié)果的貢獻(xiàn),基本成了模型的標(biāo)配了。實(shí)際上文本分類從某種意義上也可以理解為一種特殊的,所以考慮把機(jī)制引入近來,研究了下學(xué)術(shù)界果然有類似做法。

    機(jī)制介紹:

    分詞工具分好以后關(guān)鍵詞價格_淘寶關(guān)鍵詞分詞工具_(dá)分詞工具 可自定義詞庫

    詳細(xì)介紹恐怕需要一小篇文章的篇幅,感興趣的可參考14年這篇paper BY TO ALIGN AND 。

    以機(jī)器翻譯為例簡單介紹下,下圖中 x_{t} 是源語言的一個詞,y_{t} 是目標(biāo)語言的一個詞,機(jī)器翻譯的任務(wù)就是給定源序列得到目標(biāo)序列。翻譯 y_{t} 的過程產(chǎn)生取決于上一個詞 y_{t-1} 和源語言的詞的表示 h_{j}(x_{j} 的 bi-RNN 模型的表示),而每個詞所占的權(quán)重是不一樣的。比如源語言是中文 “我 / 是 / 中國人” 目標(biāo)語言 “i / am / ”,翻譯出“”時候顯然取決于“中國人”,而與“我 / 是”基本無關(guān)。下圖公式, \alpha _{ij} 則是翻譯英文第 i 個詞時,中文第 j 個詞的貢獻(xiàn),也就是注意力。顯然在翻譯“”時,“中國人”的注意力值非常大。

    的核心point是在翻譯每個目標(biāo)詞(或 預(yù)測商品標(biāo)題文本所屬類別)所用的上下文是不同的,這樣的考慮顯然是更合理的。

    + 模型:

    我們參考了這篇文章 for ,下圖是模型的網(wǎng)絡(luò)結(jié)構(gòu)圖,它一方面用層次化的結(jié)構(gòu)保留了文檔的結(jié)構(gòu),另一方面在word-level和-level。淘寶標(biāo)題場景只需要 word-level 這一層的 即可。

    加入之后最大的好處自然是能夠直觀的解釋各個句子和詞對分類類別的重要性。

    5)( + CNN)

    我們參考的是中科院15年發(fā)表在AAAI上的這篇文章 for Text 的結(jié)構(gòu):

    利用前向和后向RNN得到每個詞的前向和后向上下文的表示:

    這樣詞的表示就變成詞向量和前向后向上下文向量起來的形式了,即:

    最后再接跟相同卷積層,層即可,唯一不同的是卷積層 = 1就可以了,不再需要更大 獲得更大視野,這里詞的表示也可以只用雙向RNN輸出。

    分詞工具 可自定義詞庫_淘寶關(guān)鍵詞分詞工具_(dá)分詞工具分好以后關(guān)鍵詞價格

    三、一點(diǎn)經(jīng)驗(yàn)

    理論和實(shí)踐之間的Gap往往差異巨大,學(xué)術(shù)paper更關(guān)注的是模型架構(gòu)設(shè)計(jì)的新穎性等,更重要的是新的思路;而實(shí)踐最重要的是在落地場景的效果,關(guān)注的點(diǎn)和方法都不一樣。這部分簡單梳理實(shí)際做項(xiàng)目過程中的一點(diǎn)經(jīng)驗(yàn)教訓(xùn)。

    模型顯然并不是最重要的:不能否認(rèn),好的模型設(shè)計(jì)對拿到好結(jié)果的至關(guān)重要,也更是學(xué)術(shù)關(guān)注熱點(diǎn)。但實(shí)際使用中,模型的工作量占的時間其實(shí)相對比較少。雖然再第二部分介紹了5種CNN/RNN及其變體的模型,實(shí)際中文本分類任務(wù)單純用CNN已經(jīng)足以取得很不錯的結(jié)果了,我們的實(shí)驗(yàn)測試RCNN對準(zhǔn)確率提升大約1%,并不是十分的顯著。最佳實(shí)踐是先用模型把整體任務(wù)效果調(diào)試到最好,再嘗試改進(jìn)模型。

    理解你的數(shù)據(jù):雖然應(yīng)用深度學(xué)習(xí)有一個很大的優(yōu)勢是不再需要繁瑣低效的人工特征工程,然而如果你只是把他當(dāng)做一個黑盒,難免會經(jīng)常懷疑人生。一定要理解你的數(shù)據(jù),記住無論傳統(tǒng)方法還是深度學(xué)習(xí)方法,數(shù)據(jù) sense 始終非常重要。要重視 分析,明白你的數(shù)據(jù)是否適合,為什么對為什么錯。

    關(guān)注迭代質(zhì)量 - 記錄和分析你的每次實(shí)驗(yàn):迭代速度是決定算法項(xiàng)目成敗的關(guān)鍵,學(xué)過概率的同學(xué)都很容易認(rèn)同。而算法項(xiàng)目重要的不只是迭代速度,一定要關(guān)注迭代質(zhì)量。如果你沒有搭建一個快速實(shí)驗(yàn)分析的套路,迭代速度再快也只會替你公司心疼寶貴的計(jì)算資源。建議記錄每次實(shí)驗(yàn),實(shí)驗(yàn)分析至少回答這三個問題:為什么要實(shí)驗(yàn)?結(jié)論是什么?下一步怎么實(shí)驗(yàn)?

    超參調(diào)節(jié):超參調(diào)節(jié)是各位調(diào)參工程師的日常了,推薦一篇文本分類實(shí)踐的論文 A of (and ’ Guide to) for ,里面貼了一些超參的對比實(shí)驗(yàn),如果你剛開始啟動文本分析任務(wù),不妨按文章的結(jié)果設(shè)置超參,怎么最快的得到超參調(diào)節(jié)其實(shí)是一個非常重要的問題,可以讀讀 蕭瑟的這篇文章 深度學(xué)習(xí)網(wǎng)絡(luò)調(diào)參技巧 - 知乎專欄。

    一定要用 :有兩種情況可以不用:數(shù)據(jù)量特別小,或者你用了更好的正則方法,比如bn。實(shí)際中我們嘗試了不同參數(shù)的,最好的還是0.5,所以如果你的計(jì)算資源很有限,默認(rèn)0.5是一個很好的選擇。

    fine- 是必選的:上文聊到了,如果只是使用訓(xùn)練的詞向量作為特征表示,我賭你一定會損失很大的效果。

    未必一定要 loss: 這取決與你的數(shù)據(jù),如果你的任務(wù)是多個類別間非互斥,可以試試著訓(xùn)練多個二分類器,也就是把問題定義為multi lable 而非 multi class,我們調(diào)整后準(zhǔn)確率還是增加了>1%。

    類目不均衡問題:基本是一個在很多場景都驗(yàn)證過的結(jié)論:如果你的loss被一部分類別,對總體而言大多是負(fù)向的。建議可以嘗試類似 方法調(diào)整 loss 中樣本權(quán)重方式解決。

    避免訓(xùn)練震蕩:默認(rèn)一定要增加隨機(jī)采樣因素盡可能使得數(shù)據(jù)分布iid,默認(rèn)機(jī)制能使得訓(xùn)練結(jié)果更穩(wěn)定。如果訓(xùn)練模型仍然很震蕩,可以考慮調(diào)整學(xué)習(xí)率或 。

    沒有收斂前不要過早的下結(jié)論:玩到最后的才是玩的最好的,特別是一些新的角度的測試,不要輕易否定,至少要等到收斂吧。

    四、寫在最后

    幾年前校招面阿里時,一面二面聊的都是一個文本分類的項(xiàng)目(一個新浪微博主題分類的學(xué)校課題項(xiàng)目),用的還是文中介紹的傳統(tǒng)的做法。面試時對特征項(xiàng)處理和各個分類器可謂如數(shù)家珍,被要求在白板上寫了好幾個特征選擇公式,短短幾年傳統(tǒng)做法已經(jīng)被遠(yuǎn)遠(yuǎn)超越,不得不感慨深度學(xué)習(xí)的發(fā)展。

    值得感慨的一方面是今天技術(shù)的發(fā)展非常快,故步自封自然是萬萬萬萬不可取,深知還有很多理論尚且不懂還要繼續(xù)深讀paper;另一方面,理解理論原理和做好項(xiàng)目間實(shí)際非常有巨大的gap,特別是身處工業(yè)界的同仁們,學(xué)術(shù)圈值得鉆但要把握分寸,如果僅僅追逐技術(shù)深度,不免容易陷入空中閣樓。

    最后老規(guī)矩再次安利下我們team的招聘,對淘寶搜索排序和自然語言處理方向感興趣的同學(xué)歡迎郵件我 ,來淘寶,一起成長!

    以上,感謝閱讀。

網(wǎng)站首頁   |    關(guān)于我們   |    公司新聞   |    產(chǎn)品方案   |    用戶案例   |    售后服務(wù)   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區(qū)    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權(quán)所有