操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    網絡安全領域的獨特對抗屬性給人工智能應用落地帶來了重重困難,但我們并不認為這最終會阻礙人工智能成為網絡安全利器。我們嘗試分析了人工智能在網絡安全應用里的潛在困難,并試著解決它們。

    基于機器學習、深度學習的網絡安全應用研究是近年來網絡安全領域里的一個熱門研究方向。從可見的資料上來看,安全專家已經在異常進程行為檢測、惡意代碼檢測、網絡入侵檢測等方面進行了廣泛的學術研究。但是我們的直觀感受是,主流安全廠商并沒有大規模部署和使用這些技術,市面上聲稱采用的機器學習、深度學習的安全產品也相當有限。相比于機器學習、深度學習在人臉識別、推薦系統、輿情監督等方面的大規模成功應用,其在網絡安全領域表現平平必然存在某些特殊的原因。本文將深入探討機器學習、深度學習等技術在網絡安全領域的應用面對的困難及其相應對策。雖然這些困難并沒有使機器學習、深度學習成為網絡安全領域的一個不合適的工具,但這些困難卻是導致業界沒能大規模采用機器學習、深度學習技術的主要原因。同時又由于近年來媒體的報道更傾向于夸大人工智能技術的成果,而忽略它們所存在的缺陷和困難,顯得導向偏頗。對此,與決策者而言不應該只被其表面的光鮮所迷惑,而應該對人工智能技術有足夠清晰的認知,希望本文能為這方面的認知提供一個可探討的方向。

    注:為了便于下文的表述,以下的內容將采用“人工智能系統”指代依靠機器學習或是深度學習實現的安全防護或檢測系統。

    困難1 確定一個真正需要用到人工智能的任務

    人當人工智能上升為國家戰略,深度學習成為新興技術。對于公司決策層而言當前應思考在結合目前公司發展在當前階段是否真正需要用到人工智能技術。

    首先,需要對人工智能技術有足夠清晰和深入的了解。在當前階段,人工智能的實現是由數據驅動的。優秀的人工智能是建立在海量行業數據的支撐下。

    其次,人工智能開發和應用階段都是計算密集型的。雖然所需的軟、硬件計算環境與傳統的軟件開發有著很大的區別,但其帶來的好處也是相對可觀。以機器學習為代表的人工智能具備高效、自動化、可拓展的特點,極大程度上可代替人工處理日常事務。

    開啟一項人工智能項目,最大的難題是如何確定一個真正需要用到人工智能技術且可具備順利研發并落地條件的任務。

    對策

    決策者需要在了解人工智能工作機制和其優缺點的基礎上去思考并確定是否要在特定任務中運用人工智能技術。而在時機、成本、團隊、可行性、預期效果等方面則需要重點考慮。

    時機。思考在解決某特定任務時運用傳統技術是否遇到瓶頸和缺陷,進而不得不需要研發下一代技術。對此任務,除了人工智能方案是否有其他更行之有效且簡便的方法可以解決。如果沒有其他可行方案,是否已經為采用人工智能技術方案而做好了采集相關數據的工作,或隨時可以進行數據采集。只有充分思考這些問題后才能基本確定是否運用人工智能技術的作為解決問題的方案。人工智能不是萬能藥,卻是一種有效但更為復雜的靈丹。

    成本。永遠別低估人工智能系統的成本投入。無論是開發還是維護人工智能系統都需要大量的持續投入,包括算力資源投入、人力資源投入以及數據收集、整理、存儲成本投入等。很多組織沒有足夠的資金承擔這樣大規模投放,所以導致項目中途夭折,前期心血付之東流;因此在項目開始前期,需慎重思考是否有足夠的能力承擔應有的成本投入。

    團隊。人工智能系統的軟件工程團隊包括問題領域的專家(主題專家)、數據科學家、數據架構師等專業人才。這些團隊成員帶來了算法選擇、模型構建、模型定制和數據管道管理等方面的技能,而這些技能構成了人工智能系統的核心。他們共同把控著人工智能系統的性能、可伸縮性、帶寬、資源管理和版本控制等方面的高要求。

    可行性。可行性的評估需要決策者對特定任務的本質有足夠深刻的理解。某項任務能否通過人工智能技術實現自動化,基本上取決于這項任務的本質、能采集到的數據,以及這兩者之間的關系。深度學習知名人物吳恩達曾經提過一個經驗的規律:“如果一個普通人做某項任務的過程中,只需要思考不超過一秒鐘時間就可以想通計算機網絡什么是可伸縮性,那么這項任務很有可能可以用 AI技術自動化,現在或者就在不遠的將來”,那么對于網絡安全領域,如果一個專業水平在平均值以上的安全技術人員在某項任務中經過短暫的思考時間就能想通,那么這項任務大概率也可以通過AI技術實現自動化。

    預期效果。對于預期效果的預判,前提是你對自己定義的任務和問題主題理解足夠清晰。思考并確定人工智能系統可接受的性能和效率下限,以便工程師迅速接受指令并明確地向此目標優化系統。當然優化后的系統也會不可避免的出現誤報和漏報狀況,為此需要盡早確定該任務對誤報和漏報的敏感度、風險成本的承擔范圍和處置機制。人工智能系統同樣存在被繞過的風險,對抗性在網絡安全領域無處不在,為避免對抗樣本發生,怎樣保護人工智能系統免受攻擊也是一個需要提前思考的問題。

    困難2 數據泛濫,難以獲取高質量的訓練數據集

    網絡安全領域往往不缺乏數據。每天都有無數攻擊事件發生,安全廠商的后臺數據庫每天都能收錄無數的攻擊數據。但是單單依靠數據的數量不足以支撐開發一個人工智能系統,況且這些數據中不可避免存在著顯著的冗余。數據的質量才是真正人工智能的基石。當前人工智能還處于弱人工智能的發展階段,人工智能來自于從海量數據中學習規則、模式、特征和經驗。在機器學習實現的人工智能工程中,最大的性能改進一般來自于更高質量的數據,而不是更復雜的算法。對于所有人工智能系統來說,其訓練數據集的質量包括三個層面:

    一是數據的多樣性,這要求所收集的數據包含所研究范圍的各種類型數據;

    二是數據的可靠性,即數據被準確標識為是何種類型何種屬性的數據;

    三是數據的數量,即在數據采集清理加工去重后,可靠的數據的數量。數量太少則無法訓練出可靠的模型,尤其是采用深度學習等參數眾多的復雜模型的時候。

    數據的收集、清理、標注、保護、監視和維護統稱為人工智能項目的數據管理,這將貫穿著從項目立項到項目落地、維護、迭代的整個生命周期,且需消耗巨大的時間和精力,這需要占整個項目8成以上的時間。有別于其他領域,網絡安全領域的人工智能系統項目的數據管理,其成本和難度更大,主要是因為以下原因:

    1. 變化的環境。變化的環境一方面體現在業務的多樣性,導致的是白樣本的多樣性;另一方面體現在對抗環境下,導致的是惡意樣本的對樣性;

    2. 私有、公開數據少,且公開數據有效性不好。因為不同場景不同用戶的數據有差異,公開的數據的場景和你所面對的環境和場景可能差異巨大而不可用。算法工具通常是開源的,但是好的數據集通常是專有的。安全領域更是如此。安全廠商傾向于“隱藏”與安全相關的數據,因此通常無法獲得具有代表性的準確標記數據(尤其是涉及流量數據)。擁有龐大優質的特定領域數據集可以成為競爭優勢的重要來源。

    3. 數據加工清洗標注專業性高。標注人臉識別、貓狗分類、垃圾郵件等任務的數據,但凡受過基礎教育的人就能勝任,而網絡安全則屬于專業性高的行業,標注網絡安全檢測相關數據集需要專業的安全工程師才能勝任。

    4. 黑樣本種類稀缺,難以集全。這對于后續系統的可靠性造成很大的影響。IBM的腫瘤專家顧問系統 for 由于提出的治療方案及其相關建議不安全,被迫終止。經過研究人員研究發現,正是由于該軟件只針對少數假設癌癥患者---而非實際患者數據訓練而成,采用的黑樣本種類稀少,因此在可靠性方面存在嚴重的問題。在網絡安全領域,如果數據的黑樣本不夠全面將導致類似的可靠性問題。

    5. 數據的非結構性。網絡安全領域所要處理的數據無論是網絡流量、惡意代碼還是惡意文件,大多都是非結構化的數據,對此數據的加工處理比結構化數據要復雜困難。

    6. 數據清洗,自動化困難,工具少。

    對策

    1.商業合作框架下的數據資料共享

    當然這前提是自己已經有相當的數據積累,合作共享才會成為可能,在網絡安全領域的數據共享要避免觸犯《網絡安全法》等法律法規;

    2.依賴現有檢測工具實現一定程度的自動化數據采集與標注

    現有的威脅檢測工具對于相應的任務必然還是有相當的檢測能力的,如果將其改造為自動化標注工具則可對應解決此問題;

    3.隨時應變,因地適宜

    對于先收集數據還是先確定任務課題的問題,沒有標準答案,不同組織選擇可能不一樣。有的組織在收集到大量數據后才去考慮能用這些數據做什么,有的組織先確定任務,列出所需的數據類型,再收集這些數據。對此順序只要是可行的都是可以的。

    困難3 需要付出昂貴的出錯成本

    在網絡安全領域,人工智能往往應用于風險檢測。與許多其他人工智能應用相比,風險檢測出錯的相對代價非常高。誤報需要分析師花費昂貴的時間去核查所報告的風險事件,以確定它是否是良性的。即使是很小的誤報率也會使風險監測系統失去實用性。如表1所示,假設我們開發出了一個準確率高達99%的風險監測模型,這樣的準確率已在眾多人工智能系統中屬于高水準程度。那么,設想我們在某場景下部署了該模型,部署期間產生良性事件樣本個,惡性事件樣本100個,這是相對合理的設想,風險事件的發生相比于正常事件總是極小概率事件。而在這基礎上,將會發生9999起錯誤的告警,這將導致一系列后果:輕則耗費分析師的時間成本,重則可能影響業務系統的正常運行。

    事件總數告警次數識別為良性

    真惡意事件

    100

    99(正確的告警)

    真良性事件

    9999(錯誤的告警)

    表1:某99%準確率檢測系統告警數量

    一方面,漏報產生的損害是直接的。繞過檢測的風險可能對受防護的系統產生直接的損害,影響正常業務的開展,甚至會嚴重損害IT基礎設施。我們認為如此高的出錯成本是安全廠商需謹慎使用機器學習技術的最大原因。對此讓我們進一步對比人工智能在其他領域產生錯誤分類的影響,相比之下可能會更有啟發。

    電商的推薦系統是運用人工智能最成功的領域之一。推薦系統很容易容忍錯誤,因為這些錯誤不會產生直接的負面影響。雖然對賣家來說好的推薦有可能增加銷售額,但壞的建議除了失去交易機會需要做出更具誘惑力的推薦策略外,對于消費者而言并沒有任何的傷害。

    OCR技術相比之下也更容易容忍錯誤。通常可以用拼寫和語法檢查來剔除明顯的錯誤,使用統計語言模型將概率與結果聯系起來并對OCR系統的初始輸出進行后處理。此外,用戶還接受了培訓,這可保證當輸出文本有差異時,一定程度上可以讓用戶進行人工校對。相比手動驗證安全事件告警,驗證校對文字的識別結果并不需要專業的知識,這相比驗證安全告警的成本和難度都低得多。

    在不同行業不同場景中,人類對于人工智能在概率表現方面的期望值有所不同(在安全行業期望值高容錯率低),這也是造成人工智能產品或技術在網絡安全領域普及不夠廣泛的原因。總的來說,網絡安全檢測系統對錯誤數據的容忍更加嚴格,其他領域運用人工智能是在做加法,而網絡安全領域運用人工智能更像是在做減法,挑戰更加巨大。

    特征提取方法提取難度識別準確率

    字節碼的n-grams特征

    容易實現,成本低

    60-80%

    需要反編譯文件,中等工作量和成本

    85-95%

    執行的API調用

    工作量大,計算時間長

    90-95%

    表2:某惡意軟件檢測算法研究的預測精度

    另一個挑戰是模型復雜度與效率的矛盾。一般來說為了得到較低出錯率的模型,模型的復雜度就不能太低計算機網絡什么是可伸縮性,這樣相應的復雜模型的運算量也較大。天下沒有免費的午餐,如表2所示,更深入本質的特征雖然能帶來更好的準確率,但是獲取難度大,效率低。兩者之間的取舍是一個巨大的挑戰,尤其在安全風險監測系統,往往要求對風險能夠快速實時響應。

    對策

    限制誤報量是任何威脅檢測系統的首要任務。朝著減少錯誤的方向邁出的最重要的一步是縮小系統的范圍,也就是定義一個明確的檢測目標。沒有一個明確的目標,任何威脅檢測系統都無法在不影響其檢測率的情況下,獲得可容忍的誤報量。另外,使用更粗粒度的特征在適當的時間間隔內聚合或平均特征對于減少誤報也是有用的。最后,我們可以通過在附加信息的支持下對它們進行后處理來減少誤報。如果我們發現自動化后處理是不可行的,我們仍然可以通過向分析員提供額外的信息來加速人工檢查過程,從而降低出錯成本。

    困難4 對抗環境

    人工智能系統本身就是一個軟件系統,難免存在可利用的漏洞,也是被攻擊的天然目標,尤其是作為網絡安全檢測防護系統的一份子的時候,可以認為是處于對抗環境中。相比之下,OCR系統的用戶不會試圖在輸入中添加干擾,甚至會主動提供更高質量的輸入數據;淘寶用戶也不會有太多的動機去誤導商品推薦系統,這對他們毫無意義。然而在網絡安全領域則恰恰相反,那些破壞、繞過、欺騙人工智能檢測系統攻擊者為了能夠達到他們入侵的目的,他們有充分的動機。至少能從三個層面體現在對抗環境下機器學習系統的風險。

    數據層面,典型的是投毒攻擊。投毒攻擊( )主要是對人工智能系統在訓練模型時對需要的訓練數據進行投毒,是一種破壞模型可用性和完整性的誘發型攻擊。攻擊者通過注入一些精心偽造的惡意數據樣本,這些樣本通常帶有錯誤的標簽和攻擊的性質,用于破壞原有的訓練數據的概率分布,從而使訓練出的模型的分類或者聚類精度降低,達到破壞訓練模型的目的。由于實際中應用人工智能系統的原始訓練數據大多是保密的,一般不會被攻擊者輕易修改,但很多系統為了增強適應能力需要定期收集新數據,進行重新訓練實現模型更新,這時也就給了攻擊者可趁之機。

    圖 1:一種投毒攻擊示意圖

    模型層面,模型的繞過風險,即存在對抗樣本攻擊。攻擊者通過產生一些可以繞過人工智能檢測系統的對抗樣本,這些是可以成功地逃避安全系統檢測的對抗樣本,實現對系統的惡意攻擊,給系統的安全性帶來嚴重威脅。作為安全風險檢測模型的存在的時候,人工智能系統的模型的輸入數據變化很大,具有易變性。我們很難限制待檢測的惡意軟件的大小,沒有理由限制待檢測的惡意代碼樣本的行數,沒辦法限制要檢測的網絡流量的數據包內容,因此這就給了對抗樣本更大的發揮空間。這個層面的對抗是最容易發生的,也是人工智能檢測系統在對抗中最薄弱的環境,對抗之下會產生層出不窮的新攻擊手法、攻擊樣本,因此網絡安全領域應用的模型的迭代頻率要比其他領域要高得多。試想,千百年以后,今天訓練的貓狗分類模型到那時候也許還能用,但是對應的惡意軟件、木馬文件、攻擊流量也在當前模型的能力范圍之外產生了多個新形式。

    框架層面,深度學習框架通常是包含數十萬代碼和眾多依賴的復雜軟件,幾乎不可避免地存在已知或未知的bug。在國家信息安全漏洞庫,能查到2019年上報的相關漏洞信息8個(如圖2所示)。Torch、Caffe等框架也存在漏洞,以及這些框架的常見依賴包numpy、等均存在不少漏洞。對此,相關的安全研究已經復現了這些漏洞將會造成的拒絕服務、繞過檢測和系統危害等風險。

    圖 2:歷史漏洞

    所以,網絡安全領域持續進行著一場軍備競賽:攻擊者和防御者各自改進他們的工具和技術,以應對另一方設計的新技術。

    對策

    使用人工智能技術對于攻擊者而言實際上是帶來更多攻擊面如算法、數據等。

    在防護方面,可以考慮以下幾點:

    1. 對模型的輸入做嚴格限制,設置進入模型的樣本過濾條件。過濾條件根據任務的專業領域知識和模型訓練過程中的設置總結。比如,某識別php類型的模型可將輸入設置為文件后綴.php或.txt且內容包含

網站首頁   |    關于我們   |    公司新聞   |    產品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有