容風險的防控,又叫內容審核或內容安全,越發受到各類電商、直播、媒體等平臺的重視,隨著大量UGC內容的爆炸式增長,一些違規內容也隨之橫行,不僅為平臺的營銷、經營及品牌造成極大傷害,更為嚴重的是一些違規內容也會涉及棘手的法律問題。近年來,不乏知名電商、直播和媒體等平臺因此而慘遭下架。
事實上,違規內容的處理難度遠比人們想象復雜得多,違規內容的形態千變萬化,包括但也不限于黃賭毒、低俗辱罵、惡意灌水、暴力恐怖、反動言論等,對各類平臺的內容風險防控提出極大的挑戰。
一般來講,違規主體大致可分為非惡意違規用戶、惡意違規用戶和惡意違規團伙等幾類。
非惡意違規的用戶相對來說會更好處理,惡意違規的用戶或惡意違規的團伙則相對棘手很多,因為其目的不純粹,且還運用了大量的先進技術。所以通常會存在各種對抗的過程,除了從單元素(單純文本/圖片/語音等)展現上的變形外,甚至會有明顯的遷移過程,從圖文到音頻視頻等,甚至還有多元素的結合發送違規內容。
這里說的用戶和團伙的概念都是指邏輯上的團伙,比如現實物理上的人借助上中游的黑產工具實現的批量對抗方式,在實際業務中往往也是體現出團伙的屬性。特別地,“色情流”產業鏈、“賭博流”產業鏈、外掛引流、境外勢力等操控的實際個人或者團伙,在進行內容發布時都會有顯性或者隱性的團伙特征出現。
基于此,國內第三方智能風控與分析決策服務提供商,同盾科技打造了內容安全智能平臺,內容安全智能平臺是同盾反欺詐服務的核心產品之一,其中主要包括圖像內容安全服務和文本內容安全服務。
同盾內容安全智能平臺
同盾內容安全智能平臺基于自然語言處理、語言識別、語義理解、圖像分類、目標檢測、深度學習等核心技術,面向銀行、互金、保險、證券、互聯網等客戶群體,提供包括文本、圖像、音頻、視頻等泛內容安全識別,全面提升企業智能化、批量化UGC等內容綜合處理能力、為企業構建牢不可破的安全防御體系。
文本內容安全
文本安全防控體系是內容安全智能平臺重要的組成部分,結合深度學習算法、政策權威指令等,能全面解決諸如跳詞檢測、誤匹配矯正、火星文識別、組合詞識別、同音詞識別、形近字識別等問題。
并精準識別垃圾源頭,及時主動推送風險,幫助客戶防范涉政、涉黃、涉暴、垃圾廣告等違規風險,提供安全保障,其優勢主要體現在以下幾個方面:
算法優勢:針對海量的文本語料,對AI算法進行系統的訓練學習,使得同盾內容安全文本的對廣告、涉黃、辱罵、違禁等文本準確率和覆蓋率,達到當前的業界的先進的水平。
使用機器學習和深度學習算法,進行關鍵詞的挖掘。確保關鍵詞及其變異體覆蓋面廣泛。
關鍵詞:同盾多行業積累下的海量關鍵詞庫,這是防控體系下最重要、也是最高效的一環。由于數據量巨大,文本防控對實時響應又有極高要求,所以在基于DAT雙數組結構的基礎上,結合了其他算法作了定制化構建。另一方面,詞庫通過權威政策指令下發、新詞挖掘算法等各種途徑,可不斷進化擴容。
使用cnn、lstm、基于注意力的attention、bert等前沿深度學習算法,對神經網絡的相對調整。每一個分類都有自己對應獨立的神經網絡算法。從而確保每個業務和場景分類,都能滿足需求。
此外,同盾文本安全防控體系還有以下特點:
1.配置靈活:基于定制化分詞、感知詞法分析、命名實體識別、自動摘要、關鍵短語提取、依存句法分析、語義距離判定、淺層情感分析等一系列自然語言處理技術,針對不同行業不同場景實現松緊相宜、靈活配置的策略體系。
2.性能卓越:可承受單日千萬級數據的處理,支持數據高峰時段彈性擴容,檢測結果毫秒級返回;
圖像內容安全
圖像作為典型的富文本承載形式,在防控上較文本也會更具挑戰性。
1、圖像預處理系統,包括常規格式支持及特殊格式的解碼轉換,如基于谷歌V8引擎的WEBP格式、標簽圖像TIFF格式、動態GIF格式等的支持,同時也具有圖像降燥、數據增強、歸一化等處理。
2、圖像黑白相似樣本庫,通過矩陣算法生成圖像sim指紋,構建高效前置索引,形成海量典型樣本庫,實現批量范圍內特征圖像及時高效防控。
3、基于tensorflow、caffe等深度技術所構建的圖像深度學習平臺,孵化出涵蓋涉黃、暴恐、涉政治、文字廣告四大類模型識別服務。其中包括大小尺度性感、兒童、成人等10余種涉黃場景;武器、血腥、游行、軍裝、符號等幾十種細分暴恐場景;覆蓋上百位重要政治人物及政治事件;通過OCR技術,精準識別包括廣告、二維碼在內的各種內嵌文字信息。
同盾科技的圖像內容安全服務采用深度學習技術,運用了先進的GAN算法和無監督的決策邊界擬合,基于強大的學習能力能有效幫助網站識別色情圖片以及轉化為圖片的文字廣告信息,防治垃圾信息傳播以及潛在的詐騙風險,以減少網站內容風險和人工審核成本。同時結合同盾文本內容安全以及帳號安全保護產品,讓垃圾信息無處藏身。
同盾科技內容安全服務的基礎是圖像識別及文本識別的人工智能技術,此技術能為圖像和文本反欺詐及其他場景提供強大的深度學習算法和算力保證。經過多年的努力,同盾已完全自主具備了強大的技術能力,擁有圖像識別、文本識別及語音交互的人工智能技術,沉淀了包括機器學習平臺、決策引擎、流式計算平臺等一系列的基礎平臺。
同盾科技內容安全產品通過了由中國信息通信研究院牽頭組織的內容安全解決方案標準資質認證,成為首批通過認證的三家企業。
同盾內容安全智能平臺目前已服務各行業大量客戶,與央視網、21財經等都建立了合作關系,并獲得工信部首批資質認證。同盾愿意與更多企業攜手,為打造一個更加安全、健康的網絡環境而努力。
內容風險的防控,又叫內容審核或內容安全,越發受到各類電商、直播、媒體等平臺的重視,隨著大量UGC內容的爆炸式增長,一些違規內容也隨之橫行,不僅為平臺的營銷、經營及品牌造成極大傷害,更為嚴重的是一些違規內容也會涉及棘手的法律問題。近年來,不乏知名電商、直播和媒體等平臺因此而慘遭下架。
事實上,違規內容的處理難度遠比人們想象復雜得多,違規內容的形態千變萬化,包括但也不限于黃賭毒、低俗辱罵、惡意灌水、暴力恐怖、反動言論等,對各類平臺的內容風險防控提出極大的挑戰。
一般來講,違規主體大致可分為非惡意違規用戶、惡意違規用戶和惡意違規團伙等幾類。
非惡意違規的用戶相對來說會更好處理,惡意違規的用戶或惡意違規的團伙則相對棘手很多,因為其目的不純粹,且還運用了大量的先進技術。所以通常會存在各種對抗的過程,除了從單元素(單純文本/圖片/語音等)展現上的變形外,甚至會有明顯的遷移過程,從圖文到音頻視頻等,甚至還有多元素的結合發送違規內容。
這里說的用戶和團伙的概念都是指邏輯上的團伙,比如現實物理上的人借助上中游的黑產工具實現的批量對抗方式,在實際業務中往往也是體現出團伙的屬性。特別地,“色情流”產業鏈、“賭博流”產業鏈、外掛引流、境外勢力等操控的實際個人或者團伙,在進行內容發布時都會有顯性或者隱性的團伙特征出現。
基于此,國內第三方智能風控與分析決策服務提供商,同盾科技打造了內容安全智能平臺,內容安全智能平臺是同盾反欺詐服務的核心產品之一,其中主要包括圖像內容安全服務和文本內容安全服務。
同盾內容安全智能平臺
同盾內容安全智能平臺基于自然語言處理、語言識別、語義理解、圖像分類、目標檢測、深度學習等核心技術,面向銀行、互金、保險、證券、互聯網等客戶群體,提供包括文本、圖像、音頻、視頻等泛內容安全識別,全面提升企業智能化、批量化UGC等內容綜合處理能力、為企業構建牢不可破的安全防御體系。
文本內容安全
文本安全防控體系是內容安全智能平臺重要的組成部分,結合深度學習算法、政策權威指令等,能全面解決諸如跳詞檢測、誤匹配矯正、火星文識別、組合詞識別、同音詞識別、形近字識別等問題。
并精準識別垃圾源頭,及時主動推送風險,幫助客戶防范涉政、涉黃、涉暴、垃圾廣告等違規風險,提供安全保障,其優勢主要體現在以下幾個方面:
算法優勢:針對海量的文本語料,對AI算法進行系統的訓練學習,使得同盾內容安全文本的對廣告、涉黃、辱罵、違禁等文本準確率和覆蓋率,達到當前的業界的先進的水平。
使用機器學習和深度學習算法,進行關鍵詞的挖掘。確保關鍵詞及其變異體覆蓋面廣泛。
關鍵詞:同盾多行業積累下的海量關鍵詞庫,這是防控體系下最重要、也是最高效的一環。由于數據量巨大,文本防控對實時響應又有極高要求,所以在基于DAT雙數組結構的基礎上,結合了其他算法作了定制化構建。另一方面,詞庫通過權威政策指令下發、新詞挖掘算法等各種途徑,可不斷進化擴容。
使用cnn、lstm、基于注意力的attention、bert等前沿深度學習算法,對神經網絡的相對調整。每一個分類都有自己對應獨立的神經網絡算法。從而確保每個業務和場景分類,都能滿足需求。
此外,同盾文本安全防控體系還有以下特點:
1.配置靈活:基于定制化分詞、感知詞法分析、命名實體識別、自動摘要、關鍵短語提取、依存句法分析、語義距離判定、淺層情感分析等一系列自然語言處理技術,針對不同行業不同場景實現松緊相宜、靈活配置的策略體系。
2.性能卓越:可承受單日千萬級數據的處理,支持數據高峰時段彈性擴容,檢測結果毫秒級返回;
圖像內容安全
圖像作為典型的富文本承載形式,在防控上較文本也會更具挑戰性。
1、圖像預處理系統,包括常規格式支持及特殊格式的解碼轉換,如基于谷歌V8引擎的WEBP格式、標簽圖像TIFF格式、動態GIF格式等的支持,同時也具有圖像降燥、數據增強、歸一化等處理。
2、圖像黑白相似樣本庫,通過矩陣算法生成圖像sim指紋,構建高效前置索引,形成海量典型樣本庫,實現批量范圍內特征圖像及時高效防控。
3、基于tensorflow、caffe等深度技術所構建的圖像深度學習平臺,孵化出涵蓋涉黃、暴恐、涉政治、文字廣告四大類模型識別服務。其中包括大小尺度性感、兒童、成人等10余種涉黃場景;武器、血腥、游行、軍裝、符號等幾十種細分暴恐場景;覆蓋上百位重要政治人物及政治事件;通過OCR技術,精準識別包括廣告、二維碼在內的各種內嵌文字信息。
同盾科技的圖像內容安全服務采用深度學習技術,運用了先進的GAN算法和無監督的決策邊界擬合,基于強大的學習能力能有效幫助網站識別色情圖片以及轉化為圖片的文字廣告信息,防治垃圾信息傳播以及潛在的詐騙風險,以減少網站內容風險和人工審核成本。同時結合同盾文本內容安全以及帳號安全保護產品,讓垃圾信息無處藏身。
同盾科技內容安全服務的基礎是圖像識別及文本識別的人工智能技術,此技術能為圖像和文本反欺詐及其他場景提供強大的深度學習算法和算力保證。經過多年的努力,同盾已完全自主具備了強大的技術能力,擁有圖像識別、文本識別及語音交互的人工智能技術,沉淀了包括機器學習平臺、決策引擎、流式計算平臺等一系列的基礎平臺。
同盾科技內容安全產品通過了由中國信息通信研究院牽頭組織的內容安全解決方案標準資質認證,成為首批通過認證的三家企業。
同盾內容安全智能平臺目前已服務各行業大量客戶,與央視網、21財經等都建立了合作關系,并獲得工信部首批資質認證。同盾愿意與更多企業攜手,為打造一個更加安全、健康的網絡環境而努力。