操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    最近在梳理中文文本糾錯任務,文本根據搜集到的文章整理成的任務簡介,在此先感謝大佬們分享的高質量資料。

    任務簡介

    中文文本糾錯是針對中文文本拼寫錯誤進行檢測與糾正的一項工作,中文的文本糾錯,應用場景很多,諸如輸入法糾錯、輸入預測、ASR 后糾錯等等,例如:

    圖片來源---百度大腦AI開放平臺-文本糾錯:/tech//

    中文拼寫常見錯誤類型錯誤類型示例

    同音字相似錯誤

    強烈推薦-墻裂推薦、配副眼睛-配副眼鏡

    近音字相似錯誤

    cmi碼怎么畫_cmi碼是否可以糾錯_rs碼糾錯性能

    牛郎織女-流浪織女

    字形相似錯誤

    頑強拼搏-頑強拼博

    詞序混亂

    兩戶人家-兩家人戶

    缺字少字

    浩瀚星海-浩瀚星

    中文全拼拼寫

    天下-

    中文首字母縮寫

    北京-bj

    rs碼糾錯性能_cmi碼是否可以糾錯_cmi碼怎么畫

    中文簡拼

    明星大偵探-明偵

    語法錯誤

    無法言說-言說無法

    我們把中文常見錯誤總結分為三類: 1、用詞錯誤,由于輸入法等原因導致的選詞錯誤,其主要表現為音近,形近等; 2、文法/句法錯誤,該類錯誤主要是由于對語言不熟悉導致的如多字、少字、亂序等錯誤,其錯誤片段相對較大; 3、知識類錯誤,該類錯誤可能由于對某些知識不熟悉導致的錯誤,要解決該類問題,通常得引入外部知識、常識等。

    當然,針對確定場景,這些問題并不一定全部存在,比如輸入法中需要處理1234,搜索引擎需要處理,ASR 后文本糾錯只需要處理12,其中5主要針對五筆或者筆畫手寫輸入等。

    主流技術

    中文本糾錯的 paper 很多,整體來看,可以統一在一個框架下,即三大步:

    該階段主要目的在于,判斷文本是否存在錯誤需要糾正,如果存在則傳遞到后面兩層。這一階段可以提高整體流程的效率。

    錯誤識別/檢測的目標是識別輸入句子可能存在的問題,采用序列表示(/LSTM)+CRF的序列預測模型,這個模型的創新點主要包括: 1、詞法/句法分析等語言先驗知識的充分應用; 2、特征設計方面cmi碼是否可以糾錯,除了DNN相關這種泛化能力比較強的特征,還結合了大量hard統計特征,既充分利用DNN模型的泛化能力,又對低頻與OOV(Out of )有一定的區分; 3、最后,根據字粒度和詞粒度各自的特點,在模型中對其進行融合,解決詞對齊的問題

    rs碼糾錯性能_cmi碼怎么畫_cmi碼是否可以糾錯

    候選召回指的是,識別出具體的錯誤點之后cmi碼是否可以糾錯,需要進行錯誤糾正,為了達到更好的效果以及性能,需要結合歷史錯誤行為,以及音形等特征召回糾錯候選。主要可分為兩部分工作:離線的候選挖掘,在線的候選預排序。離線候選挖掘利用大規模多來源的錯誤對齊語料,通過對其模型,得到不同粒度的錯誤混淆矩陣。在線候選預排序主要是針對當前的錯誤點,對離線召回的大量糾錯候選,結合語言模型以及錯誤混淆矩陣的特征,控制進入糾錯排序階段的候選集數量與質量。

    該階段主要目的在于,利用一種或多種策略(規則或模型),生成針對原句的糾正候選。這一階段是整體流程召回率的保證,同時也是一個模型的上限。

    該階段主要目的在于,在上一階段基礎上,利用某種評分函數或分類器,結合局部乃至全局的特征,針對糾正候選進行排序,最終排序最高(如沒有錯誤識別階段,則仍需比原句評分更高或評分比值高過閾值,否則認為不需糾錯)的糾正候選作為最終糾錯結果。

    中文文本糾錯評測數據集

    SIGHAN Bake-off 2013: [http://ir.itc.ntnu.edu.tw/lre/sighan7csc.html](http://ir.itc.ntnu.edu.tw/lre/sighan7csc.html)
    SIGHAN Bake-off 2014 : [http://ir.itc.ntnu.edu.tw/lre/clp14csc.html](http://ir.itc.ntnu.edu.tw/lre/clp14csc.html)
    SIGHAN Bake-off 2015 : [http://ir.itc.ntnu.edu.tw/lre/sighan8csc.html](http://ir.itc.ntnu.edu.tw/lre/sighan8csc.html)
    

    rs碼糾錯性能_cmi碼怎么畫_cmi碼是否可以糾錯

    中文輸入糾錯的評測數據主要包括 Bake-off 2013/2014/2015這三個數據集,均是針對繁體字進行的糾錯。其中,只有 Bake-off 2013是針對母語使用者的,而另外兩個是針對非母語使用者。

    評價指標

    這里主要羅列一下常用的評測指標。在錯誤識別子任務中,常用的評測指標有:

    雖然文本糾錯具體會分為錯誤識別和錯誤修正兩部分,并分別構造評價指標。但考慮到端到端任務,我們評價完整的糾錯過程:

    相關方法相關論文

    整理來自:////

    在上提交至的相關稿件有:

    簡單總結一下目前CSC的方法:

    最新技術

    技術方案 : A Fast, , , Spell Based On DAE-

    code: /iqiyi/

    cmi碼怎么畫_cmi碼是否可以糾錯_rs碼糾錯性能

    技術方案 : and into for Check

    code: //

    技術方案: Error with Soft- BERT

    code: //

    技術方案 as a

    中文糾錯的開源項目 //

    中文文本糾錯工具。支持中文音似、形似、語法錯誤糾正,開發。實現了Kenlm、、BERT、、、ERNIE、等多種模型的文本糾錯,并在數據集評估各模型的效果。

    //

    大致思路:

    //

    //

    //

    參考資料

網站首頁   |    關于我們   |    公司新聞   |    產品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有