遇到這個情況我們也很想幫忙找回文檔,但由于文檔都只存在了電腦本地,加上沒有開啟WPS云同步,所以最后很遺憾,我們沒有幫到梁先生恢復這些文件。
如果我們開啟了WPS云同步的話,那么結果會是怎樣呢?
是的,就是這么神奇,開啟文檔云同步后,使用WPS打開過的文檔都可自動備份到云端,當本地文件被誤刪時,或者說電腦無法開機等這些情況也可以使用其他設備在WPS中快速找回備份到云端的文件,所以我們再也不用慌了。
除了自動備份,它還有其他本領嗎
當然是有的,在這之前我們先來看看下面這個情況:
是不是很熟悉?如果沒有使用WPS云服務,在我們要多人協作編輯時都習慣在群內發送附件,然后大家更新完再重新發送給領導,員工麻煩不說,負責匯總數據的領導工作量也不低。
▍如果使用WPS云服務會怎樣?
1. WPS內打開表格,點擊左上角「文件-分享」;
2. 這里可以根據您的需求,選擇對方只可查看,還是能與您一起編輯;
3. 將獲得的鏈接直接發給同事,同事使用瀏覽器打開鏈接,登錄賬號就可以實現多人實時編輯。
省去了什么麻煩:
● 省去手動保存到桌面再發送到群里的麻煩;
● 省去同事下載、保存再次發回給領導的麻煩;
● 省去領導一份份打開匯總的時間;
帶來了什么好處:
● 多人實時編輯,大家編輯的內容實時同步更新;
(例:可以看到A同事正在編輯哪個單元格,編輯了什么)
● 文檔實時自動保存,再也不怕忘記保存了;
● 歷史版本、協作編輯記錄均可回溯,填錯什么的再也不用擔心。
提示:上述效果需要所有人使用瀏覽器網頁端訪問文檔鏈接進行編輯。
這個功能可以說是小W最愛的功能了,多人編輯的時候真的巨方便,你不妨也可以試試,免費使用哦。
魔法般的功能還有哪些
▍文檔多端同步
回到家,老板臨時通知要修改報表,開啟云同步后,直接使用手機WPS App登錄回WPS賬號,就可以打開在公司編輯過的報表,輕松應對老板的臨時任務。
▍文檔歷史版本可找回
開啟云同步后,自動保存文檔的歷史版本,文檔多次修改,也可以一鍵恢復文檔之前編輯的版本!
填錯數據不小心保存覆蓋什么的再也不怕了。
如何開啟WPS云同步服務
打開WPS,在首頁-設置處,就可以一鍵開啟文檔云同步。
小技巧
▍文檔沒保存在云文檔內怎么恢復歷史版本?
● 任意打開一份文檔,點擊左上角「文件-備份與恢復-備份中心」;
● 進入后選擇「本地備份」即可查找同名文檔來恢復之前編輯過的版本;
提示:如出現忘記保存、電腦突然關機或斷電等情況導致文檔沒保存,都可以嘗試進入備份中心查找備份哦。
溫馨提示:
● 文件避免只保存在本地,如設備出現故障,本地文檔很容易丟失而且難以恢復;
● 避免直接在U盤打開文件編輯保存,如在保存過程中因U盤連接不良等情況可能會導致文件損壞。
者 | 王浪、陳啟賢
結合當下流行的 NLP 等人工智能相關技術,金山辦公軟件有限公司武漢 AI 部門自主研發了 WPS 智能輔助寫作平臺。利用意圖識別、文本聚類等語義匹配算法,該平臺實現了 AI 輔助用戶寫稿創作,并具備公文模板、素材推薦和輔助生成等特色功能,同時還實現了公文素材的海量收集,數據規模達到千萬級文章、百萬級提綱和段落。
在 WPS 智能輔助寫作平臺重要組成部分的素材推薦模塊中,基于 Milvus 的向量處理模塊作為核心功能,發揮了極其重要的作用,其目標是在海量的文本中高效提取、存儲高質量公文素材,并針對不同用戶需求進行精準推薦。
本案例的素材推薦服務按模塊可以分為數據處理模塊和編碼存儲模塊以及推薦查詢模塊。涉及到 Milvus 向量數據庫的主要是編碼存儲模塊以及推薦查詢模塊。
數據處理模塊主要分為數據清洗、提綱及段落抽取,從海量數據中得到篩選后的提綱、段落數據。
編碼存儲模塊則涉及到文本編碼和向量存儲兩部分。文本編碼通過深度學習方法得到 256 維高維向量,再將向量及其對應的原文 id 等信息插入 Milvus 向量數據庫,并按照 Milvus 提供的索引建立方法 IVFFLAT 對每條數據建立索引。
推薦查詢模塊則根據用戶輸入等搜索條件進行編碼得到輸入搜索向量,在 Milvus 向量數據庫中使用官方提供的相似度計算方法 (L2 距離) 進行最近鄰搜索,返回粗召回的向量和原文 id 等,再通過畫像、模型等進行精準排序推薦。
在數據處理模塊,所用方法主要涉及到特征工程、正則匹配及 NLP 模型打分等。
文檔是人類使用復雜語義的代表,從字到詞、句子、段落和文章,多層次分布著大量的語義信息。對文檔建立特征工程,是最大化提取語義特征的有效途徑之一。
結合實際文本數據,本案例選擇從詞匯、句子等多級別出發,建立文檔的詞匯特征和語句特征。
在詞匯特征級別上,經過分詞建立語料詞庫,再通過 TF-IDF 算法,
計算單詞頻率項 (TF):
以及逆文檔頻率項 (IDF):
得到 TF-IDF 值:
經過排序提取出文檔關鍵詞。
同時考慮到對象文本含有大量的人名、機構名稱等實體詞匯,這些實體在排序召回尤其是精準排序時發揮了巨大作用,因此采用深度學習模型:BLSTM-CNNs-CRF 對文檔中的實體詞進行抽取。
BLSTM-CNNs-CRF 模型可以分為三個部分,首先在字符級別嵌入 (Char Embedding) 的基礎上,使用 CNN 模型對每個單詞計算其字符級別表示 (Char Representation),再將該結果連接到單詞級別嵌入向量 (Word Embedding),輸送到雙向長短期記憶網絡 (BLSTM),最后將 BLSTM 的輸出反饋到條件隨機場 (CRF),共同解碼最佳標簽序列。
在語句特征級別上,本案例使用 TextRank 抽取文檔中表達觀點的摘要性句子作為文檔關鍵句,TextRank 算法作為一種抽取式的無監督的文本摘要方法,借鑒了用于對在線搜索結果中的網頁進行排序的 PageRank 算法,通過分割文本、向量化并建立圖模型, 利用轉移概率矩陣對文本語句進行排序, 在文檔內部實現了關鍵句抽取。
同時本案例還訓練了一個 TextCNN 模型用于提取文檔中的高質量段落和語句,將抽取任務看作分類任務,為了更好的捕捉語句之間的局部相關性,本案例在使用預訓練的詞向量 (Word2Vec) 基礎上,利用多個不同大小 (Size) 的卷積核 (Kernel),實現語句對單詞的強關聯。
TextCNN 主要分為嵌入層 (Embedding)、卷積層 (Convolution)、池化層 (MaxPooling) 和全連接輸出層 (Full-Connection and Softmax),作為常用的文本分類算法之一,其優勢體現在結構簡單,效果良好,可擴展性強。
在編碼存儲模塊,編碼主要使用語義理解模型,在存儲中主要用到了索引 Index 組件。
在編碼部分,傳統的語句嵌入多使用無監督方法,然而這些方法在處理長語句時不夠魯棒。在本案例場景下,采用了有監督訓練方法的語句嵌入模型中的 Infersent 模型,盡可能對句子進行通用表征。
作為有監督模型,Infersent 選取 SNLI 作為分類任務,通過設計好的編碼器 (Encoder) 對句子對 (text, hypothesis) 進行編碼得到其對應的特征向量 U、V,經過連接、差值和內積后得到分類所用的特征,經過全連接層和 Softmax 層后輸出對應分類 (Judgements),在訓練完成后即可通過 Encoder 得到語句的編碼向量。
在索引部分,IndexFlatL2 索引是作為針對歐式距離計算設計的暴力搜索索引,但考慮到際應用場景,本案例選擇了在 IndexFlatL2 索引基礎上添加聚類的 IVF-FLAT 索引,通過劃分搜索空間,在查詢時檢索某幾個聚類,大大加快了整體速度。
本案例也用到了 Milvus 的分區功能,為數據劃分不同的種類,使得查詢變得更加快速和準確。
線上服務部分主要使用 K8s 共享集群,同時考慮具體數據內容,選擇 mysql 保存元數據信息,沒有使用默認的 SQLite,側面也反映了 Milvus 組件的靈活性。
目前部署于 0.6.0-CPU 版本 Milvus 向量數據庫約有 200 萬文本,用于支持 WPS 智能輔助寫作微信小程序搜索,同時正在處理增加數據,預計可以達到千萬級規模語料。
在響應時間方面,本案例使用共享集群,計算資源被其他應用所共享,因此本案例的數據只能作為參考標志,在目前的版本中單次單條服務總體響應時間平均達到 0.2s。
在面向黨政領域的素材智能推薦功能上,意圖識別準確率達 80% 以上,用戶素材引用率達 40%;在面向公文領域的輔助生成功能上,實現了多類法定公文的寫作模板和輔助創作,并支持一鍵生成全文。
以 WPS 智能輔助寫作網頁客戶端為例,現支持工作總結、心得體會以及評論觀點等 9 類常見公文類型的輔助寫作,輔助功能則主打一鍵全文和智能生成功能。一鍵全文功能通過對標題、關鍵詞的意圖理解,通過相關推薦算法選擇合適的提綱和段落,生成一篇完整的文章供用戶修改使用。而特色的智能生成功能則先初步為用戶提供多篇可更換的提綱段落,同時在用戶修改創作過程中,通過 AI 生成算法對選中字段結合上下文語境生成適度文字段落供用戶引用和發散思維,達到以人為主、輔助創作的效果。
WPS 智能輔助寫作平臺微信小程序在相關公文功能的基礎上,開發了諸如詩詞創作、信件模板推薦等實用功能,同時引入了寫作社區,方便用戶開拓視野、分享創作,以文交友,進一步提升寫作體驗。
起排版,我們往往首先會想到文字段落設置、插入圖片、表格等操作。但是,當資料來自外部各處時,排版過程中可能會存在一些棘手問題,例如版面容易出錯、不宜調整等都是常事。內容格式混亂的文檔排版,有時比全新編排一篇文章更費事,但對于圖文摘編的排版任務,卻無法避免這些問題,因為我們總不能將需要的內容重新輸入一遍。其實,如果善于使用WPS智能排版技術,其中的許多問題都非常容易解決。
1. 整體智能排版與局部智能排版
如果經常引用網上的一些資料,對于引用的網文,即便是通過選擇性粘貼過濾掉排版格式,或通過記事本中轉,過濾掉非文字排版控制符號,版面仍然可能會出現錯亂之處。這其中有多余的空格作怪,或段首跳格設置不正確,還有的是回車或換行、空行或空段多余等。所有這些都會造成版面的不規范,若用手動分別處理,即便是成批替換也會非常費時費力。利用WPS的智能文字排版工具,巧妙使用整體智能排版與局部智能排版相結合,可解決文章排版格式自動化整理問題。
整體智能統攬 自動解決大多數格式不規范問題
如圖1所示的文章是從網頁上復制過來的三段文字,可以看出每段文字的縮進很不規范,且段落中存在多余的空格,段尾也存在多余空白(圖1)。
由于文字段落中格式方面存在的問題不止是一種,因此一一處理比較繁瑣。這時,點擊WPS文字的“開始→文字工具”,然后在文字工具下拉列表中選擇“智能格式整理”命令,隨后會自動對文章中存在的常見格式類錯誤進行自動糾正,糾正結果如圖2所示。由圖可見,其中多數不規范問題得到了解決,但仍然遺留有未解決的問題(圖2)。
局部智能補充 針對性解決某方面的格式不規范
如果整體智能排版不能一次性完美解決,那么,剩下的問題可以針對性地局部解決。例如,在剩余的段落中出現了多余的換行符未解決,則可以在選中要處理的段落后,執行“文字工具→刪除換行符”命令,這樣就可以一次性解決換行符多余的問題。其他遺留問題也可以如此逐一解決。
2. 多類型多余空格同時出現的處理
從外部拷入到WPS版面中的文字若出現多余的空白區域,外觀上感覺只是一些沒有文字的空白區。但是,這些空白的區域卻不一定都是按下空格鍵所產生的空格字符。表面上的“空格”,其實情況可能比較復雜。
“空格”的類型有哪幾種?
視覺上的“空格”有多種類型。在半角輸入狀態下按下空格鍵,會產生半角的空格。而當將漢字輸入法的半角狀態切換到全角狀態之后(圖3),按下空格鍵所產生的空格為全角空格,占據兩個半角字符的寬度。此外,一些不可顯示的控制字符表現出來的也是空白的狀態。
如果文章中同時出現了如上所述的復雜空格的組合,那么使用普通的成批替換,就很難一次性消除文章中的空格,具體表現出來的就是空格不能處理干凈的現象。這時,可以使用WPS文字工具中的“刪除空格”命令來統一處理。該命令所處理的既不是單一的半角空格,也不是單一的全角空格或空白控制符號,而是對這些可能存在的視覺上的空格符號進行一次性替換,這相當于用查找替換功能進行多次不同類型空格的替換,因此要比手動多次替換效率高。
3. 縮進與空格混雜造成的版面混亂
與空格類似,段落縮進在版面形式上也呈現為空白的區域。因此,你很難判斷一個段落的前面多余的空白區域到底是由多敲擊或復制了空格造成的,還是由多余的縮進符號造成的,除非通過設置將控制符號也顯示出來。
在這種情況下,如果僅使用上述介紹的“刪除空格”命令,就很難一次性解決段首空白區域的問題。空格被刪除掉之后,還會留下因縮進多余而造成的空白區域。
如果文章中同時存在段首空格、段首多余縮進等“空白”符號。那么,我們可以采取分步進行的方法來解決。首先,使用“文字工具→刪除空格”命令或“刪除段首空格”命令,將段首多余的空格一并處理掉;然后再執行“文字工具→段落首行縮進2字符”,將每段首行空白執行規范化處理(圖4)。
4. 用兩種方法處理文章空段的問題
自然段之間如果保持與普通行距一樣的距離,視覺上就會感覺版面很擁擠。這時,不少人利用在每段后加一個回車換行的動作,增加一個空白行來拉大自然段之間的距離。其實正規的做法應該是在段落設置中設置段間距,即段前或段后距離(圖5)。大批的段落間距設置可以使用設置好一段后用格式刷復制的方法,也可以在選中多段要處理的文字之后,進行段落間距段前段后距離的設置。
如果只希望讓各段落之間快速保持一行高度的間距,那么,使用WPS文字智能排版命令“文字工具→增加空段”,就可以一次性添加段落間的空白行。反之,如果是從外部灌入文本之后,發現在段與段之間空白行太多,則可以使用“文字工具→刪除空段”命令,將段落之間的空白行一次性去除(圖6)。而后用同樣的方法再行添加單一空白行。
5. 多級自動標題如何實現不同風格
標題或自動樣式會延續前面的內容進行逐級設置或順序自動排列。如果希望在不同的段落或頁面中出現不同風格的標題或自動樣式內容,可使用插入節的方式,讓節前或節后的內容分別應用其自己的一套自動標題或樣式(圖7)。這樣,就會形成不同風格的標題或自動格式樣式。
小技巧:
智能排版雖然可完成成批多余元素的一次性替換,但有時也可能會將一些有用的分成也處理掉。這時,我們可以用查找替換功能來彌補。例如,當其中有些是不希望智能排版功能自動過濾掉的內容時,可先采用特殊替換的方法將這些成分替換為一種很特殊的字符串先留下,然后再使用智能排版。待智能排版完畢之后,再將這些特殊標志的字串替換成自己想要的內容。