新豐美酒斗十千,咸陽游俠多少年。
相逢意氣為君飲,系馬高樓垂柳邊。
相聚的時光總是短暫而美好、敞亮沒有拘束的分享,點到即止的收尾,滿懷期待地下次相聚,生活的波折困苦一大堆,總要以相聚來淡化挫敗,拾取信心,原諒我這波相聚后遺癥,感慨啰嗦一堆,我趙曰天又回來了,代碼下酒,天不生我趙曰天,碼界萬古如長夜。
現在這種追求顏值,忽略應用的方案層出不窮,很多都是蜻蜓點水,適可而止,就拿我現在想來是一個常識性問題的場景來說,富文本的編輯針對題注的說明,在歸檔、常規文檔本應是個很常見的問題,但是市面上的編輯器鮮有考慮到這個情況的,據我觀察也就ckeditor5有這方面的交互設計
時間線 | 事件 | 里程碑 |
1983年-2013年 | 文字處理器應用程序 | 文件格式二進制文件格式 |
1988年5月到1989年9月 | WPS被求伯君開發出來 | 壟斷市場轉變為2選1 |
2013年-2018年 | 信息化建設轉化 | 載體由程序exe->為網頁 |
2018年-至今 | 協同辦公領域井噴 | 釘釘、飛書、騰訊文檔 |
Microsoft Office Word是微軟公司的一個文字處理器應用程序。它最初是由Richard Brodie為了運行DOS的IBM計算機而在1983年編寫的。隨后的版本可運行于Apple Macintosh (1984年)、SCO UNIX和Microsoft Windows (1989年),并成為了Microsoft Office的一部分。
Word給用戶提供了用于創建專業而優雅的文檔工具,幫助用戶節省時間,并得到優雅美觀的結果。一直以來,Microsoft Office Word 都是最流行的文字處理程序
從1988年5月到1989年9月,求伯君花了整整一年的時間完成了WPS的研發,國內市場文檔領域有了開拓的可能,同時也開啟了漫長的斗爭妥協之旅
Microsoft office Word 97到Microsoft office Word 2003之前的Word文件格式都是二進制文件格式。微軟聲明他們接下來將以XML為基礎的檔案格式作為他們辦公室套裝軟件的格式。Word 2003提供WordprocessingML的選項。這是一種公開的XML檔案格式,由丹麥政府等機構背書支持。Word 2003的專業版能夠直接處理非微軟的檔案規格。
web-office-oline 也算是被倒逼出現,一定程度上緩解了線上問題,但因其產品特性,想要大刀闊斧地改造基本沒有可能,而實際應用,并不是從線下功能復刻到線上那么簡單,最關鍵的問題是太消耗服務器資源,64G內存的服務器500M的文件也遭不住,更遑論并發量大的時候
幕布是另外一個突破口,以提綱,演示文稿,快捷方式等特色很快吸引了一波人氣,最終被飛書收購,也算是幕布作者的巔峰了
2019年疫情,是協同辦公領域的契機,開啟了文檔協同的蓬勃發展,OKR的管理理論壓倒KPI,鋪天蓋地,調侃個體外話Kpi: 人扔飛盤,狗去撿回來;okr:狗自己扔飛盤,并且自己撿回來
編輯器硬編碼了文檔的結構規范,難以定制。 類似加粗和斜體的結構可以開箱即用,但評論、嵌入內容以及更多的定制性需求呢?
對文檔的編程式變換非常錯綜復雜。 用戶的編寫體驗可能不錯,但在執行編程式變更時卻不必要地復雜,而這對于構建高級的編輯行為至關重要。
對 HTML、Markdown 等內容的序列化支持看起來像是事后加上的。 這是一個非常常見的使用場景,但要實現將文檔轉換為 HTML 或 Markdown 每個簡單功能都需要編寫大量的模板代碼。
重新學習一個新的視圖層效率不高且十分受限。 各種編輯器在重新發明視圖層的輪子,而非使用 React 這樣已有的技術方案。你必須學習一套帶著自由限制和陷阱的新系統。
對協同編輯沒有預先設計好的支持。 編輯器內部的數據結構使其無法用于實時、協作的編輯場景中,除非重寫編輯器。
代碼倉庫是單體的,而非小而可復用的。 許多編輯器沒有對外開放本應為開發者所復用的內部工具,以至于不得不重新發明輪子。
業務應用
?文檔的協同訴求很強烈,同時文檔的核心要義其實就是存檔留底,所以格式和文件是必不可少的。在滿足這個前提下,深挖業務,定制化工具才是企業員工和管理制度共力的導向
?顯示層以塊結構進行選擇、渲染、交互,編輯權限控制最終的轉化為標準渲染結構
?能呼出區域根據業務方向定制,對其關聯性數據抽取準備,最終轉化為文字片段、圖、表等結果
輕應用
markdown與富文本編輯的區別,對格式的要求沒那么強烈,最終的顯示效果可以多樣,同樣沒有協同訴求
這個其實說不上比對,只能說是本質的訴求不同
現代應用
這個屬于掀桌子的舉動了,認為歷史文檔編輯形式已經跟不上潮流,要摒棄掉之前word文檔的歷史包袱,輕裝上路
但總結起來就是現實還沒到那一步,為時過早
非結構化的文檔碎片處理,在企業里面很常見,比如具體的人工修訂數據最終在文檔里面,挖掘存在難度,另外就是動輒上百G,TB級的專業數據,歸檔備份是個極度痛苦的事情,屬于制度和人文的沖突
歸于常規,一般幾百兆的文件很常見,如何解決預覽等問題是個老大難的問題,pdf開放格式,能夠讓邊讀邊解析,也就不存在性能上的問題,而word即便是Openxml格式,也沒法實現這種機理,主要是因為解析必須全部讀取,也就是都加載到內存中,才能實現進一步解析,所以需要特殊的手段去處理。
經過程序驗證:docx是壓縮流(重命名.docx為rar即可觀察)
正常1.2g doc文檔 實際讀取時耗費的處理內存至少在16G以上,且如果作為服務針對并發的情況多實例運行時基本無法支持操作、通過對文檔流壓縮流對圖文件的移除、可以有效節約處理內存、同時處理轉換時間由原本的124秒 降低->16秒,時效率提升6倍,內存耗費率12G+/1g- 約為12倍、 重新按照單頁進行重新組織、即保證了文檔的格式還原度、降低每頁word的大小、同時通過Openxml可以重新將圖裝填回單頁文檔保證恢復、在預覽時靈活的加載圖數據
結論:此方案完全具備操作實施可行性、且有一定的調優空間、最終完整的處理能夠保證1G文檔能夠在30秒內快速響應、由此百兆文檔可達到秒級響應、通過前端的加載優化幾乎可以實現即時響應
上傳與讀取的聯動,上傳時即轉換doc為docx,解析移除media圖片資源,按頁解析另存,如果結合mogodb分片存儲更優,能保證讀取最小化,1G->幾十K都可能,解析預覽用的時Apose.words
自定義流加載,預留分片讀取規則,保證讀取內存的優化
渲染顯示,為保證格式的絕對還原可以圖或者pdf進行處理(docx-preview 前端預覽方案其實就是解析openxml,適配的樣式,只不過格式還是會錯亂)
至此,其實解決思路已經很清晰了,1G的文件,如果包含解析,我用電腦測試過,大約124秒才能處理完,最終整體處理差不多16秒,如果經過緩存的話,性能和內容都能保障
多平臺博客工具推薦
全棧終結者-把nuxt扔進垃圾桶、Blazor與seo的化學反應
ol與Vue室內定位模式設計
二十余年如一夢,此身雖在堪驚。閑登小閣看新晴。古今多少事,漁唱起三更
Tauri操作實戰(1)-環境準備
代碼生成代碼
webpack5 針對vue vue-cli-service 升級指南(三)
webpack5 針對vue vue-cli-service 升級指南(二)
webpack5 針對vue vue-cli-service 升級指南(一)
聊的比較散,閑話夾雜著技術,希望讀著沒那么生澀晦暗,勉強一觀,讓分享和互動成為常態,最后求波關注!!
以待后續繼續分享。
5月12日消息,據外媒報道,微軟今年首個 Windows 10 正式版將于5月28日發布,新版操作系統將帶來全新基于 Chromium 內核的 Edge 瀏覽器,目前已向預覽通道用戶推送帶有新版瀏覽器的獨立更新補丁,用戶更新后將自動替換舊版 Edge 瀏覽器!文|XL科技
超酷!Win10 全新 Edge 瀏覽器內測,更強大的 PDF 功能
外媒體發現,微軟在最新發布的 Edge Canary v84.0.512.0 快速版本中帶來了 PDF 的大聲朗讀功能[XL 科技],該朗讀功能支持暫停、翻頁、調整速度、選擇配音等操作,用戶通過 Edge 瀏覽 PDF 時可以直接體驗該功能,畢竟聽著比看要更輕松!
開啟 PDF 大聲朗讀功能的方法也很簡單,只要在瀏覽器上方的地址欄中輸入edge://flags/#edge-read-aloud-pdf,在彈出的界面中點擊“Enabled(啟用)”按鈕即可開啟。XL 科技
據了解,新版 Edge 是微軟基于 Chromium 內核打造的全新瀏覽器,無論在速度上還是在插件擴展上,都比舊版 Edge 體驗要更好,為了解決舊版自研內核的兼容問題[XL科技],微軟選擇基于 Chromium 內核開發,在基準測試方面,新版 Edge 瀏覽器比舊版要快10%,徹底解決兼容性的問題!
當然,目前新加入大聲朗讀功能僅在 Edge Canary v84.0.512.0 快速版中內測,用戶如果希望體驗到該功能,可以等待新版 Edge v84 穩定版發布!也可以等5月28日今年首個 Windows 10 正式版發布,新系統將直接捆綁新版 Edge 瀏覽器,因此新的朗讀功能也將會一同出現!XL科技
大家對微軟在 Windows 10 正式版中捆綁新版 Edge 瀏覽器有什么看法,歡迎在下方留言評論!