操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    之前發布過,但重要的圖片沒有顯示出來可復制pdf文件制作方法,所以重新發布一次。

    正文來了:

    最近幫老同學處理一個差不多200頁的pdf文件提取文字的處理,經過一番處理后發現都存在一些自己不滿意的地方。

    pdf文件如何復制_pdf文件里面怎么復制_可復制pdf文件制作方法

    老同學有完成時間的要求可復制pdf文件制作方法,所以選擇了一個相對安全的操作:【pdf文件按頁轉換為圖片格式】- 【再利用WX的文字提取功能】-【逐個圖片提取文字后復制粘貼到一個txt或doc文件中】 。因為需要截圖 - 傳圖到手機 - 微信文字提出 - 復制文字 - 發回電腦端 -粘貼到文件,整個操作流程重復、費勁,傷眼、傷腰、傷精力....最終花了半個工作日才搞掂,后續的格式問題交回老同學再二次加工了。

    此后產生了一個想法:利用的技術進行自動處理。思路:PDF文件按頁批量轉換生成圖片格式,每個圖片通過OCR實現文字提取,所有提取的文字寫入一個txt文件里面。全稱自動化,無需手工切入,想想都覺得好有滿足感。于是網上查閱了資料,也花費了一些閑余時間,終于大功告成!

    先來看看PDF原文件和運行代碼后的文字提取結果,來個直觀對比吧

    pdf文件里面怎么復制_可復制pdf文件制作方法_pdf文件如何復制

    PDF原文件

    可復制pdf文件制作方法_pdf文件如何復制_pdf文件里面怎么復制

    文字提取后輸出到txt文件里面

    下面是兩個重要過程的代碼截圖,分別是pdf文件按頁切割為png圖片,另一個是OCR識別文字提取

    pdf文件如何復制_可復制pdf文件制作方法_pdf文件里面怎么復制

    PDF按頁轉換生成圖片文件

    OCR文字提取

    pdf文件如何復制_可復制pdf文件制作方法_pdf文件里面怎么復制

    本案例四頁PDF的文字提取速度非常快,從代碼捕獲的時間顯示用時全程大概10秒。無論效率和文字提取都比較滿意,但也存在不足,遇到PDF里面有圖片的識別不出來的。

    四頁PDF轉換大概用時10秒

    本次分享到此結束,希望大家有所收獲吧!

網站首頁   |    關于我們   |    公司新聞   |    產品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有