成人在线高清不卡免费视频,午夜一区二区三区av,国产一区二区精品久久岳√

欄目導(dǎo)航

公司新聞

新聞資訊

新聞資訊

數(shù)據(jù)科學(xué)俱樂部

中國數(shù)據(jù)科學(xué)家社區(qū)

HDMI，信息管理與信息系統(tǒng)

博客地址：//hdmi-blog

今天要給大家介紹的是驗(yàn)證碼的爬取和識別，不過只涉及到最簡單的圖形驗(yàn)證碼，也是現(xiàn)在比較常見的一種類型。

運(yùn)行平臺：

版本：.6

IDE: Text

其他：瀏覽器

簡述流程：

步驟1：簡單介紹驗(yàn)證碼

步驟2：爬取少量驗(yàn)證碼圖片

步驟3：介紹百度文字識別OCR

步驟4：識別爬取的驗(yàn)證碼

步驟5：簡單圖像處理

目前，很多網(wǎng)站會(huì)采取各種各樣的措施來反爬蟲瀏覽網(wǎng)頁要輸入驗(yàn)證碼，驗(yàn)證碼就是其中一種，比如當(dāng)檢測到訪問頻率過高時(shí)會(huì)彈出驗(yàn)證碼讓你輸入，確認(rèn)訪問網(wǎng)站的不是機(jī)器人。但隨著爬蟲技術(shù)的發(fā)展，驗(yàn)證碼的花樣也越來越多，從最開始簡單的幾個(gè)數(shù)字或字母構(gòu)成的圖形驗(yàn)證碼（也就是我們今天要涉及的）發(fā)展到需要點(diǎn)擊倒立文字字母的、與文字相符合的圖片的點(diǎn)觸型驗(yàn)證碼，需要滑動(dòng)到合適位置的極驗(yàn)滑動(dòng)驗(yàn)證碼，以及計(jì)算題驗(yàn)證碼等等，總之花樣百出，讓人頭禿。驗(yàn)證碼其他的相關(guān)知識大家可以看下這個(gè)網(wǎng)站：

再來簡單說下圖形驗(yàn)證碼吧，就像這張：

由字母和數(shù)字組成，再加上一些噪點(diǎn)，但為了防止被識別，簡單的圖形驗(yàn)證碼現(xiàn)在也變得復(fù)雜，有的加了干擾線，有的加噪點(diǎn)，有的加上背景，字體扭曲、粘連、鏤空、混用等等，甚至有時(shí)候人眼都難以識別，只能默默點(diǎn)擊“看不清，再來一張”。

驗(yàn)證碼難度的提高隨之帶來的就是識別的成本也需要提高，在接下來的識別過程中，我會(huì)先直接使用百度文字識別OCR，來測試識別準(zhǔn)確度，再確認(rèn)是否選擇轉(zhuǎn)灰度、二值化以及去干擾等圖像操作優(yōu)化識別率。

接下來我們就來爬取少量驗(yàn)證碼圖片存入文件。

首先打開瀏覽器，訪問剛剛介紹的網(wǎng)站，里面有一個(gè)圖像樣本鏈接：，網(wǎng)頁里有60張不同類型的圖形驗(yàn)證碼，足夠我們用來識別試驗(yàn)了。

直接來看代碼吧：

import?requests
import?os
import?time
from?lxml?import?etree


def?get_Page(url,headers):
????response?=?requests.get(url,headers=headers)
????if?response.status_code?==?200:
????????#?print(response.text)
????????return?response.text
????return?None


def?parse_Page(html,headers):
????html_lxml?=?etree.HTML(html)
????datas?=?html_lxml.xpath('.//div[@class="captcha_images_left"]|.//div[@class="captcha_images_right"]')
????item=?{}
????#?創(chuàng)建保存驗(yàn)證碼文件夾
????file?=?'D:/******'
????if?os.path.exists(file):
????????os.chdir(file)
????else:????
????????os.mkdir(file)
????????os.chdir(file)????
????for?data?in?datas:
????????#?驗(yàn)證碼名稱
????????name?=?data.xpath('.//h3')
????????#?print(len(name))
????????#?驗(yàn)證碼鏈接
????????src?=?data.xpath('.//div/img/@src')????
????????#?print(len(src))
????????count?=?0
????????for?i?in?range(len(name)):
????????????#?驗(yàn)證碼圖片文件名
????????????filename?=?name[i].text?+?'.jpg'
????????????img_url?=?'https://captcha.com/'?+?src[i]
????????????response?=?requests.get(img_url,headers=headers)
????????????if?response.status_code?==?200:
????????????????image?=?response.content
????????????????with?open(filename,'wb')?as?f:
????????????????????f.write(image)
????????????????????count?+=?1
????????????????????print('保存第{}張驗(yàn)證碼成功'.format(count))
????????????????????time.sleep(1)


def?main():
????url?=?'https://captcha.com/captcha-examples.html?cst=corg'
????headers?=?{'User-Agent':'Mozilla/5.0?(Windows?NT?10.0;?WOW64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/65.0.3325.146?Safari/537.36'}
????html?=?get_Page(url,headers)
????parse_Page(html,headers)


if?__name__?==?'__main__':
????main()

仍然使用Xpath爬取，在右鍵檢查圖片時(shí)可以發(fā)現(xiàn)，網(wǎng)頁分為兩欄，如下圖紅框所示，根據(jù)class分為左右兩欄，驗(yàn)證碼分別位于兩欄中。

datas?=?html_lxml.xpath('.//div[@class="captcha_images_left"]|.//div[@class="captcha_images_right"]')

這里我使用了Xpath中的路徑選擇，在路徑表達(dá)式中使用“|”表示選取若干路徑，例如這里表示的就是選取class為""或者""的區(qū)塊。再來看下運(yùn)行結(jié)果：

由于每爬取一張驗(yàn)證碼圖片都強(qiáng)制等待了1秒，最后這個(gè)運(yùn)行時(shí)間確實(shí)讓人絕望，看樣子還是需要多線程來加快速度的，關(guān)于多進(jìn)程多線程我們下次再說，這里我們先來看下爬取到的驗(yàn)證碼圖片。

圖片到手了，接下來就是調(diào)用百度文字識別的OCR來識別這些圖片了，在識別之前，先簡單介紹一下百度OCR的使用方法，因?yàn)楹芏嘧R別驗(yàn)證碼的教程用的都是庫，所以一開始我也嘗試過，安裝過程中就遇到了很多坑，后來還是沒有繼續(xù)使用，而是選擇了百度OCR來識別。百度OCR接口提供了自然場景下圖片文字檢測、定位、識別等功能。文字識別的結(jié)果可以用于翻譯、搜索、驗(yàn)證碼等代替用戶輸入的場景。另外還有其他視覺、語音技術(shù)方面的識別功能，大家可以直接閱讀文檔了解：百度OCR-API文檔#/OCR-API/top

使用百度OCR的話，首先注冊用戶，然后下載安裝接口模塊，直接終端輸入pip baidu-aip即可。然后創(chuàng)建文字識別應(yīng)用，獲取相關(guān)Appid,API Key以及 Key，需要了解一下的是百度AI每日提供50000次免費(fèi)調(diào)用通用文字識別接口的使用次數(shù)，足夠我們揮霍了。

然后就可以直接調(diào)用代碼了。

from?aip?import?AipOcr

#??你的?APPID?AK?SK?
APP_ID?=?'你的?APP_ID?'
API_KEY?=?'你的API_KEY'
SECRET_KEY?=?'你的SECRET_KEY'

client?=?AipOcr(APP_ID,?API_KEY,?SECRET_KEY)

#?讀取圖片?
def?get_file_content(filePath):
????with?open(filePath,?'rb')?as?fp:
????????return?fp.read()

image?=?get_file_content('test.jpg')

#??調(diào)用通用文字識別,?圖片參數(shù)為本地圖片?
result?=?client.basicGeneral(image)


#?定義參數(shù)變量??
options?=?{
????#?定義圖像方向
????????'detect_direction'?:?'true',
????#?識別語言類型，默認(rèn)為'CHN_ENG'中英文混合
????????'language_type'?:?'CHN_ENG',


}

#?調(diào)用通用文字識別接口??
result?=?client.basicGeneral(image,options)
print(result)
for?word?in?result['words_result']:
????print(word['words'])

這里我們識別的是這張圖

可以看一下識別結(jié)果

上面是識別后直接輸出的結(jié)果，下面是單獨(dú)提取出來的文字部分。可以看到，除了破折號沒有輸出外，文字部分都全部正確輸出了。這里我們使用的圖片是jpg格式，文字識別傳入的圖像支持jpg/png/bmp格式，但在技術(shù)文檔中有提到，使用jpg格式的圖片上傳會(huì)提高一定準(zhǔn)確率，這也是我們爬取驗(yàn)證碼時(shí)使用jpg格式保存的原因。

輸出結(jié)果中,各字段分別代表：

接下來，我們要做的，就是將我們之前爬取到的驗(yàn)證碼用剛介紹的OCR來識別，看看究竟能不能得到正確結(jié)果。

from?aip?import?AipOcr
import?os


i?=?0
j?=?0
APP_ID?=?'你的?APP_ID?'
API_KEY?=?'你的API_KEY'
SECRET_KEY?=?'你的SECRET_KEY'

client?=?AipOcr(APP_ID,?API_KEY,?SECRET_KEY)

#?讀取圖片?
file_path?=?'D:\******\驗(yàn)證碼圖片'
filenames?=?os.listdir(file_path)
#?print(filenames)
for?filename?in?filenames:
????#?將路徑與文件名結(jié)合起來就是每個(gè)文件的完整路徑
????info?=?os.path.join(file_path,filename)
????with?open(info,?'rb')?as?fp:
????????#?獲取文件夾的路徑????
????????image?=?fp.read()
????????#?調(diào)用通用文字識別,?圖片參數(shù)為本地圖片
????????result?=?client.basicGeneral(image)
????????#?定義參數(shù)變量??
????????options?=?{
????????????????'detect_direction'?:?'true',
????????????????'language_type'?:?'CHN_ENG',
????????}
????????#?調(diào)用通用文字識別接口??
????????result?=?client.basicGeneral(image,options)
????????#?print(result)
????????if?result['words_result_num']?==?0:
????????????print(filename?+?':'?+?'----')
????????????i?+=?1
????????else:
????????????for?word?in?result['words_result']:????????????????????
????????????????print(filename?+?'?:?'?+word['words'])
????????????????j?+=?1

print('共識別驗(yàn)證碼{}張'.format(i+j))
print('未識別出文本{}張'.format(i))
print('已識別出文本{}張'.format(j))

和識別圖片一樣，這里我們將文件夾驗(yàn)證碼圖片里的圖片全部讀取出來，依次讓OCR識別，并依據(jù)“”字段判斷是否成功識別出文本，識別出文本則打印結(jié)果，未識別出來的用“----”代替，并結(jié)合文件名對應(yīng)識別結(jié)果。最后統(tǒng)計(jì)識別結(jié)果數(shù)量，再來看下識別結(jié)果。

看到結(jié)果，只能說！60張圖片居然識別出了65張，并且還有27張為未識別出文本的，這不是我想要的結(jié)果~先來簡單看下問題出在哪里，看到“ Image.jpg"這張圖名出現(xiàn)了兩次，懷疑是在識別過程中由于被干擾，所以識別成兩行文字輸出了，這樣就很好解釋為什么多出來5張驗(yàn)證碼圖片了。可是！為什么會(huì)有這么多未識別出文本呢，而且英文數(shù)字組成的驗(yàn)證碼識別成中文了，看樣子，不對驗(yàn)證碼圖片進(jìn)行去干擾處理，僅靠OCR來識別的想法果然還是行不通啊。那么接下來我們便使用圖像處理的方法來重新識別驗(yàn)證碼吧。

還是介紹驗(yàn)證碼時(shí)用的這張圖

這張圖也沒能被識別出來，讓人頭禿。接下來就對這張圖片進(jìn)行一定處理，看能不能讓OCR正確識別

from?PIL?import?Image

filepath?=?'D:\******\驗(yàn)證碼圖片\AncientMosaic?Captcha?Image.jpg'
image?=?Image.open(filepath)
#?傳入'L'將圖片轉(zhuǎn)化為灰度圖像
image?=?image.convert('L')
#?傳入'1'將圖片進(jìn)行二值化處理
image?=?image.convert('1')
image.show()

這樣子轉(zhuǎn)化后再來看下圖片變成什么樣了？

確實(shí)有些不同了瀏覽網(wǎng)頁要輸入驗(yàn)證碼，趕緊拿去試試能不能識別，還是失敗了~~繼續(xù)修改

from?PIL?import?Image

filepath?=?'D:\******\驗(yàn)證碼圖片\AncientMosaic?Captcha?Image.bmp'
image?=?Image.open(filepath)
#?傳入'L'將圖片轉(zhuǎn)化為灰度圖像
image?=?image.convert('L')
#?傳入'l'將圖片進(jìn)行二值化處理,默認(rèn)二值化閾值為127
#?指定閾值進(jìn)行轉(zhuǎn)化
count=?170
table?=?[]
for?i?in?range(256):
????if?i?????????table.append(0)
????else:
????????table.append(1?)
image?=?image.point(table,'1')
image.show()

這里我將圖片保存成了bmp模式，然后指定二值化的閾值，不指定的話默認(rèn)為127，我們需要先轉(zhuǎn)化原圖為灰度圖像，不能直接在原圖上轉(zhuǎn)化。然后將構(gòu)成驗(yàn)證碼的所需像素添加到一個(gè)table中，然后再使用point方法構(gòu)建新的驗(yàn)證碼圖片。

現(xiàn)在已經(jīng)識別到文字了，雖然我不知道為啥識別成了“珍”，分析之后發(fā)現(xiàn)是因?yàn)閦我在設(shè)置參數(shù)設(shè)置了“”為“”，中英文混合模式，于是我修改成“ENG”英文類型，發(fā)現(xiàn)可以識別成字符了，但依然沒有識別成功，嘗試其他我所知道的方法后，我表示很無語，我決定繼續(xù)嘗試PIL庫的其他方法試試。

#?找到邊緣
image?=?image.filter(ImageFilter.FIND_EDGES)
#?image.show()
#?邊緣增強(qiáng)
image?=?image.filter(ImageFilter.EDGE_ENHANCE)
image.show()

還是不能正確識別，我決定換個(gè)驗(yàn)證碼試試。。。。。。

我找了這張帶有陰影的

from?PIL?import?Image,ImageFilter

filepath?=?'D:\******\驗(yàn)證碼圖片\CrossShadow2?Captcha?Image.jpg'
image?=?Image.open(filepath)
#?傳入'L'將圖片轉(zhuǎn)化為灰度圖像
image?=?image.convert('L')

#?傳入'l'將圖片進(jìn)行二值化處理,默認(rèn)二值化閾值為127
#?指定閾值進(jìn)行轉(zhuǎn)化
count=?230
table?=?[]
for?i?in?range(256):
????if?i?????????table.append(1)
????else:
????????table.append(0)
image?=?image.point(table,'1')
image.show()

簡單處理后，得到這樣的圖片：

識別結(jié)果為：

識別成功了，老淚縱橫！！！看樣子百度OCR還是可以識別出驗(yàn)證碼的，不過識別率還是有點(diǎn)低，需要對圖像進(jìn)行一定處理，才能增加識別的準(zhǔn)確率。不過百度OCR對規(guī)范文本的識別還是很準(zhǔn)確的。

那么與其他驗(yàn)證碼相比，究竟是什么讓這個(gè)驗(yàn)證碼更容易被OCR讀懂呢?

這樣的驗(yàn)證碼相對識別起來較容易，另外，像識別圖片時(shí)的白底黑字就屬于很標(biāo)準(zhǔn)的規(guī)范文本了，所以識別的準(zhǔn)確度較高。至于更復(fù)雜的圖形驗(yàn)證碼，就需要更深的圖像處理技術(shù)或者訓(xùn)練好的OCR來完成了，如果只是簡單識別一個(gè)驗(yàn)證碼的話，不如人工查看圖片輸入，更多一點(diǎn)的話，也可以交給打碼平臺來識別。

操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综