色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

python實(shí)現(xiàn)圖像識(shí)別的示例代碼

瀏覽:77日期:2022-06-24 13:09:21
一、安裝庫(kù)

首先我們需要安裝PIL和pytesseract庫(kù)。PIL:(Python Imaging Library)是Python平臺(tái)上的圖像處理標(biāo)準(zhǔn)庫(kù),功能非常強(qiáng)大。pytesseract:圖像識(shí)別庫(kù)。

我這里使用的是python3.6,PIL不支持python3所以使用如下命令

pip install pytesseractpip install pillow

如果是python2,則在命令行執(zhí)行如下命令:

pip install pytesseractpip install PIL

這時(shí)候我們?nèi)ミ\(yùn)行上面的代碼會(huì)發(fā)現(xiàn)如下錯(cuò)誤:

python實(shí)現(xiàn)圖像識(shí)別的示例代碼

錯(cuò)誤提示的很明顯:No such file or directory :'tesseract'

這是因?yàn)槲覀儧](méi)有安裝tesseract-ocr引擎

二、tesseract-ocr引擎

光學(xué)字符識(shí)別(OCR,Optical Character Recognition)是指對(duì)文本資料進(jìn)行掃描,然后對(duì)圖像文件進(jìn)行分析處理,獲取文字及版面信息的過(guò)程。OCR技術(shù)非常專業(yè),一般多是印刷、打印行業(yè)的從業(yè)人員使用,可以快速的將紙質(zhì)資料轉(zhuǎn)換為電子資料。關(guān)于中文OCR,目前國(guó)內(nèi)水平較高的有清華文通、漢王、尚書(shū),其產(chǎn)品各有千秋,價(jià)格不菲。國(guó)外OCR發(fā)展較早,像一些大公司,如IBM、微軟、HP等,即使沒(méi)有推出單獨(dú)的OCR產(chǎn)品,但是他們的研發(fā)團(tuán)隊(duì)早已掌握核心技術(shù),將OCR功能植入了自身的軟件系統(tǒng)。對(duì)于我們程序員來(lái)說(shuō),一般用不到那么高級(jí)的,主要在開(kāi)發(fā)中能夠集成基本的OCR功能就可以了。這兩天我查找了很多免費(fèi)OCR軟件、類庫(kù),特地整理一下,今天首先來(lái)談?wù)凾esseract,下一次將討論下Onenote 2010中的OCR API實(shí)現(xiàn)。可以在這里查看OCR技術(shù)的發(fā)展簡(jiǎn)史。Tesseract的OCR引擎最先由HP實(shí)驗(yàn)室于1985年開(kāi)始研發(fā),至1995年時(shí)已經(jīng)成為OCR業(yè)內(nèi)最準(zhǔn)確的三款識(shí)別引擎之一。然而,HP不久便決定放棄OCR業(yè)務(wù),Tesseract也從此塵封。數(shù)年以后,HP意識(shí)到,與其將Tesseract束之高閣,不如貢獻(xiàn)給開(kāi)源軟件業(yè),讓其重?zé)ㄐ律?005年,Tesseract由美國(guó)內(nèi)華達(dá)州信息技術(shù)研究所獲得,并求諸于Google對(duì)Tesseract進(jìn)行改進(jìn)、消除Bug、優(yōu)化工作。

###安裝tesseract-ocr引擎

brew install tesseract

然后我們通過(guò)tesseract -v看一下是否安裝成成功

tesseract 3.05.01leptonica-1.75.0libjpeg 9b : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11

這時(shí)候我們運(yùn)行上面代碼會(huì)出現(xiàn)亂碼

python實(shí)現(xiàn)圖像識(shí)別的示例代碼

這是因?yàn)閠esseract默認(rèn)只有語(yǔ)言包中沒(méi)有中文包,如下圖:

python實(shí)現(xiàn)圖像識(shí)別的示例代碼

###安裝tesseract-ocr語(yǔ)言包我們?nèi)itHub下載我們需要的語(yǔ)言包,這里我只下載了chi_tra.traineddata和chi_sim.traineddatagithub:tesseract-ocr/tessdata然后放到/usr/local/Cellar/tesseract/3.05.01/share/tessdata路徑下面。

可以通過(guò)tesseract --list-langs查看本地語(yǔ)言包:

python實(shí)現(xiàn)圖像識(shí)別的示例代碼

可以通過(guò)tesseract --help-psm 查看psm

python實(shí)現(xiàn)圖像識(shí)別的示例代碼

0:定向腳本監(jiān)測(cè)(OSD)1: 使用OSD自動(dòng)分頁(yè)2 :自動(dòng)分頁(yè),但是不使用OSD或OCR(Optical Character Recognition,光學(xué)字符識(shí)別)3 :全自動(dòng)分頁(yè),但是沒(méi)有使用OSD(默認(rèn))4 :假設(shè)可變大小的一個(gè)文本列。5 :假設(shè)垂直對(duì)齊文本的單個(gè)統(tǒng)一塊。6 :假設(shè)一個(gè)統(tǒng)一的文本塊。7 :將圖像視為單個(gè)文本行。8 :將圖像視為單個(gè)詞。9 :將圖像視為圓中的單個(gè)詞。10 :將圖像視為單個(gè)字符。

為什么這里要強(qiáng)調(diào)語(yǔ)言包和psm,因?yàn)槲覀冊(cè)谑褂弥袝?huì)用到,比如多個(gè)語(yǔ)言包組合并且視為統(tǒng)一的文本塊將使用如下參數(shù):

pytesseract.image_to_string(image,lang='chi_sim+eng',config='-psm 6')

這里我們通過(guò)+來(lái)合并使用多個(gè)語(yǔ)言包。

接下來(lái)我們看一下配置好一切的正確結(jié)果。

import pytesseractfrom PIL import Imageimage = Image.open('../pic/c.png')code = pytesseract.image_to_string(image,lang='chi_sim',config='-psm 6')print(code)

python實(shí)現(xiàn)圖像識(shí)別的示例代碼

python實(shí)現(xiàn)圖像識(shí)別的示例代碼

此時(shí)大公告成。

到此這篇關(guān)于python實(shí)現(xiàn)圖像識(shí)別的示例代碼的文章就介紹到這了,更多相關(guān)python 圖像識(shí)別內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 最新国产大片高清视频 | 又粗又爽又色男女乱淫播放男女 | 成人爽a毛片在线视频 | 一个人免费看的www 一及 片日本 | 欧美日韩视频免费播放 | 国产精品九九免费视频 | 日韩亚洲一区中文字幕 | 久久久久爽亚洲精品 | 欧美在线一级va免费观看 | 亚洲精品久久一区毛片 | 国产成年人在线观看 | 一级美国片免费看 | 成年女人毛片免费观看中文w | 国产黄页| 亚洲激情视频网站 | 在线看免费观看韩国特黄一级 | 日韩色视频一区二区三区亚洲 | 国产免费人成在线看视频 | a毛片免费在线观看 | 三级高清 | 国产精品拍自在线观看 | 免费国产不卡午夜福在线 | 成年免费大片黄在线观看一 | 玖玖在线免费视频 | 日韩 综合 | 精品国产日韩亚洲一区在线 | 亚洲欧美久久精品 | 久久综合日韩亚洲精品色 | 亚洲欧美一区二区视频 | 日韩在线视频网址 | 欧美成人免费看片一区 | 美女一级毛片免费看看 | 亚洲国产成人超福利久久精品 | 黄色网址在线免费观看 | 三级国产精品 | 亚洲美女视频在线观看 | 免费一极毛片 | 国产精品女在线观看 | 真人一级毛片免费观看视频 | 韩国一级做a爰片性色毛片 韩国一区在线 | 精品国产美女福利到在线不卡 |