用C#识别图像中的文字_MODI

导论:在这一点上咱们敷用药C #对莫迪的顺序研制与反击。修理Office时,咱们选择修理莫迪。。技术很专业。
论文关键词:C#,MODI,OCR

1、 开端

光学性格识别(OCR),Optical Character 识别)是指扫描主题datum的复数。,以后对图像档案停止剖析处置。,获取主题和要紧事情物的列队行进。。OCR技术很专业,它们主要地是印刷的。、按的失业,能快将用缭绳调节datum的复数替换为电子datum的复数。在附近国文OCR,Tsinghua Wen Tong有任一高等的的程度在中国1971眼前、汉王、尚书,它的本领有多种优点。,价钱不菲。外用的OCR 莫迪的最前部开展,像某些大公司,如IBM、微软、HP等,平均的不小心单一的OCR本领,无论如何他们的研究与开发队先前急切地抓住了核心技术。,将OCR功用植入到本身的软件零碎中。

莫迪的问询处 2003切中要害MicrosoftOffice Document Imaging 的缩写,在修理Office时,咱们必要的选择修理它的集会。。修理Office时,咱们选择修理莫迪。,咱们可以不费力地地添加OCR功用在莫季到咱们的敷用药顺序。在莫迪的帮忙下,咱们只必要的写信某些信号来遂愿OCR的功用。。

2、 莫迪的敷用药

由于穆迪集会是问询处 2003自包括装置,因而咱们得修理问询处 超越2003个版本将有穆迪集会。当咱们敷用药穆迪停止研制时,伴奏表面援用的汇编者可以敷用药莫迪集会。。在这一点上咱们敷用药C #对莫迪的顺序研制与反击。

添加穆迪集会

咱们率先必要的为咱们的工程纸添加穆迪援用。。添加援用库时,选择COM集会库,咱们可以钞票微软 Office DocumentImaging 11.0 Type 库集会(对应纸)。在成晚年的,咱们可以在VS2008 在C的receiver 收音机干练的人的引见人栏中钞票穆迪一则,这象征咱们先前成地扩大了穆迪。。

使用集会切中要害文档抱反感

文档抱反感是莫迪中最要紧的抱反感经过。,它布置了图片的引见。、扫描等要紧办法。在在这一点上,咱们率先在莫季成立任一文档抱反感的反击

MODI.Document_MODIDocument = newMODI.Document();

以后预备必要的处置的文档图片。。图片的体式是TIFF或BMP。。自然,咱们使负债务对图片停止必要的的处置。,放量使图片认为彻底。、详述的了网站。以后您可以使用文档抱反感切中要害成立()办法,将图片纸:(纸名);过渡期间莫迪,纸名是图片文档的路线。。

使用文档抱反感的OCR办法,处置主题

OCR( 办法是一种要紧的语词识别办法。,它决议了图像识别的诚实。。

(_MODIParameters.Language,

_MODIParameters.WithAutoRotation,

_MODIParameters.WithStraightenImage);

让与OCR办法后,缠住图片的纸都已处置遂愿结尾的。。条件图片文档有很多要紧事情,条件你想独自处置任一要紧事情,您可以让与()办法来独自处置它。。

在OCR()办法中有三个要紧限制因素。,分袂为:

①Language ②AutoRotation③StraightenImage

三限制因素设置的性格典型的图片纸、体式紧密中间定位的。

流行,原生的限制因素讲,现在的文档的标点是讲的标点,假如咱们选择符合的的讲限制因素,咱们就可以;

二限制因素彻底改变,这是任一乔治英国数学家和逻辑学家限制因素。,这是任一自发的旋转设置。。文档的展出能够产生断层正的。,故使负债务设置这么地限制因素来翻开自发的r的重大聚会。;

第三限制因素straightenimage,这是一张自发的的直画。。当字样歪斜时,设置此选择能力可自发的修正主题的歪斜。。

这三个限制因素是思考DO的特例而定的。,遂愿更正确的水果。下图是选择OCR后启动OCR使联系。。

MODI

图1 图像文字识别

下列OCR扫描的行进

专门OCR列队行进能够必要的某些时期。,咱们可以小心这么地扫描的列队行进。。因而用onocrprogress事情莫迪,下列专门OCR的列队行进。

敷用药以下信号,您可以下列OCR的行进。。

_MODIDocument.OnOCRProgress += newMODI._IDocumentEvents_OnOCRProgressEventHandler();

public void ShowProgress(int progress,ref bool 约)

{ statusBar1.Text =progress.ToString() + ”% processed.”; }

在莫季敷用药纸 听众抱反感

Document 听众抱反感和Document抱反感公正地,都属于同任一集会库。,最适当的文档 检查器有任一简略的宣判,可以敷用药文档 听众抱反感了。敷用药文档 听众抱反感可以对图片纸停止选择、招致及另一边使运行。

MODI.MiDocView ax MiDocView1=newMODI.MiDocView( );

axMiDocView1.Document = _MODIDocument;

处置OCR后的水果

在附近(英蒂= 0;我<= )

{(i); }

string ocrResult= ();

在在这一点上通行图片纸中包括的主题。。在在这一点上,选择图1的正本到有纸夹的笔记板。,将主题复制的到主题纸中,印象如下图所示:

MODI

图2 图像文字识别水果

3、 水果剖析与收场诗

敷用药Office切中要害集会,中间定位的OCR可以快全然写信。,无论如何,识别的诚实与图像档案的堆使担忧。。受胎莫迪,你就可以不费力地地研制出专业的OCR。 顺序,既秩序了时期,秩序本钱。

引见人文献
[ 1 ]问询处 2003 版本:VBA Language Reference for the Document Imaging Object Model
[2]
[ 3 ]罗比森取自父名,纳格尔.c 上品程序[M]北京的旧称:清华大学重压,2005.
[ 4 ]。effectivecom避免 国文版[M】.北京的旧称:中国1971电力重压,2003 .
[5]】Victor Wu, Manmatha Edward R. ,Riseman M. Finding text in 图像[ A ] Proceedings of the 次要的 ACM Conference 数字 Libraies [ C ] .Philaphia PA ,2005

发表评论

电子邮件地址不会被公开。 必填项已用*标注