在我们日常的学习中常遇到pdf,caj等文件需要提取其中的文字。当然这两种格式文件的阅览器都具备识别功能,但是缺点是,不是所有的都能识别,或者排 版格式很乱。当遇到这种情况时,不妨试试以下方法:
其实office是自带文字识别系统的,只是我们都没有留意到。首先说说他的优点:识别率高;基本不破坏原有排版格式;对所有的图片格式都适用;
下面说说具体使用步骤:
第一步:安装,在安装office时必须选择其中 一个叫“Microsoft Office Document Imaging”的组件。如果是第一次安装,直接跳到第二步。如果已经安装了office2003,那么只要再次运行安装程序,会出现如下界面(图1), 默认选择“添加或删除功能”点击下一步。 
第二步:在出现的窗口中在“选择应用程序的高级自 定义”前打勾,如图2。点击下一步。
第三步:找到Office工具下的 “Microsoft Office Document Imaging”如图3,鼠标左键点击图中箭头所指处。选择“从本机运行”然后点击“更新”就安装完毕了。
第四步:使用,首先对需要识别的文件打印(是虚拟 打印),如caj,pdf可在其阅览器中选择打印。而对于图片,可以把它插入到word中再选择打印。这里要注意,打印时选择的打印机应该是虚拟打印机。 如图4(以pdf文件打印为例),在箭头所指的下拉菜单中选择“Microsoft Office Document Imaging Writer”即可。然后打印很快就可以自动生成一个MDI格式的文档。
第五步:打印后会自动打开这个mdi文件,如图 5。选择图中箭头所指的按钮(前面那个),进行OCR文字识别。等待识别完成后(识别时间视文件大小而定),然后再选择箭头所指(后面那个)即可将所识别 的文本发送到word中去。
第六步:只需要经过简单的排版即可使用所需的文字 了。
作者:wxd@杭州SEO --吴晓棣个人网站
原文链接:http://www.wxd.cc/post/tupianzhuanhuanwenzi.html
版权声明:除非注明,本博客文章均为原创,转载请以链接形式标明原文链接。
