从手工识别挖掘
现在许多文稿排版为了追求尽善尽美的视觉效果,常常会使用图文混排方式,如果我们将原稿简单地扫描成一幅图像的话,将会严重影响文字的识别准确率。有鉴于此,我们应该根据实际情况,对原稿版面进行手工划分,让其版面分为若干个区域;而且应该保证处于同一区域中的文字字号与字体最好相同,尽量没有图像、图形,每一行的文字宽度应该相同,要是发现宽度长短不一的话,最好再进行细分,通常情况下一次最多能扫描识别10个选择区域。此外根据实际情况,我们还需要对多个选择区域设置好识别顺序。大家千万不能嫌这样的操作比较烦,这可是有效提高文字识别准确率的理想途径之一。