2016-11-16 24 views
1

我试图将NLP应用于OCR文档。要提取命名实体,如何使用文档中单词的位置等功能?NLP:文档的OCR中单词的位置特征

例如,我有一份健康报告,需要在特定区域提取报告中的化学术语,并避免在其他地方发生。我可以根据{top:x , left:y}的值为此定义一个位置特征吗?

有没有sklearn库?

回答

0

您可以构建提取区域以获取此内容。 换句话说,将具有所需内容的文档分组在图像中的给定区域内,然后从该区域获取所有图像的内容。