nlp

0热度

1回答

我有许多不同格式的扫描pdf与许多不同的字段。将其视为已扫描的发票。我需要从扫描的pdf中提取信息并输出字段和每个字段中的文本。我有一个OCR工具，可以很好地提取原始格式中的所有文本。我以某种方式使用NLP必须能够从原始文本中提取字段和它们的值。由于发票格式很多，在这种情况下使用OCR不是一种选择。 NLP如何帮助我解决这个问题？

3热度

1回答

如何识别文本中的模式并对其进行分类

从存储药品描述的表格中，我需要识别每个条目的产品名称，强度，产品数量和制药公司。目标是获得具有预定义结构的表的副本。当前表：规范化表：到目前为止，我读过一点点自然语言处理的，但我想知道的另一种方法;我正在考虑使用正则表达式，但有很多情况。任何一种洞察力将不胜感激。

-1热度

1回答

其他语言如阿拉伯语CoreNLP

我正在使用CoreNLP我已成功执行它的英语。我需要为阿拉伯语等其他语言做同样的事情。请问如何训练系统并将其用于其他语言？请给我详细的步骤

1热度

1回答

结合nltk.RegexpParser语法

正如我对学习更多关于NLP下一步，我想实现一个简单的启发式改善超出了简单的n-gram结果。根据下面链接的斯坦福搭配PDF，他们提到通过“只通过可能成为”短语“的那些模式的部分语音过滤器传递”候选短语“将产生比简单地使用最频繁的结果更好的结果存在的双克来源：搭配，第143页 - 144：https://nlp.stanford.edu/fsnlp/promo/colloc.pdf 144页上的

1热度

1回答

在应用ngram之前理解输入文本的最佳方法

目前我正在阅读excel文件中的文本并将它应用于bigram。 finalList已在下面的示例代码中使用的列表具有输入词列表从输入excel文件中读取。删除从输入禁用词具有下列库的帮助： from nltk.corpus import stopwords 二元逻辑应用于字的输入文本 bigram=ngrams(finalList ,2) 输入文本的列表：我完成了我的端至端处理。电流输

0热度

1回答

Imdb评论编码错误

我试图建立一个RNN模型，将评论分为正面或负面情绪。有一个词汇的词汇，在预处理过程中，我对一些索引序列进行了回顾。例如， "This movie was best" --> [2,5,10,3] 当我试图让频繁vocabs并查看其内容，我得到这个错误： num of reviews 100 number of unique tokens : 4761 Traceback (most rec

1热度

1回答

如何在不使用nltk库的情况下计算二元组估计值？

所以，我超新的Python和我计算的双字母组没有任何使用Python包的这个项目。我必须使用python 2.7。这是我迄今为止所拥有的。它需要一个文件hello然后给出一个输出，如 {'Hello'，'How'} 5。现在对于二元数的估计，我必须除以5的Hello（在整个文本文件中出现了多少次'Hello'）。我卡住任何帮助请！ f = open("hello.txt", 'r')

0热度

1回答

R中的Stemmer函数慢

我试图在R约40000行的数据集上运行stemmer函数（通过data.table包上传），但它需要永久运行。我的代码如下所示： data[, Description := map(Description, function(k) stemmer(k))] 如果手动停止的过程中，它显示超过50级的警告为： Image Link 是否有更快的运行它的替代品。我的电脑有8Gb内存。

0热度

1回答

功能在rake_nltk包返回无关键字

下面的代码返回无关键字： - from rake_nltk import Rake r=Rake() testscenario='''This document is very important as it has a lot of business objectives mentioned in it.''' defect='''Current day per security fil

1热度

2回答

从非结构化年鉴文本中提取人名

我有许多美国学校年鉴的人脸肖像和名称的扫描页面。来自页面的所有文本都是OCR化的并且每个页面以多个版本收集：非结构化文本文件。 Example Xml带有每句话的坐标。 Example 带有每个单个字母的坐标的Xml。 Example 的目标是，以确定哪些文本字符串代表的人的名字，并将其与人像有关。问题在于每一本年鉴都是独一无二的，每一页都可能是独一无二的，所以没有共同的模式可以应用（但可能有一