nlp

    0热度

    1回答

    我有许多不同格式的扫描pdf与许多不同的字段。将其视为已扫描的发票。我需要从扫描的pdf中提取信息并输出字段和每个字段中的文本。 我有一个OCR工具,可以很好地提取原始格式中的所有文本。我以某种方式使用NLP必须能够从原始文本中提取字段和它们的值。由于发票格式很多,在这种情况下使用OCR不是一种选择。 NLP如何帮助我解决这个问题?

    3热度

    1回答

    从存储药品描述的表格中,我需要识别每个条目的产品名称,强度,产品数量和制药公司。目标是获得具有预定义结构的表的副本。 当前表: 规范化表: 到目前为止,我读过一点点自然语言处理的,但我想知道的另一种方法;我正在考虑使用正则表达式,但有很多情况。 任何一种洞察力将不胜感激。

    -1热度

    1回答

    我正在使用CoreNLP我已成功执行它的英语。我需要为阿拉伯语等其他语言做同样的事情。请问如何训练系统并将其用于其他语言? 请给我详细的步骤

    1热度

    1回答

    正如我对学习更多关于NLP下一步,我想实现一个简单的启发式改善超出了简单的n-gram结果。 根据下面链接的斯坦福搭配PDF,他们提到通过“只通过可能成为”短语“的那些模式的部分语音过滤器传递”候选短语“将产生比简单地使用最频繁的结果更好的结果存在的双克 来源:搭配,第143页 - 144:https://nlp.stanford.edu/fsnlp/promo/colloc.pdf 144页上的

    1热度

    1回答

    目前我正在阅读excel文件中的文本并将它应用于bigram。 finalList已在下面的示例代码中使用的列表具有输入词列表从输入excel文件中读取。 删除从输入禁用词具有下列库的帮助: from nltk.corpus import stopwords 二元逻辑应用于字的输入文本 bigram=ngrams(finalList ,2) 输入文本的列表:我完成了我的端至端处理。 电流输

    0热度

    1回答

    我试图建立一个RNN模型,将评论分为正面或负面情绪。 有一个词汇的词汇,在预处理过程中,我对一些索引序列进行了回顾。 例如, "This movie was best" --> [2,5,10,3] 当我试图让频繁vocabs并查看其内容,我得到这个错误: num of reviews 100 number of unique tokens : 4761 Traceback (most rec

    1热度

    1回答

    所以,我超新的Python和我计算的双字母组没有任何使用Python包的这个项目。我必须使用python 2.7。这是我迄今为止所拥有的。它需要一个文件hello然后给出一个输出,如 {'Hello','How'} 5。现在对于二元数的估计,我必须除以5的Hello(在整个文本文件中出现了多少次'Hello')。 我卡住任何帮助请! f = open("hello.txt", 'r')

    0热度

    1回答

    我试图在R约40000行的数据集上运行stemmer函数(通过data.table包上传),但它需要永久运行。我的代码如下所示: data[, Description := map(Description, function(k) stemmer(k))] 如果手动停止的过程中,它显示超过50级的警告为: Image Link 是否有更快的运行它的替代品。我的电脑有8Gb内存。

    0热度

    1回答

    下面的代码返回无关键字: - from rake_nltk import Rake r=Rake() testscenario='''This document is very important as it has a lot of business objectives mentioned in it.''' defect='''Current day per security fil

    1热度

    2回答

    我有许多美国学校年鉴的人脸肖像和名称的扫描页面。来自页面的所有文本都是OCR化的并且每个页面以多个版本收集: 非结构化文本文件。 Example Xml带有每句话的坐标。 Example 带有每个单个字母的坐标的Xml。 Example 的目标是,以确定哪些文本字符串代表的人的名字,并将其与人像有关。问题在于每一本年鉴都是独一无二的,每一页都可能是独一无二的,所以没有共同的模式可以应用(但可能有一