information-extraction

0热度

1回答

我对解析半结构化文本感兴趣。假设我有一个带有标签的文字：year_field,year_value,identity_field,identity_value，...，address_field,address_value等等。这些字段及其相关值可以在文本中的任何位置，但通常它们彼此接近，并且更一般地说，文本组织在（非常）粗糙的矩阵中，但通常该值恰好在最终会有一些非有趣的信息。不同格式的数字可

12热度

1回答

如何将依赖路径编码为分类特征？

我想实现动词对之间的关系提取。我想使用从一个动词到另一个动词的依赖路径作为我的分类器的一个特征（预测是否存在关系X）。但我不确定如何编码依赖路径作为一个功能。以下是一些例子依赖路径，如空间从StanfordCoreNLP倒塌的依赖分离的关系注释： nsubj acl nmod:from acl nmod:by conj:and nsubj nmod:into nsubj acl:relcl

5热度

2回答

在NLTK中使用自定义标签的培训标记器

我有一个带有标记数据的文档，格式为Hi here's my [KEYWORD phone number], let me know when you wanna hangout: [PHONE 7802708523]. I live in a [PROP_TYPE condo] in [CITY New York]。我想根据一组这样的标记文档来训练模型，然后使用我的模型来标记新文档。这在NLTK中

-1热度

1回答

是否有任何提取非结构化文本信息（新闻文章，书籍等）

我一直在试图找到一个程序，可以从非结构化文本（新闻文章，书籍等）提取信息。我最终的目标是创建一个程序，它可以将常规句子缓存到数据库中，就像谷歌一样，但没有所有重复信息。让我们以NLTK为例：“周四早上八点，Arthur感觉不太好。” ，我想提取的东西应该是：时间：下午8:00 日期：周四人：亚瑟动作：身体不舒服有没有一个程序可以做到这一点？我试过使用NLTK，但我似乎找不到任何好方法

1热度

1回答

逻辑语义学，信息提取与汇总

我想知道关于这些问题的一般概念，在数据分析和NLP领域。包括哪些步骤？如果我想从任何领域特定的文本中检索有意义的信息并理解任何文本的总体思路。另一个问题，分析文本的大小越大，结果越好？请原谅我的无知。我想了解更多信息，如果您提供了一些教程或阅读材料，这将对我有很大的帮助。

1热度

1回答

如何使用PoS标签作为Naive Bayes分类器训练数据的特征？

我正在研究如何从文档中提取关键短语作为我的论文。在我的研究中，我使用朴素贝叶斯分类器机器学习来创建候选术语特征的训练模型。其中一个特性是PoS标签，我认为这个特性对于指定一个术语是否是keyphrase非常重要。但是输入朴素贝叶斯（NB）分类器是数字和PoS标记是一个字符串。所以我不知道将PoS标签特征表示为数字以便成为NB分类器的输入特征的方式。请帮我给你的建议。感谢和问候， HIEN

33热度

1回答

什么是CoNLL数据格式？

我是新来的文本挖掘。我使用了一个开源的jar（Mate Parser），它在依赖解析之后以CoNLL 2009格式输出。我想使用信息抽取的依赖分析结果。但是我能够理解一些输出，但不能理解CoNLL数据格式。任何人都可以帮助我理解CoNLL数据格式吗？任何类型的指针将不胜感激。

0热度

1回答

将从网站Flash游戏中提取数据的应用程序

基本上我需要有关如何从Flash游戏基于Web的客户端获取数据并将该数据放入应用程序的信息。 evony.com是一款基于网页的flash游戏。我大概可以找出编码，比如解析登录名和密码，并在应用程序中显示信息。什么IM有一个主要问题是下面，我怎样才能找出正在从基于Web的客户端传输到他们的服务器以什么格式的数据。什么软件，最好是免费的，就是在那里，会为我做到这一点？是否有任何教程，解释，指

0热度

1回答

有没有办法从堆栈溢出下载所有的问题和答案？

我有兴趣查看网站使用情况，问题类型和堆栈溢出问题的答案。有没有办法下载所有的内容？我已经考虑过用美丽的汤或类似的选项作为网页抓取，但认为有这么多专家用户的信息可能很容易通过API获得。

0热度

1回答

如何使用OpenIE执行搜索

我下载了UWashington的OpenIE。二进制接受一个句子并输出标签。然而在他们的网站http://openie.cs.washington.edu/他们展示搜索功能。你可以搜索“人物”和“地点”，并得到像“住在”，“工作在”等结果。但他们的github网站并没有告诉你如何做到这一点。我怎么能做到这一点，并提供我自己的数据？