information-extraction

7热度

2回答

使用条件随机场进行命名实体识别

什么是条件随机场？条件随机字段如何在结构化或非结构化文本中将专有名称标识为人员，组织或地点？例如：本品由计算器公司订购是什么条件随机场做鉴定计算器公司作为一个组织？

1热度

3回答

使用Ruby从文本解析日期

我想弄清楚如何使用Ruby从非结构化文本中提取日期。例如，我想解析这个字符串的日期“2010年2月1日中午12:00（东部标准时间）之后开始的应用程序将不被考虑。” 有什么建议吗？

1热度

4回答

寻找信息回报/文本挖掘应用程序或图书馆

我们从电子邮件中提取各种信息 - 航班，汽车租赁，酒店等。该方法是提取邮件正文，通常采用HTML格式，但有时候是文本或我们使用PDF/Word/RTF附件中的信息。然后，我们应用正则表达式（有时以几个步骤）以获取以表格形式提供的信息（您可以考虑飞行表，酒店表等）。注意，尽管我们解析HTML，但这不是网页抓取。目前我们正在使用QL2的WebQL引擎，但我们正在考虑将其替换为商业原因。你能推荐另一台

0热度

1回答

日期提取库

有谁知道周围是否有任何图书馆会提取日期和时间给定的文本？不管哪种语言，我只是在寻找一个图书馆来玩。

0热度

2回答

如何解析包含javascript的呈现网页

如何从提取的网页中提取数据？其中java脚本会随着时间更新数据。是否有可能编写可从网页Java脚本访问变量的用户脚本？请建议可能的方法来实现这一点。

3热度

2回答

使用Ruby/Mechanize（和Nokogiri）从HTML中提取单个字符串

我正在从论坛中提取数据。我的脚本based on工作正常。现在我需要从单个帖子中提取日期和时间（2009年12月21日，20：39）。我无法得到它的工作。我使用FireXPath来确定xpath。示例代码： require 'rubygems' require 'mechanize' post_agent = WWW::Mechanize.new post_page =

66热度

2回答

高级PDF解析使用Python（提取没有表等的文本）：什么是最好的图书馆？

我正在寻找一个PDF库，它将允许我从PDF文档中提取文本。我看了PyPDF，这可以很好地从PDF文档中提取文本。问题在于，如果文档中有表格，则表格中的文本将与文档文本的其余部分一起提取。这可能会产生问题，因为它会产生无用的文本部分，并且看起来乱码（例如，将大量数字拼凑在一起）。我在找东西是更先进一点。我想从PDF文档中提取文本，排除任何表格和特殊格式。有没有这样的图书馆？还是我不得不对输出文本做

14热度

5回答

Java的媒体信息提取器

我需要一个可以处理常见媒体格式的媒体信息提取库（纯Java或JNI包装器）。我主要使用它的视频文件，我需要至少这些信息：视频长度（运行）视频码率视频帧率视频格式和编解码器视频尺寸（宽X高）音频信道音频格式音频比特率和SAM pling rate 有几个库和工具，但我找不到Java。