information-extraction

    7热度

    2回答

    什么是条件随机场? 条件随机字段如何在结构化或非结构化文本中将专有名称标识为人员,组织或地点? 例如:本品由计算器公司订购 是什么条件随机场做鉴定计算器公司作为一个组织?

    1热度

    3回答

    我想弄清楚如何使用Ruby从非结构化文本中提取日期。 例如,我想解析这个字符串的日期“2010年2月1日中午12:00(东部标准时间)之后开始的应用程序将不被考虑。” 有什么建议吗?

    1热度

    4回答

    我们从电子邮件中提取各种信息 - 航班,汽车租赁,酒店等。该方法是提取邮件正文,通常采用HTML格式,但有时候是文本或我们使用PDF/Word/RTF附件中的信息。然后,我们应用正则表达式(有时以几个步骤)以获取以表格形式提供的信息(您可以考虑飞行表,酒店表等)。注意,尽管我们解析HTML,但这不是网页抓取。 目前我们正在使用QL2的WebQL引擎,但我们正在考虑将其替换为商业原因。你能推荐另一台

    0热度

    1回答

    有谁知道周围是否有任何图书馆会提取日期和时间给定的文本?不管哪种语言,我只是在寻找一个图书馆来玩。

    0热度

    2回答

    如何从提取的网页中提取数据? 其中java脚本会随着时间更新数据。 是否有可能编写可从网页Java脚本访问变量的用户脚本? 请建议可能的方法来实现这一点。

    3热度

    2回答

    我正在从论坛中提取数据。我的脚本based on工作正常。现在我需要从单个帖子中提取日期和时间(2009年12月21日,20:39)。我无法得到它的工作。我使用FireXPath来确定xpath。 示例代码: require 'rubygems' require 'mechanize' post_agent = WWW::Mechanize.new post_page =

    66热度

    2回答

    我正在寻找一个PDF库,它将允许我从PDF文档中提取文本。我看了PyPDF,这可以很好地从PDF文档中提取文本。问题在于,如果文档中有表格,则表格中的文本将与文档文本的其余部分一起提取。这可能会产生问题,因为它会产生无用的文本部分,并且看起来乱码(例如,将大量数字拼凑在一起)。 我在找东西是更先进一点。我想从PDF文档中提取文本,排除任何表格和特殊格式。有没有这样的图书馆?还是我不得不对输出文本做

    14热度

    5回答

    我需要一个可以处理常见媒体格式的媒体信息提取库(纯Java或JNI包装器)。我主要使用它的视频文件,我需要至少这些信息: 视频长度(运行) 视频码率 视频帧率 视频格式和编解码器 视频尺寸(宽X高) 音频信道 音频格式 音频比特率和SAM pling rate 有几个库和工具,但我找不到Java。