information-extraction

    0热度

    1回答

    作为我目前正在进行的暑期项目的一部分,我有兴趣编写一个脚本来自动检索特定网站站长的联系人电子邮件地址。有没有任何信息可以帮助我启动我?例如研究论文,类似应用程序的源代码等。我目前正在阅读由Manning,Raghavan和Schutz撰写的“信息检索导论”,因为这项工作是一个更大的信息提取项目的一部分,我最终希望开发一个人搜索系统。哦,是的,我打算用Ruby编写这些系统,如果有任何进一步的帮助。谢

    0热度

    1回答

    是否可以计算一篇文章中提及实体的次数?例如 ABC Company是全球最大的汽车制造商在世界 一个。 It也是公司年产量最大的 公司。 It也是豪华轿车的第二大出口国,经过XYZ 公司。 ABC和XYZ 合计产生​​的汽车总产量超过n% 该国的生产。 提到ABC公司4次。

    0热度

    1回答

    我需要查询AutoCAD模型以提取它们之间的结构和连接(例如,电源,数据),以便存储在数据库中。我从经验和研究中得知,由于格式的专有性质,处理原生AutoCAD .dwg是有问题的。我发现AutoCAD的功能是.NET API,但这个问题仍然令人望而生畏,因为我基本上不知道模型内容的先验知识。这个问题看起来像是一篇博士论文,因为我最初的谷歌搜索工具并没有在工具支持或示例方面取得太多成果。 是否有工

    2热度

    1回答

    我正在用Perl下载Flash视频。有没有办法与Flash视频交互,比如像在C#中那样,从Flash视频中获取变量? 例如,在C#中,您可以在表单上放置Shockwave Flash Object,然后您可以在该对象上执行GetVariable/SetVariable。我不想/不在乎,如果我可以看到的视频,我只想要类似于C#Shockwave Flash对象的Get/SetVariable。

    11热度

    2回答

    我正在写一个python脚本从几个国家和语言的数千篇新闻文章的集合中提取“实体名称”。 我想利用令人惊叹的DBPedia结构化知识,例如查找“埃及艺术家”的名称和“加拿大公司”的名称。 (如果这些信息是SQL的形式,我不会有任何问题。) 我更愿意下载内容DBpedia中和离线使用。任何想要做什么以及如何从python本地查询它的想法?

    2热度

    2回答

    我正在寻找一种方法来提取用于导航从一个网页沉重的链接(可能是文本)的菜单。我感兴趣的页面是非常简单且有效的XHTML,并且可以安全地假定菜单位于页面的开头或结尾。但是,一种很好的,一般的方法来找到它的确切位置,迄今为止已经避开了我 - 我希望你能够帮助我解决这个问题。 快速注意:我不是寻找类似可读性 - 找到主要的文章和剥夺一切,但是对于一些具体发现菜单。 另外,“找到一个有很多链接作为继任者的元

    0热度

    3回答

    我想了解用户的serarh术语。想想有人在寻找“纽约的主食” - 我想了解它的位置搜索关键字是主食和位置是纽约。同样,如果有人输入“cat in hat”,解析器不应该将其标记为位置搜索,这里整个关键字是“cat in hat”。 是否有任何算法或开源库可用于解析搜索词并了解其比较(如A vs B)或其基于位置的搜索(如X中的A)?

    3热度

    5回答

    我们拥有数以百万计的包含我们从PDF提取各种数据结构简单的txt文件,文本由行打印线,因此所有格式都将丢失(因为当我们试图工具来维持格式他们只是搞砸了)。我们需要从这个文本文件中提取字段和值,但是这些文件的结构有一些变化(在这里和那里都有新行,在某些表单上有噪音,所以拼写不正确)。 我在想我们会创建一些关于关键字和值的坐标(行,字/词的数量)的信息的模板结构,并使用这些信息来定位和收集关键字值,使

    1热度

    1回答

    我试图从短的非统一产品描述中提取数据,以部分自动化为我公司的在线商店制作产品网页。不幸的是,描述并不统一。感谢这个网站,我已经学到了足够多的关于正则表达式来公平地刺激它。 在产品测量方法中,这里是一个失败的测试。 w. This product is 68 cm by 22 cm by 73 cm -- Length: 68 cm Width: 73 cm Height: 但这非常相似的测试不会失

    1热度

    2回答

    我想从大型网站提取信息并生成本体。可以用描述逻辑处理的东西。 对提取的html数据建议什么数据结构? 我的想法尚未: - 使用数据帧,表结构 - 集合,关系(套包和良好的关系) - 图形 。 最后,我想导出数据并计划使用其他编程语言通过谓词逻辑(或描述逻辑)来处理它。 我想用R从HTML页面提取信息。但据我所知,在R(或包)中对谓词逻辑或RDF/OWL没有直接的支持。 所以我需要做的提取,使用过程