information-extraction

    2热度

    2回答

    注意:我不是在寻找样本数据。 在不同的领域都暴露了什么实际数据免费向公众: 例如: 为FCM财务报告。 http://www.cftc.gov/MarketReports/FinancialDataforFCMs/HistoricalFCMReports/index.htm YouTube数据:(热门程度指标和渠道的统计) https://developers.google.com/youtube

    2热度

    2回答

    如何使用NLP /信息提取(IE)方法检测/找出缩写词的含义(扩展名)? 我们希望在自由文本中检测是否使用了单词或其首字母缩写词,并将其映射到相同的实体/令牌。 网上提供的大多数论文都是关于医学缩略语的,他们没有提供用于完成此任务的图书馆。 任何想法?

    7热度

    2回答

    我想应用词形化来减少单词的屈折形式。我知道对于英语语言来说,WordNet提供了这样的功能,但我也有兴趣应用荷兰语,法语,西班牙语和意大利语单词的词形。有没有可靠的和可靠的方法去解决这个问题?谢谢!

    0热度

    1回答

    我有一个问题给你。 我有一个XML文件(或CSV文件): <?xml version="1.0" encoding="UTF-8" standalone="no"?> <City> <Code>LO</Code> <Name>London</Name> </City> ,我要提取的附加信息(例如,作者,描述,创建者,评论,格式,则contentType等),从中在Jav

    0热度

    2回答

    例如,我们有以下字符串。 “The beatles - Imagine” 另外,我们在PostgreSQL里有很多艺术家的名字。 鉴于该字符串我想识别使用我的数据库艺术家。 我正在寻找最优化,快速的算法/技术来做到这一点。因此遍历数据库中的所有记录并查找子串是不适用的。 弦可以是“想象 - 披头士”,“想象一下,披头士”。就像Youtube视频中的歌曲名称一样。 会Solr,ElasticSear

    0热度

    1回答

    我是lucene新手(使用lucene jar和java大学项目),我想知道, lucene是否提供开箱即用的平均精度? 假设它做索引,并提供一些其他功能(这是可悲的 穷人记录...)。 任何帮助将不胜感激。 只要是明确的 - 这是一所大学的项目,但我不允许使用任何功能的Lucene supplys ...

    1热度

    1回答

    我的朋友有一个小企业,客户使用电子邮件订购服务。他每天收到几封电子邮件,并通过分拣变得非常麻烦。 客户可以请求约10种不同类型的任务,每个任务都有一个或两个单词来指定它。电子邮件中的其他信息是服务交付的地点,时间以及涉及的人员姓名。该电子邮件还包含一个ID,一个相当标准格式的长号码。 电子邮件是非结构化的,但都包含上面的关键信息。我的问题是:扫描这些电子邮件并提取关键信息(如服务类型,地点,人名,

    0热度

    1回答

    当谷歌索引一个特定的html页面时,我怎样才能找出(任何语言,但如果Python更好)? 理想情况下,我会有一个网址列表来检查。 我已经尝试了WayBack机器,但它没有我需要的大部分页面。此外,如果任何人都可以建议API从文本中提取多种语言的日期。

    0热度

    1回答

    任何人都可以告诉我如何使用iText库以编程方式从电子书(PDF)中提取目录,章节和索引的内容?

    -1热度

    3回答

    我可以使用什么方法登录到Cisco或瞻博网络路由器?我知道我可以使用telnet连接到路由器本身,但我不知道有一个API或任何允许我以非交互方式登录的东西。那么我怎么能做到这一点? 有没有我可以用来实现这个目标的库? 我看到有人用脚本来实现像expect这样的东西来知道何时发送用户名和密码。但是这是针对shell脚本的。我怎么能在java中做到这一点?我宁愿严格遵守java。 这样做的目标是允许j