2011-08-17 61 views
5

所以这里是我的问题。我有两段文字,我需要看看它们是否相似。不是在字符串度量的意义上,而是在意义上。以下两段是相关的,但我需要确定它们是否涵盖了“相同”主题。任何帮助或指导解决这个问题将不胜感激。比较两个英文字符串的相似性

化石燃料是通过自然过程形成的燃料,如厌氧 分解埋藏的死亡有机体。其生物化石燃料的年龄通常为数百万年,而有时超过6.5亿年。化石燃料含有高百分比的碳,包括煤炭,石油和天然气。 化石燃料的范围从挥发性材料与低碳:氢气比例如甲烷,液体石油非挥发性材料 由几乎纯碳组成,如无烟煤。甲烷可以是在烃田中发现的 ,单独与油有关,或者在甲烷包合物的形式中。人们普遍认为,它们通过暴露于热量和数百万年地壳中的压力形成了死亡植物的化石遗骸,形成了 。这种生物学理论在1856年由Georg Agricola首次提出,后来由 Mikhail Lomonosov在18世纪引入。

第二:

化石燃料重整是从化石燃料如天然气生产氢气或其它 有用的产品的方法。这是在称为重整器的处理设备中实现的 ,其在高温下与蒸汽 反应与化石燃料。蒸汽甲烷重整器 广泛用于工业制氢。也有兴趣在 开发更小的单位基于类似的技术 产生氢作为燃料电池的原料。小型蒸汽供应燃料电池的重整装置目前是研究和开发的主题,通常涉及甲醇或天然气的重整,但其他燃料也正在考虑如丙烷,汽油,汽油,柴油,柴油等的 。和乙醇。

回答

3

一般来说,我认为这仍然是一个悬而未决的问题。自然语言处理仍然是一个新兴领域,虽然我们可以做得很好,但做这种分类和分类仍然非常困难。

我不是NLP的专家,但您可能想查看these lecture slides讨论情感分析和作者身份检测。您可能使用的技术来进行您所建议的文本比较与您将用于前述分析的技术相关,您可能会发现这是一个很好的起点。

希望这会有所帮助!

2

您还可以看看机器学习中的潜在狄利克雷分配(LDA)模型。这里的想法是找到每个文档(或段落)的低维表示,简单地作为一些“主题”的分布。该模型通过一系列文档/段落以无监督的方式进行培训。

如果您对段落集合运行LDA,那么通过查看隐藏主题向量的相似性,您可以找到给定的两个段落是否相关。

当然,基线是不使用LDA,而是使用术语频率(用tf/idf增加)来度量相似度(向量空间模型)。