3

如果您有文本列表和对特定主题感兴趣的人,那么为特定人选择最相关文本的算法是什么?根据内容优先考虑文本

我认为,这是一个相当复杂的话题,作为一个答案,我想到几个方向来研究文本分析,文本统计学,人工智能等多种方法

谢谢

回答

2

这个任务有很多算法。至少在这里提到这些都太多了。首先一些出发点:

  • 主题发现和推荐是两个相当独特的任务,虽然他们经常重叠。如果您拥有稳定的用户群,则可以在未发现任何主题的情况下提供非常好的建议。

  • 发现主题并为其分配名称也是两个不同的任务。这意味着,能够说出文本A和文本B共享类似的主题通常会更容易,而不是明确地说出这个常见主题可能是什么。为人物提供名字最好由人来完成,例如让他们给物品加标签。

现在来看一些实际的例子。

  • TF-IDF通常是一个很好的起点,但它也有很多缺点。例如,它不能说两个文本中的“汽车”和“卡车”意味着这两个可能共享一个话题。

  • 用于自动聚类数据的Kohonen映射。它学习主题,然后按主题组织文本。

  • http://de.wikipedia.org/wiki/Latent_Semantic_Analysis通过检测不同单词之间的语义相似性,可以提升TF-IDF。另请注意,这已获得专利,因此您可能无法使用它。

  • 一旦用户或专家分配了一组主题,您还可以尝试几乎任何类型的机器学习方法(例如SVM)将TF-IDF数据映射到主题。

1

作为搜索引擎engieneer我认为这个问题是最好解决使用两种技术相结合。

技术1,搜索(TF-IDF或其他算法)

使用搜索到你没有用户统计的内容创建基准模型。有很多技术,但我认为Apache Lucene/Solr代码基础是最成熟和最稳定的。

技术2,基于用户的推荐人(其他k-nearest neighborhood算法)

当你开始得到用户的统计数据用这个来提高通过文本分析系统中使用的相关模型。解决这些问题的快速增长的代码库是Apache Mahout项目。

+0

谢谢,看起来不错。我需要一点时间来阅读它。 – xralf

1

检查出Programming Collective Intelligence,这是对这些方面的各种技术的很好的概述。也很可读。

+0

谢谢,这是一个小小的不同,但非常有趣的话题。 – xralf