我想在PHP中实现潜在语义分析(LSA),以便找出文本的主题/标签。 这是我认为我必须做的。 这是正确的吗?我怎样才能在PHP中编码?我如何确定选择哪些单词? 我不想使用任何外部库。 I've already an implementation for the Singular Value Decomposition (SVD)。 提取给定文本中的所有单词。 加权单词/短语,例如与tf–idf。如
我有“自动文本摘要(语言学方法)”作为我的最后一年项目。我收集了足够多的研究论文并通过了他们。我仍然不清楚'如何去做它'的事情。基本上我找到了“AUTOMATIC TEXT SUMMARIZER(基于统计)”,发现它比我的项目更容易。我的项目指南告诉我不要选择这个(基于统计的),并去基于语言。 任何曾经参与或甚至听说过这类项目的人都会知道,总结任何文档都意味着除了评分每个句子(通过涉及某些特定算法
有没有人有建议可以在哪里找到在小语料库中使用的日常英语文本的档案或集合?我一直在使用Gutenberg Project书籍来制作一个工作原型,并且希望能够融入更多当代语言。 A recent answer这里间接指向了一个伟大的archive of usenet movie reviews,这在我看来并没有发生,而且非常好。对于这个特定的程序,技术性的usenet档案或编程邮件列表会倾斜结果并且难