linguistics

0热度

1回答

请做任何人知道免费的阿拉伯语标记的语料库，因为我在语法上工作，我需要一个。非常感谢。 Hani Almousli .....

9热度

4回答

我想在PHP中实现潜在语义分析（LSA），以便找出文本的主题/标签。这是我认为我必须做的。这是正确的吗？我怎样才能在PHP中编码？我如何确定选择哪些单词？我不想使用任何外部库。 I've already an implementation for the Singular Value Decomposition (SVD)。提取给定文本中的所有单词。加权单词/短语，例如与tf–idf。如

9热度

2回答

我应该在nltk中使用哪一个词干？

我的目标是分析一些语料库（现在的twitter）的情感内容。就在今天，我意识到搜索词干有一定意义，而不是有一个详尽的情感词干清单。所以我一直在探索nltk.stem，只是意识到有4个不同的词干。我想询问一下计算器语言学家LancasterStemmer，PorterStemmer，RegexpStemmer，RSLPStemmer或者WordNetStemmer是否最好有一些理由。

88热度

23回答

我如何正确地用“a”和“an”加一个词？

我有一个.NET应用程序，在给定名词的情况下，我希望它能用“a”或“an”正确地加上前缀。我会怎么做？之前，你认为答案是简单地检查，如果第一个字母是元音，可以考虑这样的短语：一个诚实的错误二手车

2热度

1回答

搜索实体名称数据库（高校，城市，个性，国家......）

对于我和另一个人正在研究的企业应用程序研究项目，我们正在寻找删除页面中的某些内容以保留发布的消息普遍的（意味着不冒犯，基本上是匿名的）。现在我们想告诉用户已经发布到留言板的消息，并删除任何类型的名称，大学或机构的名称和亵渎（如果以后可能我们想删除商家名称）。是否有一些我们可以连接到的数据库，我们可以运行scrub消息来检查数据库中的值以识别这些数据？

12热度

5回答

在Python中翻译人类语言

是否有Python模块用于将文本从一种人类语言翻译成另一种语言？我正计划使用Python脚本预处理和后处理的文本。可以使用其他Python集成方法？

4热度

5回答

用Lucene替代单词形式的最佳做法

我有一个可以使用Lucene搜索的网站。我从日志中注意到，用户有时找不到他们要查找的内容，因为他们输入了单数术语，但是该网站只使用该术语的复数版本。我希望搜索能够找到其他形式的单词的用法。这是一个我肯定已经解决了很多次的问题，那么最佳做法是什么？请注意：本网站只有英文版。我想到了一些方法：某种词库文件，以确定给定单词的替代形式中查找的单词。一些例子：搜索 “汽车”，还加上 “车” 来查询

2热度

5回答

关于“自动文本摘要（基于语言）”

我有“自动文本摘要（语言学方法）”作为我的最后一年项目。我收集了足够多的研究论文并通过了他们。我仍然不清楚'如何去做它'的事情。基本上我找到了“AUTOMATIC TEXT SUMMARIZER（基于统计）”，发现它比我的项目更容易。我的项目指南告诉我不要选择这个（基于统计的），并去基于语言。任何曾经参与或甚至听说过这类项目的人都会知道，总结任何文档都意味着除了评分每个句子（通过涉及某些特定算法

5热度

7回答

NLP：建筑（小）语料库，或“在哪里得到许多不太专业的英语文本文件？”

有没有人有建议可以在哪里找到在小语料库中使用的日常英语文本的档案或集合？我一直在使用Gutenberg Project书籍来制作一个工作原型，并且希望能够融入更多当代语言。 A recent answer这里间接指向了一个伟大的archive of usenet movie reviews，这在我看来并没有发生，而且非常好。对于这个特定的程序，技术性的usenet档案或编程邮件列表会倾斜结果并且难