nlp

1热度

1回答

我有如下形式的字符串〜100000名名单： ['the: 652', 'of: 216', 'in: 168', 'to: 159', 'is: 145']等基本上弥补了我的文集。每个列表都包含文档中的单词和单词数量。我该如何将这个语料库放入一个表单中，然后将其输入到CountVectorizer中？是否有比将每个列表转换为包含''''''''''''''的字符串更快的方法？

2热度

1回答

加速使用MITIE和Rasa的模型训练

我正在训练使用RASA中的MITIE后端来识别短，一到三个文本句子字符串的模型。该模型使用spaCy进行训练和工作，但并不像我想的那样精确。在spaCy上进行的培训不超过五分钟，但是对于MITIE的培训，我的计算机上连续运行了几天，使用16GB的RAM。因此，我开始在具有255GB RAM和32个线程的Amazon EC2 r4.8xlarge实例上进行培训，但似乎并未使用所有可用的资源。在莎配

1热度

1回答

如何解决Scikit用Numpy数组学习预处理流水线错误？

我正在使用scikit-learn建立一个分类器，预测两个句子是否为释义（例如：解释：爱因斯坦与什么是阿尔伯特爱因斯坦的长度有多高）。我的数据包含2个字符串（短语对）列和1个目标列，0和1（=无释义，释义）。我想尝试不同的算法。我期待下面的最后一行代码适合模型。相反，预处理Pipeline会产生一个我无法解决的错误：“AttributeError：'numpy.ndarray'对象没有'low

0热度

1回答

word2Vec或wod2Doc如何理解用户情绪

我已阅读了大量文档以阅读有关doc2Vec和word2Vec的内容。我明白，将单词表示为一个向量并执行简单的操作（如向量添加，减法以在单词之间产生有意义的类比）有多强大。虽然我仍然无法理解的一件事是如何使用这种技术来理解用户的情绪。有人可以详细说明如何使用这些技术分析用户情绪？谢谢 Samir

2热度

1回答

了解LDA /主题建模 - 太多的主题重叠

我是主题建模/潜在Dirichlet分配的新手，并且无法理解如何将该概念应用于我的数据集（或者它是否是正确的方法）。我有少量的文学文本（小说），并希望使用LDA提取一些常规主题。我在Python中使用gensim模块以及一些nltk功能。对于测试，我已将原始文本（只有6个）分成30个块，每个块包含1000个单词。然后我将块转换为文档项矩阵并运行算法。这是代码（虽然我觉得没关系的问题）： # c

2热度

2回答

嵌入图层的初始值是多少？

我正在研究词表示的嵌入。在许多dnn库中，它们都支持嵌入层。这真是很好的教程。 Word Embeddings: Encoding Lexical Semantics 但我仍然不知道如何计算嵌入价值。在下面的例子中，即使在任何培训之前，它都会输出一些值。它是否使用一些随机权重？我意识到Embedding(2, 5)的目的，但不确定它的初始计算。我也不确定如何学习嵌入的权重。 word_to_ix

2热度

2回答

将SMS片段组合成原始邮件

我们正在处理来自某些不支持SMS连接的运营商（Sprint）的短信。在某些情况下，我们会收到以随机顺序出现的消息，并且我想将它们拼接在原始文本中。每次都明显不同，但这里是一条示例消息。以下是我们收到他们收到第一个顺序的消息，应该是3 - 96个字符以尽可能高的水平上进行我的工作需要。我有在所有ABC调查中收到100。收到第二，应该是1 - 159个字符我已经在这个部门作为一个部件制造商

0热度

1回答

如何实现在搜索引擎中使用同义词？

我正在使用宠物搜索引擎（SE）。我现在什么是布尔关键字SE，作为被分成两个部分库：指数：这是一个倒排索引，即。它与它出现查询原始文档相关联的术语：这是由用户提供的，可以是任意复杂的布尔表达式，看起来像(mobile OR android OR iphone) AND game 我想提高搜索引擎以一种自动将简单查询扩展到布尔查询的方式，以便它包含在原始查询中不会出现的搜索项，即。我想支持同义词

0热度

1回答

如何标记为spacy的Sence2vec实施

SpaCy句子已经实施了sense2vec字的嵌入包，其中他们的文件here 的载体是所有形式WORD|POS的。例如，句子 Dear local newspaper, I think effects computers have on people are great learning skills/affects because they give us time to chat with f

0热度

2回答

更好的算法缩短英文单词

我有一些独特的代码，从我的应用程序的各个独立组件中的字符串（例如：网站主机名）生成。这些代码仅供机器使用，因此我希望尽可能缩短它们。以下算法将应用于字符串中的每个单词。输出字将与短划线连接以生成唯一代码。 The current algorithm I have used: - Skip word if length is less than 6 - Leave first chara