2013-11-28 200 views
1

文本语料库格式,我发现,在大数据集维基百科 http://danielfrg.github.io/blog/2013/09/21/word2vec-yhat/
我想建立类似的丹尼尔,他已经证明他的教程中的一个yhat休息API使用word2vec的教程。自然语言处理:为word2vec

今天我把我想分析的一些西班牙报纸文章放在一起。我的网站非常有规律地检索了我的数据格式,因此我有1000个文章以字符串形式存储,例如

"Otros se dan a conocer por la simpleza, como Sonya Cortés, 
quien expresó que atesora compartir en familia y gozar de salud. 
En el ambiente del reggaeton, Khriz, del dúo Ángel & Khriz, 
aprovechará para estrenar su nueva piscina ya que por su agenda 
de trabajo no ha podido darse un chapuzón todavía. Mientras,  
Daddy Yankee se tomará un descanso con la familia luego de una larga gira." 

我熟悉Python和希望使用教程列出的Python包装: https://github.com/danielfrg/word2vec

如何将我的文集加载到word2vec?现在我有一个字符串数组。

目前我的语料库适合记忆。 word2vec仍然是正确的工具吗?

回答

0

尝试http://radimrehurek.com/gensim/models/word2vec.html

目前我的语料库适合记忆。 word2vec仍然是正确的 工具吗?

是的。 Word2vec(C和Python版本)可以使用大于RAM的语料库。当然,小于RAM的工作也是如此。

+0

酷!我正在尝试,但我卡住了。 http://stackoverflow.com/questions/20362993/how-to-load-sentences-into-python-gensim –

+0

我知道。我也在那里评论:) – Radim

1

如果

现在我有一个字符串

你的意思是它已经标记化的数组。

sentences = gensim.models.word2vec.LineSentence(path_to_corpus) 
model = gensim.models.Word2Vec(sentences, min_count=10, size=500, window=10, sg=1, workers=4) 

句子必须是串即列表清单:

[这是我的,首先,句子] [本,是的,第二]