2

已更新:

我正在为我的最终项目建立一个神经网络,我需要一些帮助。Tensorflow lstm用于情感分析而不学习。已更新

我正在尝试构建一个rnn来对西班牙文本进行情感分析。我有20万左右标记的鸣叫,我使用word2vec与西班牙嵌入

数据集&矢量矢量其中:

  • 我删除重复和分裂成集训练和测试集。
  • 向量化时应用填充,未知和句子结束标记。
  • 我将@mentions映射到word2vec模型中的已知名称。例如:@iamthebest => “约翰”

我的模型:

  • 我的数据张量具有形状=(的batch_size,20,300)。我有3类:中性,正面和负面,所以我的目标张量形状=(batch_size,3)
  • 我使用BasicLstm单元格和动态rnn来建立网络。
  • 我使用Adam Optimizer和softmax_cross entropy进行损失计算
  • 我使用一个丢弃包装来减少过度拟合。

最后运行:

  • 我曾尝试用不同的配置和他们的非似乎工作。
  • 最后设置:2层,512批次大小,15个纪元和lr的0.001。

Accuracy

Loss

我的弱点:

IM担心最后一层和最终状态在dynamic_rnn

代码移交:

# set variables 
num_epochs = 15 
tweet_size = 20 
hidden_size = 200 
vec_size = 300 
batch_size = 512 
number_of_layers= 1 
number_of_classes= 3 
learning_rate = 0.001 

TRAIN_DIR="/checkpoints" 

tf.reset_default_graph() 

# Create a session 
session = tf.Session() 

# Inputs placeholders 
tweets = tf.placeholder(tf.float32, [None, tweet_size, vec_size], "tweets") 
labels = tf.placeholder(tf.float32, [None, number_of_classes], "labels") 

# Placeholder for dropout 
keep_prob = tf.placeholder(tf.float32) 

# make the lstm cells, and wrap them in MultiRNNCell for multiple layers 
def lstm_cell(): 
    cell = tf.contrib.rnn.BasicLSTMCell(hidden_size) 
    return tf.contrib.rnn.DropoutWrapper(cell=cell, output_keep_prob=keep_prob) 

multi_lstm_cells = tf.contrib.rnn.MultiRNNCell([lstm_cell() for _ in range(number_of_layers)], state_is_tuple=True) 

# Creates a recurrent neural network 
outputs, final_state = tf.nn.dynamic_rnn(multi_lstm_cells, tweets, dtype=tf.float32) 

with tf.name_scope("final_layer"): 
    # weight and bias to shape the final layer 
    W = tf.get_variable("weight_matrix", [hidden_size, number_of_classes], tf.float32, tf.random_normal_initializer(stddev=1.0/math.sqrt(hidden_size))) 
    b = tf.get_variable("bias", [number_of_classes], initializer=tf.constant_initializer(1.0)) 

    sentiments = tf.matmul(final_state[-1][-1], W) + b 

prob = tf.nn.softmax(sentiments) 
tf.summary.histogram('softmax', prob) 

with tf.name_scope("loss"): 
    # define cross entropy loss function 
    losses = tf.nn.softmax_cross_entropy_with_logits(logits=sentiments, labels=labels) 
    loss = tf.reduce_mean(losses) 
    tf.summary.scalar("loss", loss) 

with tf.name_scope("accuracy"): 
    # round our actual probabilities to compute error 
    accuracy = tf.to_float(tf.equal(tf.argmax(prob,1), tf.argmax(labels,1))) 
    accuracy = tf.reduce_mean(tf.cast(accuracy, dtype=tf.float32)) 
    tf.summary.scalar("accuracy", accuracy) 

# define our optimizer to minimize the loss 
with tf.name_scope("train"): 
    optimizer = tf.train.AdamOptimizer(learning_rate).minimize(loss) 

#tensorboard summaries 
merged_summary = tf.summary.merge_all() 
logdir = "tensorboard/" + datetime.datetime.now().strftime("%Y%m%d-%H%M%S") + "/" 
writer = tf.summary.FileWriter(logdir, session.graph) 

# initialize any variables 
tf.global_variables_initializer().run(session=session) 

# Create a saver for writing training checkpoints. 
saver = tf.train.Saver() 

# load our data and separate it into tweets and labels 
train_tweets = np.load('data_es/train_vec_tweets.npy') 
train_labels = np.load('data_es/train_vec_labels.npy') 

test_tweets = np.load('data_es/test_vec_tweets.npy') 
test_labels = np.load('data_es/test_vec_labels.npy') 

**HERE I HAVE THE LOOP FOR TRAINING AND TESTING, I KNOW ITS FINE** 
+0

我想知道您是如何格式化数据的。每个推文有20个字。每个推文都有20个字吗?你有没有使用填充?如果是这样,你的准确性和损失必须由填充词语掩盖。而且LSTM也必须提供一个表演序列长度。让我们知道。 –

+0

推文是可变长度。我从数据集中获取每条推文,对这些词进行标记,然后使用word2vec模型对它们进行向量化,如果该词不在模型词汇表中,则生成一个与模型具有相同形状的随机向量,并在间隔(-0.25, 0.25)。并且我用零矢量填充每个推文以达到最大长度(20)。这可以吗? – SiM

回答

0

我已经解决了我的问题。在阅读了一些论文和更多的试验和错误之后,我找出了我的错误。

1)数据集:我有一个很大的数据集,但我没有正确格式化。

  • 我检查鸣叫标签(中性,正和负)的分布,意识到有所述鸣叫的分布和规范化它的差距。
  • 我通过清除网址hashtags和不必要的标点符号来清理它。
  • 我在矢量化之前洗牌过。

2)初始化:

  • 我初始化MultiRNNCell用零和我改变了我的自定义的最终层tf.contrib.fully_connected。我还添加了偏置和权重矩阵的初始化。 (通过固定这一点,我开始看到Tensorboard更好损失和准确性地块)

3)差:

4)腐烂的学习率:

  • 我增加了一个指数衰减速率后10000步过拟合来控制。

最终结果:

应用所有这些变化之后,实现了我的84%的测试精度,这是可接受的,因为我的数据集仍然吸。

我的最终网络配置为:

  • num_epochs = 20
  • tweet_size = 20
  • hidden_​​size = 400
  • vec_size = 300
  • 的batch_size = 512
  • number_of_layers = 2
  • number_of_classes = 3
  • start_learning_rate = 0.001