一般来说,我想要做的是在几个csv文件的“word”共享列中提取常用元素。 (2008.csv,2009.csv,2010.csv .... 2015.csv)提取几个列表中的常见元素
所有文件都在相同的格式: '字', '计数'
'字' 包含一年中某个文件中的所有常用词汇。
这里是一个文件的快照:
只要存在具有共同的元素的两个出8个文件,我想知道这些共享的元素和无论他们在哪里(这是非常像tfidf计算... btw)
无论如何,我的目标是要知道一些频繁的词出现在这些f尔斯。 (据我所知,一个元素最多可以在五个文件中)
我想知道这些词何时首次出现,即文件C中的一个词,但不是文件B和A中的词。
我知道+如果可能解决问题在这里,但它是非常繁琐的,我需要比较8中的2,8中的3,或8列中的4,在这种情况下,寻找共享元素。
这是我的工作了那么远,远离了我所需要的代码...我只是比较两个元素出8个文件: code
谁能帮助?
你忘了发布你到目前为止的代码。 –
请在您的问题中提供相关信息。链接可以删除,我们在这里帮助*你*。如果您能轻松一点,我们将不胜感激。 – zondo
这是如何像TFxIDF?你已经存档了DF,但它在那里结束。 – tripleee