2015-10-17 29 views
0

我正尝试为数据挖掘创建一个csv文件,其中每个单独实例都有一个属性subject,该属性具有40可能的值以及对应的grade也是属性。每个实例最多只能有4grade。我如何创建一个csv文件excel代表每个主题{p,q,r,s,t,u,v,w,x,y,z,aa,ab,...}作为sub-attribute{A,B,C,D,E,F,O}{A,B,C,D,E,F,O}作为值,这样我就不会失去依赖和关系的主题。重新格式化R中的CSV文件

他们显然安排(subject->sub, grade->grd)如下

|id|sex|sub1 |grd1 |sub2 |grd2 |sub3 |grd3 |sub4 |grd4 | 
|--|---|-----|-----|-----|-----|-----|-----|-----|-----| 
|1 |M |x |A |y |B |u |O |s |C | 
|2 |F |p |E |aa |E |t |A |r |B | 
|3 |M |q |B |z |D |aa |A |v |C | 
|4 |F |t |D |ab |O |y |B |u |A | 

我想要的属性转化为

|id|sex|subject          | 
|--|---|-----------------------------------------------| 
|1 |M |x |A |y |B |u |O |s |C | 
|2 |F |p |E |aa |E |t |A |r |B | 
|3 |M |q |B |z |D |aa |A |v |C | 
|4 |F |t |D |ab |O |y |B |u |A | 

在此先感谢

+0

**为什么**?没有应用程序将能够读取这种格式。因为它不再是CSV **。 –

+0

除了列标题外,这两个表看起来完全相同,因此很难理解您要查找的转换类型。你能澄清吗?一般来说,Excel中的大规模转换比使用OpenRefine或Python等语言更难。 –

回答

0

此后,它一直长什么,但希望这可以帮助别人其他。正如@ Anony-Mousse指出的那样,格式不再是csv数据格式。像字典这样的数据结构可以对这种表示形式有所帮助。这里有两种可能的选择,您可以创建嵌套字典和列表,或者数据的表示可以采用宽格式。对于像R这样的语言,要将数据转换为长fomart,可以使用重塑包来引用此链接。 https://stats.idre.ucla.edu/r/faq/how-can-i-reshape-my-data-in-r/