我想将一个stackexchange原始数据处理成BigQuery,但首先数据使用7z压缩格式,所以我解压缩数据以将其移植到gz格式,但内部文件是一个XML。所以我需要将文件从xml转换为json。有任何想法吗?我使用p7zip解压缩和xml2json尝试移植xml文件,但无法正常工作。将xml转换为json以将文件处理成Bigquery
<?xml version="1.0" encoding="utf-8"?> <comments> <row Id="1" PostId="1" Score="3" Text="We need to all post more questions. Last time, we kinda "rushed" to get a w hole bunch of people to sign up at the last minute (and pulled some funny stuff" CreationDate="2014-02-12T01:01:14.257" UserId="52" />..
我用xml2json xml2json -t json2xml -o xxx.xml yyy.json
其他测试使用XML-JSON **大卫recomendations
使用这个文件users.xml中(大小895M)从stackoverflow.com-Users.7z使用此命令:XML,JSON users.xml中排> Users.json
xml-json Users.xml row > Users.json /usr/local/lib/node_modules/xml-json/node_modules/xml-nodes/index.js:19 this.soFar += String(chunk)
RangeError: Invalid string length
at XmlNodes._transform (/usr/local/lib/node_modules/xml-json/node_modules/xml-nodes/index.js:19:15)
at XmlNodes.Transform._read (_stream_transform.js:183:22)
at XmlNodes.Transform._write (_stream_transform.js:167:12)
at doWrite (_stream_writable.js:265:12)
at writeOrBuffer (_stream_writable.js:252:5)
at XmlNodes.Writable.write (_stream_writable.js:197:11)
at Duplexify._write (/usr/local/lib/node_modules/xml-json/node_modules/pumpify/node_modules/duplexify/index.js:197:22)
at doWrite (/usr/local/lib/node_modules/xml-json/node_modules/pumpify/node_modules/duplexify/node_modules/readable-stream/lib/_stream_writable.js:237:10)
at writeOrBuffer (/usr/local/lib/node_modules/xml-json/node_modules/pumpify/node_modules/duplexify/node_modules/readable-stream/lib/_stream_writable.js:227:5)
at Writable.write (/usr/local/lib/node_modules/xml-json/node_modules/pumpify/node_modules/duplexify/node_modules/readable-stream/lib/_stream_writable.js:194:11)
at ReadStream.ondata (_stream_readable.js:539:20)
at ReadStream.emit (events.js:107:17)
at readableAddChunk (_stream_readable.js:162:16)
at ReadStream.Readable.push (_stream_readable.js:125:10)
at onread (fs.js:1581:12)
at Object.wrapper [as oncomplete] (fs.js:482:17)
转换复杂的FpML XML文本(TSV)
的确如此,我无法处理数据。我使用了stackoverflow.com-Comments.7z(来自https://archive.org/details/stackexchange)1.8GB。但是当尝试将xml文件转换为json到7z中。这个过程永无止境。我使用了13GB RAM和2个处理器的虚拟机。也许存在其他方式来处理大文件o将目标文件转换成BigQuery数据。 – 2014-10-01 14:22:42
看。您的机器规格对于此任务并不重要。获取可以打开大型文本文件的文本编辑器。打开XML并剪下一个有代表性的样本。从该示例中,仔细创建您想要查看的JSON。在这里发布这两个代码示例,我(或其他人,就此而言)将能够看到他们可以做什么。你不会得到如下答案:*“只需使用工具XYZ将XML转换为JSON即可。”部分原因是你没有发布任何硬性要求,部分原因是这个魔法工具可能不存在。 – Tomalak 2014-10-01 14:37:00