我使用R进行数据分析,对此非常满意。然而,清洁数据可能会更容易一些。我正在考虑学习适合这项任务的另一种语言。具体来说,我正在寻找一种工具来获取原始数据,删除不必要的变量或观察值,并对其进行格式化以便于在R中加载。内容将主要是数字和字符串数据,而不是多行文本。Python或awk/sed清理数据
我正在考虑awk/sed组合与Python。 (我认识到Perl会是另一种选择,但是如果我要学习另一种完整语言,Python似乎是一个更好,更具扩展性的选择。)
sed/awk的优点是它会更快学习。缺点是这种组合不如Python可扩展。事实上,如果我学会了Python,我可能会想象一些“任务蠕变”,这可能很好,但不是我的目标。
我的另一个考虑是对大数据集的应用程序。据我了解,awk/sed一行一行地操作,而Python通常会将所有数据拉入内存。这可能是sed/awk的另一个优势。
我还有其他问题吗?任何建议,你可以提供将不胜感激。 (包括我的R用户提供他们清洗的建议R标志。)
通过“清理”,你是指裁剪异常值或恢复一致性或其他任何东西?通过“数据”,你的意思主要是数字或字符串,或只是文本?对我来说,这个当前问题的目标太笼统了。 – nye17
@ nye17,抱歉的歧义。我增加了一些细节。 – Charlie
我主要是为自己使用python,但如果它纯粹是基于文本的数据集的操纵,作为R的数据接口,我强烈建议perl,因为它具有强大的正则表达式和处理文本的灵活性。 – nye17