我有一个RDD的字符串。每行对应各种日志。映射函数写在全局火花rdd
我有一个单一函数中的多个正则表达式匹配RDD的行以应用适应的正则表达式。
我想在RDD上映射这个独特的函数,因此它可以快速处理每一行,并将每行处理存储在另一个全局rdd中。
问题是,因为我希望这项任务能够并行化,所以我的全局RDD必须可以同时访问以添加每条处理过的行。
我想知道是否有其他方式来做到这一点或任何事情!我期待着提高我的火花技能。
例如,这就是我想做的事:
我有这样一个txt:
错误:Hahhaha PARAM_ERROR = 8 param_err2 = HTTPS
警告:HUHUHUHUH param_warn = tchu param_warn2 = wifi
我的正则表达式函数会将包含“ERROR”的行与数组匹配,例如Array("Error","8","https")
而另一个正则表达式函数将匹配包含“警告”与阵列例如Array("Warning","tchu","wifi")
行最后,我想获得用于处理每一个线条RDD[Array[String]]
。
如何让它与Spark并行?
“我有一个单一功能的多个正则表达式匹配/情况下,RDD的线条应用适应正则表达式” - 可以你编辑你的文章以包含这个函数的_signature_? –