我目前正在分析一些Apache网络日志。一些行包含重复项(不完整的重复项,因为日期时间可能相差几秒),如下图所示。我主要在Spark中使用SQL。我只想保留一个。如何从这些网络日志中删除重复行
-1
A
回答
-1
您可以在SQL查询中使用group by
命令,例如:
select * from table where x = y group by x_column
0
可以使用“dropDuplicates”方法通过查询内,以便移除重复的代替的基团。
'weblogs_filter_bekijk = sqlContext.sql("select endpoint from basetable5 where ip_address = '91.74.184.68'").dropDuplicates'
这应该对您有所帮助。您可以参考下面的链接以获取此方法的详细说明。
https://spark.apache.org/docs/1.5.1/api/java/org/apache/spark/sql/DataFrame.html
相关问题
- 1. 如何从表中删除重复添加日志?
- 2. 如何删除一些重复的行
- 3. 如何删除这些行
- 4. 如何删除ie网络驱动程序的日志?
- 5. 如何从ELMAH日志中删除“Auth_Password”
- 6. Extjs4如何从网格中删除重复的行?
- 7. 排序并删除sql日志中的重复行
- 8. 从网页顶部删除PHP日志
- 9. 如何删除重复行
- 10. 如何从日期数组中删除重复日期?
- 11. 删除NGINX日志后如何重新开始日志记录?
- 12. 如何从Hibernate本身删除日志?
- 13. 如何删除日志(NLog)?
- 14. 如何从jboss日志中删除不需要的行?
- 15. 如何删除这些C宏之间的重复?
- 16. 如何删除CockroachDB中的重复行
- 17. 如何删除CSV中的重复行?
- 18. 如何删除SQL中的重复行?
- 19. 如何删除MySQL中的重复行?
- 20. 如何删除emacs中的重复行
- 21. Android:如何从CallLog中删除重复?
- 22. 如何从中删除重复项?
- 23. 如何从ArrayList中删除重复项?
- 24. 如何从列表中删除重复
- 25. 如何从元组中删除重复
- 26. 如何删除重复项,并更新引用这些重复的SQL
- 27. 如何删除这行代码中的重复?
- 28. 这段代码如何从数组中删除重复项
- 29. 骡 - 排除日志中的某些行
- 30. 如何清除的SharePoint使用日志和/或网络分析日志
是否解决了我的问题? – dheee