2017-10-18 103 views
-3

我有非结构化数据(应用程序屏幕截图)和半结构化数据(屏幕转储文件),我选择将其存储在hbase中。我的目标是找到应用程序上的缺陷或问题(意味着完整的数据)。现在,我想对这些应用数据挖掘,这是一种文本挖掘?以及我如何在这些数据上应用一些数据挖掘技术?非结构化数据如何实现数据挖掘?

+0

屏幕截图将被图像和屏幕转储为文本数据。那是对的吗? –

+0

是的,屏幕转储是xml数据,它是屏幕hieranchy – KaKa

回答

0
  • 首先,您可以使用基于规则的方法定义一组检测缺陷场景的规则。
  • 然后你可以准备训练数据集,其中有许多缺陷,非缺陷场景的实例。在这一步中,对于您收集的每个屏幕截图或屏幕转储文件;您会手动将其标记为缺陷或无缺陷。
  • 然后你可以使用这个训练数据来训练分类器。分类器会尝试推广训练样本来预测过去未见过的样本的输出标签。
  • 因为您的输入是非标准的,您可能需要一些预处理将您的输入转换为标准格式。例如,要处理屏幕截图,您可能需要一些图像处理,OCR和计算机视觉库。
+0

感谢Yogi Devendra – KaKa