1
我构建了一个应用程序,用于使用Hadoop在分布式环境中搜索相似的图像存储。但是Hadoop不支持实时处理,为什么响应时间很长。我知道Storm是大数据分析应用的另一个框架。但是我很困惑我们是否可以使用Storm来实现这种应用。风暴框架应用程序
有没有人提供一个建议什么样的应用程序使用高效的Storm框架。
我构建了一个应用程序,用于使用Hadoop在分布式环境中搜索相似的图像存储。但是Hadoop不支持实时处理,为什么响应时间很长。我知道Storm是大数据分析应用的另一个框架。但是我很困惑我们是否可以使用Storm来实现这种应用。风暴框架应用程序
有没有人提供一个建议什么样的应用程序使用高效的Storm框架。
Storm是一个用于分布式计算的非常可扩展,快速,容错的开源系统,特别关注流处理。 Storm擅长事件处理和增量计算,通过数据流实时计算滚动指标
事件流处理是Storm的主要优势。
通常Hadoop用于批处理。但风暴是实时处理和星火分布式处理所有与内存的数据存储
Hadoop的看看这个Storm and Spark和Stack Comparison链接
编辑:
我对这个问题的解决方案
1)存放在CMS()与跨越多个网络,而不是在HDFS或CDN传播的NoSQL数据库)
2图像内容管理系统)存储图片ID,图片名称,MD5SUM,图像Location HBase表中的元信息
3)使用Spark & HBase进行图像数据处理通过检查删除重复图像MD5SUM
感谢您的回答和伟大的链接!我仍然不能清楚这是风暴一个合适的解决方案搜索相似的图像任务与图像存储在分布式计算机? – ndk076
我也是。我更喜欢Spark到Storm。 –
**免责声明:我是Apache Flink的提交者**您也可以考虑https://flink.apache.org/与Spark相反,它提供了类似于Storm的真正流式处理(并且不像Spark那样使用微量处理)而Flink也可以处理批量作业。比较:https://stackoverflow.com/questions/28082581/what-is-the-differences-between-apache-spark-and-apache-flink和https://stackoverflow.com/questions/30699119/what-is-对于flink和风暴之间的主要差异 –