我是一位经验丰富的LAMP开发人员,并且具有丰富的php,nginx,haproxy,redis,mongodb和aws服务经验。每当有大量数据需求时,我就会使用aws web服务,最近开始阅读大数据,希望能够自己使用该技术,而不是使用托管服务进行大数据处理,流处理等。Apache项目和大数据世界
但是这与学习LAMP并不一样,因为用例的性质,很难为新手找到好的资源。特别适合没有参与过Java生态系统的人。 (据我的理解,Java软件几乎涵盖了流行的大数据堆栈)。在讨论大数据时,下面列出了几乎所有的软件弹出窗口,但很难理解每个项目的概念,每个项目主页上的描述都非常模糊。
例如“卡桑德拉”,对地表它是一个很好的数据库来存储时间序列数据,但阅读时更多的分析则其他堆栈上来,Hadoop的,猪,动物园管理员等
- 卡桑德拉
- 弗林克
- 水槽
- Hadoop的
- HBase的
- 蜂巢
- 卡夫卡
- 星火
- 动物园管理员
所以,简而言之,这是什么这些软件呢?在大数据背景下,这些项目中的一些共享相同的方面,为什么它们共存?有什么优势?什么时候用什么?
请求书籍或离线资源在计算器中被视为offtopic – Panther