2016-10-04 170 views
3

我想同步两个依赖数据库(elasticsearch和casandra)与我的父数据库:postgres。我正在尝试在本文中实现一种方法:https://qafoo.com/blog/086_how_to_synchronize_a_database_with_elastic_search.html。所以,我想出了2种方法同步elasticsearch&cassandra与postgres数据库

  1. Sync之前更新/插入数据相关的数据库

    router.put('/account/edit', function(req, res) { 
    
        syncElasticWithDatabase().then(() => { 
         elastiClient.update({...}); // client for elasticsearch 
         cassandraClient.execute({...}); // client for cassandra 
          req.end(); 
        }) 
    
    }) 
    

syncElasticWithDatabase()updates表使用数据(从postgres的),这种方法可以是因为慢有些人不得不等待syncElasticWithDatabase()完成。我喜欢这种方法,因为我利用了​​(详细检查文章)。数据在新数据进入之前同步,允许依赖关系追上,只有遗漏数据才会同步。与下面的选项2不同,防止重新索引/重新插入。

  • 使用底色处理(EI:在运行每24小时),我可以同步通过选择数据从update_error表,它包含当elasticsearch或卡桑德拉失败数据“错过了数据” 。这里有一个粗略的例子

    router.put('/account/edit', function(req, res) { 
    
        psqlClient.query('UPDATE....').then(() => { 
         elastiClient.update({...}); // client for elasticsearch 
         cassandraClient.execute({...}); // client for cassandra 
        }).catch(err => { 
         psqlClient.query('INERT INTO update_error ....') 
         }) 
    
        }) 
    

    但是这种方法需要重新索引或重新插入数据,因为在某些情况下,同时卡桑德拉没有或两种方式elasticsearch可以插入数据。因此,我需要一个单独的列来记录失败的数据库类型。这样我可以选择自上次同步时间以来每种数据库(ealsticsearch或cassandra)失败的数据。

  • 问题

    1. 方法1,似乎完美的,但是这将意味着某些人将不得不等待更长的时间比其他帐户更新由于syncElasticWithDatabase()。然而上面的文章完全一样(看他们的图)还是我误解了一些东西?

    2. 由于上述延迟(如果我是正确的),我介绍了选项2.然而,它只是太多,以同步恕我直言。然而,我花了很长时间思考这个......所以有比1和2更容易或更好的方法吗?

    3. Apache Zoo Keeper会帮助我的情况吗?

    谢谢:)


    其他参考

    Sync elasticsearch on connection with database - nodeJS

    https://gocardless.com/blog/syncing-postgres-to-elasticsearch-lessons-learned/

    +0

    我们怎么批量导入的Postgres表elasticsearch在Windows! –

    回答

    0

    基本上,你需要使用这里描述方法0并插入&从一个数据库表中选择数据。但请确保在“更新”中选择数据时限制选择的数量,例如:LIMIT 100

    这里的工作流程:

    1. 将数据保存到“更新”表中insert/update(如果delete确保你把它标记为一列删除)
    2. 然后运行这个程序 - >

      • 选择您最后一次插入:弹性搜索或Cassandra的sequence_id
      • 使用它从“更新”表中选择数据Ë像这样:id > :sequence_id

    然后,您可以插入数据(进入elasticsearch或卡桑德拉)或为所欲为。确保您将数据插入依赖数据库之前的“更新”表。而且没有必要复制document_id,因此用新的替换它们。这提供了一致性,并允许您在运行cron作业或同时执行特定操作时进行选择。然后将您的sequence_id更新为最后一个。

    我选择插入/更新/删除后直接同步数据到“更新”,然后我做res.end()(或任何完成响应),并使用sync()函数按升序选择100条新记录。我还每24小时运行一次cron作业(不包含LIMIT 100),以确保任何遗漏的数据将被同步。哦,是的,如果所有数据库的更新都成功了,那么你可能会从“更新”中删除记录,除非你出于其他原因使用它。但请注意,elasticsearch可以是内存条松动数据

    祝你好运:)而且我打开的建议