分布式数据库选型问题

xzlzx 发布于 04/26 21:53
阅读 885
收藏 1

如何使用英特尔®oneAPI工具实现PyTorch 优化,直播火热报名中>>>

各位大神,我有个需求,每年接受第三方推送至少2T的数据,第三方数据源是oracle,未来的每年数据增长量可能会更多,偏OLAP,对事务暂时没什么要求,最好是可以横向扩展的分布式数据库,还有增量、全量复制,运维简单,就我一个人。我初步考察了一下greenplum,clickhouse,cassandra,doris,tidb,oceanbase,citus等,眼花缭乱,个人比较偏向citus,比较灵活,从pg转到citus,学习成本也低一些,大神们觉得citus有什么坑,或者有什么更好的建议还请不吝赐教。

加载中
0
ducat7
ducat7

Citus不适用的场景

必威体育app手机版对分布式没有需求,或者需要在节点间大量交换数据的场景,不适合使用Citus,例如:

  • 单节点PostgreSQL就能满足的场景,没有必要分布式;
  • 离线分析场景,对查询分析的实时性没有太高要求;
  • 不需要支持大量并发用户的分析场景;
  • 需要返回大量数据的ETL查询场景;

 

“每年接受第三方推送至少2T的数据”,如上所述,Citus不支持大数据量的IO操作。

一次数据量在TB级,建议是:EKL,清洗了再入DB集群。

PB级,建议是:Hadoop+Hive+HBase。

GB级,就个DB集群就可以了。

如果不需要关系型查询,时序数据库也可以。

必威体育app手机版如果数据类型是图,那就图形数据库了。

xzlzx
xzlzx
嗯嗯,谢谢:thumbsup:
0
itestAndy
itestAndy

必威体育app手机版clockroachDB 

0
ArchitectureMaster
ArchitectureMaster

补充下一楼所说的内容,Citus 作为PG的扩展,其实是多了一个部分表的处理。即单表select会由citus做内部分布查询。上层用户无须关心如何存取。

必威体育app手机版但这个有一个最大的问题就是citus分布表无法使用join 表操作。适用于大量数据的用户验证表可以使用这种方法。

从PG到Citus还是需要基于Postgre的安装,而citus本就是一个Extensiond存在,如果对pg操作习惯添加到citus是完全可行的!

OSCHINA
登录后可查看更多优质内容
返回顶部
顶部