如何使用英特尔®oneAPI工具实现PyTorch 优化,直播火热报名中>>>
各位大神,我有个需求,每年接受第三方推送至少2T的数据,第三方数据源是oracle,未来的每年数据增长量可能会更多,偏OLAP,对事务暂时没什么要求,最好是可以横向扩展的分布式数据库,还有增量、全量复制,运维简单,就我一个人。我初步考察了一下greenplum,clickhouse,cassandra,doris,tidb,oceanbase,citus等,眼花缭乱,个人比较偏向citus,比较灵活,从pg转到citus,学习成本也低一些,大神们觉得citus有什么坑,或者有什么更好的建议还请不吝赐教。
Citus不适用的场景
必威体育app手机版对分布式没有需求,或者需要在节点间大量交换数据的场景,不适合使用Citus,例如:
“每年接受第三方推送至少2T的数据”,如上所述,Citus不支持大数据量的IO操作。
一次数据量在TB级,建议是:EKL,清洗了再入DB集群。
PB级,建议是:Hadoop+Hive+HBase。
GB级,就个DB集群就可以了。
如果不需要关系型查询,时序数据库也可以。
必威体育app手机版如果数据类型是图,那就图形数据库了。
必威体育app手机版clockroachDB
补充下一楼所说的内容,Citus 作为PG的扩展,其实是多了一个部分表的处理。即单表select会由citus做内部分布查询。上层用户无须关心如何存取。
必威体育app手机版但这个有一个最大的问题就是citus分布表无法使用join 表操作。适用于大量数据的用户验证表可以使用这种方法。
从PG到Citus还是需要基于Postgre的安装,而citus本就是一个Extensiond存在,如果对pg操作习惯添加到citus是完全可行的!