问题
总的来说,所有的问题都离不开容量、效率与扩展性这三个方面的瓶颈。其中容量又与可扩展性息息相关。
容量
容量瓶颈是最直观的问题,随着数据量的不断增加,总有一天会超越其设计极限。因此无论采用的是OLTP数据生产系统还是采用OLAP数据仓库系统,一般都会设计存放固定时限的在线数据。
效率
效率瓶颈也是明显的 ,对传统的数据库管理系统来讲,如果所管理的数据量增大了,即使我们要访问的局部数据实体的量并没有变化,也会导致效率下降。这个很容易理解,最常见的情况就是全表扫描。更不用说哪些在数据量很大的时候,几乎无法正常工作的算法,例如企业的ODS系统中经常遇到的大表merge运算。
扩展性
扩展瓶颈是指现有的数据管理工具与手段无法平滑方便地适应数据量的急剧增加,一般情况下,在扩容达到上限时,我们不得不进行昂贵、复杂、耗时、费力的更新换代工程。但是这样的手段也是治标不治本,仅能应付一段时间。
治理方向
针对上述情况,现代数据管理的目标应该针对以下几个方面:
海量数据的容纳能力
现在动辄都是PB级别,并且海量并不仅仅指的数量,更针对的是各种类型的数据,这一点的衡量标准,可以与水平可扩展性相关联。
多类型,多结构
大数据时代,企业关心的已经不仅仅是原有的业务数据,一些随之而来的交互数据也要考虑进来。譬如传感器的机器数据,应用日志,文本文件等等。这些数据大都是半结构/非结构化的。也就是说,现代数据管理应该支持包括结构化,半结构化,非结构化等多种类型数据的管理需求。
高负载,高可用,高可靠
数据量大了,更讲究实时性以及可用性,譬如淘宝网,不用多讲。