新时代的数据资产
Big Data 遇到了什么瓶颈?
一提及Big Data,人们总是会提到数据指数级增长。然而,这个老生常谈的观点其实只关注了Big Data背后的 Volume 和 Velocity 特征,而对于适应此纬度的过度关注却容易让人忽视了更重要的 Value。
数据真的都大到1以PB级以上的数据集存在吗?从数据中挖掘出价值的瓶颈真的在于数据处理性能吗?
1 |
|
数据的分布遵从 Zipf Law, 即:若以数据量大小为纵轴、以该大小的数据量或者具有该数据量的个人/组织数量为横轴,会发现整体分布呈现幂律分布特征。
现实:没有一个系统能足够优秀到能以99分的成绩容纳所有的数据分析Workload。当某个Workload重要到其需求无法被一个中规中矩的平台满足时,使用者往往会选择采用一个性价比更高或性能更卷的技术栈。
目前的大部分Data Stack,在解决“数据孤岛”问题的逻辑上是相同的:我自己建我内部的计算引擎,存储引擎,连接池等各个组件,等到需要分析数据时,我先把各个源头的数据搬运到我自己内部,用我更擅长的数据结构重构后存储,这样我就能用自己的引擎更高更快更强地进行混合查询,让数据联合起来释放更多的价值。
然而,技术供应商往往挤破头卷性能,仅为头部量级的数据处理提供解决方案,却对长尾的不同量级的数据集的分析处理优化视而不见,这导致能将数据从价值有限的困境中解放出来的场景无人问津。
大数据已死?
在2023年 MotherDuck 博客的一篇广为流传的帖子中,挑衅地题为“大数据已死”,Jordan Tigani 指出“大多数应用程序”不需要处理海量数据。他写道“用于分析工作负载处理的数据量几乎肯定比比想象的要小。” 因此,在投入更贵的数据仓库或分布式系统之前,先考虑一个简单的基于单计算机的分析软件更有意义。
新时代的数据资产
http://lisz.site/2025/02/19/新时代的数据资产/