一、数据流模型
流动的数据(
当作无限的元组序列):总量不限、速率快、无次序、一次性。
子模型:
一类按元素作用:时间序列;收银机(前缀和,不断叠加);十字转盘(加入的数据有正有负)。
二类按元素重要性:界标模型(规定不同数据段重要性);滑动窗口(只考虑窗口元素);衰减窗口(新到重要,旧者重要程度低)。
二、概要数据结构
保存数据流再查询不可能,需要一种远小于数据流规模的数据结构来查询元素,如直方图、抽样、小波、哈希。
三、近似算法
既然概要了,就不可能很精确,只能近似估计,近似算法就相当于一种误差的评估。
(1)∈相对误差
一个∈代表相对误差,输出值与真值相差小于∈乘以真值。
(2)∈绝对误差
一个∈就是一个值,输出值与真值相差小于∈。
(3)相对误差Plus
利用切比雪夫不等式将上面两种情况变化:
1. 输出值与真值相差小于∈乘以真值的概率大于1-x;
2. 输出值与真值相差小于∈的概率大于1-x。