Estimativas de alcance escalonáveis ​​com conjuntos de esboço

Você pode calcular um número aproximado de únicos (também conhecido como alcance estimado) de um conjunto de dados no Hive usando Brickhouse’s ( http://github.com/klout/brickhouse ) sketch_set UDF’s

select estimated_reach( sketch_set( cookie ) )
from weblogs;

ao invés de

select count( distinct cookie )
from weblogs;