Você pode calcular um número aproximado de únicos (também conhecido como alcance estimado) de um conjunto de dados no Hive usando Brickhouse’s ( http://github.com/klout/brickhouse ) sketch_set UDF’s
select estimated_reach( sketch_set( cookie ) )
from weblogs;
ao invés de
select count( distinct cookie )
from weblogs;