Estructures de dades probables: quina diferència hi ha entre els filtres MinHash i Bloom?


Resposta 1:

MinHash s'utilitza principalment per estimar de forma ràpida i precisa la similitud de Jaccard entre dues coses (per exemple, dos documents, dos conjunts ...).

Un filtre Bloom és una estructura de dades eficient que permet podar ràpidament elements que no formen part d'un conjunt, amb la possibilitat de no podrejar-los.

Tots dos tenen una naturalesa probabilística, però la finalitat és molt diferent.

MinHash és molt conegut i s’utilitza molt sovint en la recuperació d’informació.


Resposta 2:

El principal desavantatge dels filtres florals per a la cerca de semblança és que es saturen quan s’omplen, de manera que si els conjunts poden tenir mides molt diferents, obtindreu estimacions pobres de la similitud per als grans.

No obstant això, una seqüència de minhashes no se satura, la distància de martell entre dues seqüències de minhash sempre és una estimació imparcial de la similitud de Jaccard.

Tot i això, sovint no s’utilitzen guions per produir esbossos. Un cas d’ús principal per a ells és crear claus que s’utilitzaran per agrupar-se amb un magatzem de valors clau, i això no és capaç de fer amb un filtre de flors, tret que només estigui relacionat amb les coincidències molt properes a les exactes. Podeu llegir més sobre això aquí: MinHashing