Diferencia entre revisiones de «Índice de Czekanowski»

De Neotrópicos, plataforma colaborativa.
Ir a la navegación Ir a la búsqueda
(tilde)
(nueva referencia)
 
Línea 21: Línea 21:
 
*[https://www.academia.edu/3056583/Knowledge-Based_Clustering Knowledge-based clustering: from data to information granules]<br>''AWiley-Interscience publication'' Witold Pedrycz. 2005. Includes bibliographical references and index. [[ISBN 0-471-46966-1]] <br>1. Soft computing. 2. Granular computing. 3. Fuzzy systems. I. Title. (pdf copy in [[Alluvia]])
 
*[https://www.academia.edu/3056583/Knowledge-Based_Clustering Knowledge-based clustering: from data to information granules]<br>''AWiley-Interscience publication'' Witold Pedrycz. 2005. Includes bibliographical references and index. [[ISBN 0-471-46966-1]] <br>1. Soft computing. 2. Granular computing. 3. Fuzzy systems. I. Title. (pdf copy in [[Alluvia]])
 
*[http://www.int-res.com/articles/meps/5/m005p125.pdf Similarity indices in community studies: Potential Pitfalls (''Índices de similitud en estudios sinecológicos: riesgos potenciales'')] [[Bloom, Stephen A. 1981.|Bloom, 1981]].  Medición de ''similituid verdadera'' con varios índices cuantitativos y explicación de discrepenacias de los resultados.  
 
*[http://www.int-res.com/articles/meps/5/m005p125.pdf Similarity indices in community studies: Potential Pitfalls (''Índices de similitud en estudios sinecológicos: riesgos potenciales'')] [[Bloom, Stephen A. 1981.|Bloom, 1981]].  Medición de ''similituid verdadera'' con varios índices cuantitativos y explicación de discrepenacias de los resultados.  
 +
* [http://www.antropologia.uw.edu.pl/AS/as-023.pdf So?tysiak, Arkadiusz & Jaskulski, Piotr. (1999). Czekanowski's Diagram a method of multidimensional clustering. New Techniques for Old Times. CAA 98.175-184.]; también existe copia de pdf en [[Alluvia]]
 +
 
<!--
 
<!--
 
From: ''Tutorial incompleto''. With binary variables, we traditionally focus on the notion of similarity rather than distance (or dissimilarity). Consider two binary vectors x and y that consist of two strings [xk], [yk] of binary data; compare them coordinatewise and do the simple counting of occurrences:
 
From: ''Tutorial incompleto''. With binary variables, we traditionally focus on the notion of similarity rather than distance (or dissimilarity). Consider two binary vectors x and y that consist of two strings [xk], [yk] of binary data; compare them coordinatewise and do the simple counting of occurrences:

Revisión actual del 23:45 5 oct 2019

El índice de Czekanovski, denominado así en honor al antropólogo, lingüista y estadístico polaco Jan Czekanovski, quien se hizo famoso por engañar a los "científicos raciales" alemanes, mediante la interpretación de datos del grupo étnico Karaim de Polonia-Lituania a quienes logró excluir del exterminio del Holocausto. Mediante la aplicación del índice de similitud demostró que el pueblo karaim era de origen turco, a pesar de profesar la religión judía y de usar el hebreo como lengua litúrgica. Esto ayudó a la gente karaim a escapar del trágico destino de otros judios europeos y de los romaníes (gitanos).

El índice fue desarrollado por Czekanovski en 1913, para establecer relaciones entre dialectos y lenguas, pero realmente se puede aplicar a cualquier comparación entre individuos calificados por múltiples atributos, e. g., razas, especies de plantas o de animales, biocenosis, biotopos y hábitats, culturas, etc. La calificación puede ser cuali- o cuantitativa y se basa en la comparación atributo por atributo de cada par de individuos de una colección.

El índice cualitativo (presencia/ausencia de un atributo en un individuo) es el índice de Czekanovski, el cuantitativo es denomionado índice de Bray-Curtis. Este índice fue derivado medio siglo más tarde (1948), independientemente, por el botánico TV Sørensen, en Dinamarca y el mastozoologo L. R. Dice en EUA y recibe el nombre de índice de Sørensen y Dice; las aplicaciones iniciales fueron en comparaciones sinecologicas en Groenlandia (Sørensen) y en el SO de EUA y en México (Dice).

Para otras aplicaciones véase e. g.: Soltysiak, A. and P. Jaskulski 1999. Czekanowski’s Diagram: a Method of Multidimensional Clustering, in: Barceló, J.A., I. Briz and A. Vila (eds.), New Techniques for Old Times. CAA98. Computer Applications and Quantitative Methods in Archaeology. Proceedings of the 26th Conference, Barcelona, March 1998 (BAR International Series 757). Archaeopress, Oxford, pp. 175-184. (pdf copy en Alluvia)

En una colección de dos individuos con múltiples atributos, la similitud entre ellos es:

Cz = 2a/(2a + b + c)

En donde:

Cz = índice de similitud de Czekanovski
a = atributos comunes a los dos individuos
b = atributos exclusivos del individuo 1
c = atributos exclusivos del individuo 2
d = atributos ausentes en común