























Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Descubre las mejores universidades de tu país según los usuarios de Docsity
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Una pequeña investigación sobre el algoritmo de clustering K-MEANS y su aplicación en la segmentación de clientes. El texto aborda conceptos básicos de clustering, el proceso de K-MEANS y su aplicación en la compresión de datos y la segmentación de clientes. El documento incluye un ejemplo práctico.
Qué aprenderás
Tipo: Resúmenes
1 / 31
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
León, Guanajuato, Fecha: 19 /05/
Contenido K-MEANS Y AGRUPACIONES ............................................................................................................................... 1 Introducción ................................................................................................................................................ 2 Agrupamiento ............................................................................................................................................. 3 Segmentación de clientes ..................................................................................................................................... 4 Compresión de datos .............................................................................................................................................. 5 K-means ...................................................................................................................................................... 6 Inicialización................................................................................................................................................................ 7 Asignación ................................................................................................................................................................... 7 Actualización............................................................................................................................................................... 7 Normalización ............................................................................................................................................................ 8 Selección de características .................................................................................................................................. 8 Número de clusters.................................................................................................................................................. 8 Practica ....................................................................................................................................................... 9 Código ............................................................................................................................................... 12 Conclusión ................................................................................................................................................. 31 Referencias bibliográficas ......................................................................................................................... 31 Introducción En el desarrollo de esta investigación abordaremos una pequeña incorporación a algunas técnicas de minería de datos, principalmente hablaremos del algoritmo de clustering usando el método K-Means con fines de interés de sistemas en la Inversión Cuantitativa, Para esto comenzaremos viendo algunos conceptos necesarios para la compresión del tema y así poder aplicarlos en un ejemplo práctico.
K-means necesita como dato de entrada el número de grupos en los que vamos a segmentar la población. A partir de este número k de clusters, el algoritmo coloca primero k puntos aleatorios (centroides). Luego asigna a cualquiera de esos puntos todas las muestras con las distancias más pequeñas. NOTA: Las técnicas de clustering intentan conocer cuál es el más destacable agrupamiento de los datos. Algunas de estas técnicas requieren que especifiquemos el número de grupos de deseamos hallar. Segmentación de clientes En la segmentación de clientes se pretende comprender qué hace a los clientes diferentes para poder ofrecerles los productos y servicios que necesiten. En este ejemplo podemos ver cómo una técnica de agrupamiento ha encontrado 3 grupos cuando considera 2 variables:
Los 3 grupos (clusters) que se han encontrado son:
Inicialización Se escoge la ubicación de los centroides de los K grupos aleatoriamente. Se muestra los datos como círculos y los centroides como cuadrados. Asignación Luego se asigna cada apunte al centroide más próximo. Se puede observar que los círculos cambian de color para indicar a qué centroide han sido asignados. Actualización En este momento se actualiza la posición del centroide a la media aritmética de las posiciones de los datos asignados al grupo Podemos observar cómo la posición de los centroides (cuadrados) cambia.
Normalización Si hay atributos con escalas muy diferentes, los atributos de escala mayor dominarán las distancias. Si los atributos que tenemos son el precio en euros y el número de habitaciones, seguramente obtendremos el mismo resultado de agrupamiento si eliminamos el número de habitaciones. Sin embargo, al poner ambos atributos en la misma escala, los dos se convierten en importantes. Las técnicas más comunes de normalización son:
Ingresamos la ruta donde guardamos nuecos archivos .CSV
Para este análisis, utilizamos 3 fuentes: Datos de los últimos 5 años de los componentes del índice Standard & Poors 500 descargados de https://www.kaggle.com/camnugent/sandp500/data (más información en https://www.kaggle.com/camnugent/sandp500)
Ahora se descarga la lista de las empresas S&P 500 para su uso posterior
Es siguiente paso es la preparación de datos para este análisis, consideremos solo la fecha, el precio de cierre y el símbolo.
En este paso se hace use tablas dinámicas para tener un stock diferente en cada columna e eliminar las acciones que no formaban parte del S&P 500 durante todo el período que cubre este conjunto de datos
Se realiza el análisis exploratorio de los datos
Realizamos los cálculos de los rendimientos para que poder comparar acciones Se compara la devolución desde el primer día de la compra. Entonces, el rendimiento de un día determinado es cuánto se ganaría (o perdería), en porcentaje, si las acciones se vendieran en ese día (no se consideran los costos de transacción)