Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Investigación sobre K-MEANS y Agrupaciones en Ciencia de Datos, Resúmenes de Minería de Datos

Una pequeña investigación sobre el algoritmo de clustering K-MEANS y su aplicación en la segmentación de clientes. El texto aborda conceptos básicos de clustering, el proceso de K-MEANS y su aplicación en la compresión de datos y la segmentación de clientes. El documento incluye un ejemplo práctico.

Qué aprenderás

  • ¿Qué es el clustering y cómo funciona?
  • ¿Cómo se utiliza el algoritmo K-MEANS en la segmentación de clientes?
  • ¿Cómo se utiliza la normalización en el proceso de clustering?
  • ¿Cómo se inicializa, asigna y actualiza el algoritmo K-MEANS?
  • ¿Cómo se seleccionan las características en el proceso de clustering?

Tipo: Resúmenes

2021/2022

Subido el 20/05/2022

garrett-3
garrett-3 🇲🇽

1 / 31

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
TECNOLÓGICO NACIONAL DE MÉXICO
campus LEÓN
K-MEANS Y AGRUPACIONES
MATERIA:
CIENCIA DE DATOS
ALUMNO:
DÍAZ CERVERA BRIAN NOÉ
PROFESORA:
Ing. Martha Alicia Rocha Sánchez
CARRERA:
INGENIERÍA EN SISTEMAS COMPUTACIONALES
León, Guanajuato,
Fecha:19/05/2022
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f

Vista previa parcial del texto

¡Descarga Investigación sobre K-MEANS y Agrupaciones en Ciencia de Datos y más Resúmenes en PDF de Minería de Datos solo en Docsity!

TECNOLÓGICO NACIONAL DE MÉXICO

campus LEÓN

K-MEANS Y AGRUPACIONES

MATERIA:

CIENCIA DE DATOS

ALUMNO:

DÍAZ CERVERA BRIAN NOÉ

PROFESORA:

Ing. Martha Alicia Rocha Sánchez

CARRERA:

INGENIERÍA EN SISTEMAS COMPUTACIONALES

León, Guanajuato, Fecha: 19 /05/

Contenido K-MEANS Y AGRUPACIONES ............................................................................................................................... 1 Introducción ................................................................................................................................................ 2 Agrupamiento ............................................................................................................................................. 3 Segmentación de clientes ..................................................................................................................................... 4 Compresión de datos .............................................................................................................................................. 5 K-means ...................................................................................................................................................... 6 Inicialización................................................................................................................................................................ 7 Asignación ................................................................................................................................................................... 7 Actualización............................................................................................................................................................... 7 Normalización ............................................................................................................................................................ 8 Selección de características .................................................................................................................................. 8 Número de clusters.................................................................................................................................................. 8 Practica ....................................................................................................................................................... 9 Código ............................................................................................................................................... 12 Conclusión ................................................................................................................................................. 31 Referencias bibliográficas ......................................................................................................................... 31 Introducción En el desarrollo de esta investigación abordaremos una pequeña incorporación a algunas técnicas de minería de datos, principalmente hablaremos del algoritmo de clustering usando el método K-Means con fines de interés de sistemas en la Inversión Cuantitativa, Para esto comenzaremos viendo algunos conceptos necesarios para la compresión del tema y así poder aplicarlos en un ejemplo práctico.

K-means necesita como dato de entrada el número de grupos en los que vamos a segmentar la población. A partir de este número k de clusters, el algoritmo coloca primero k puntos aleatorios (centroides). Luego asigna a cualquiera de esos puntos todas las muestras con las distancias más pequeñas. NOTA: Las técnicas de clustering intentan conocer cuál es el más destacable agrupamiento de los datos. Algunas de estas técnicas requieren que especifiquemos el número de grupos de deseamos hallar. Segmentación de clientes En la segmentación de clientes se pretende comprender qué hace a los clientes diferentes para poder ofrecerles los productos y servicios que necesiten. En este ejemplo podemos ver cómo una técnica de agrupamiento ha encontrado 3 grupos cuando considera 2 variables:

  • Lealtad a la marca (eje X)
  • Sensibilidad al precio (eje Y)

Los 3 grupos (clusters) que se han encontrado son:

  • Preocupados por el precio (en verde): no son leales a la marca y son muy sensitivos al precio
  • Leales a precios bajos (en negro): son leales a la marca, pero sólo si es barato
  • Defensores de la marca (en rojo): son leales a la marca sin importar demasiado el precio Compresión de datos En este ejemplo de clustering no nos ofrece ninguna de estas explicaciones. Sólo nos ofrece los grupos puesto que un individuo con conocimiento del dominio del inconveniente va a ser la encargada de interpretar los resultados, por lo cual, en el inconveniente de segmentación de usuarios, esta persona probablemente trabajará en marketing o ventas, porque demás tenemos la posibilidad de utilizar clustering para comprimir imágenes con pérdida de información, entonces la compresión en este ejemplo, se hace en el número de colores diferentes que se utilizan. Vamos a sospechar que la imagen original usa una paleta de 255 colores. Para comprimir la imagen, tenemos la posibilidad de elegir utilizar menos bits por pixel, oséa, utilizar menos colores.

Inicialización Se escoge la ubicación de los centroides de los K grupos aleatoriamente. Se muestra los datos como círculos y los centroides como cuadrados. Asignación Luego se asigna cada apunte al centroide más próximo. Se puede observar que los círculos cambian de color para indicar a qué centroide han sido asignados. Actualización En este momento se actualiza la posición del centroide a la media aritmética de las posiciones de los datos asignados al grupo Podemos observar cómo la posición de los centroides (cuadrados) cambia.

Normalización Si hay atributos con escalas muy diferentes, los atributos de escala mayor dominarán las distancias. Si los atributos que tenemos son el precio en euros y el número de habitaciones, seguramente obtendremos el mismo resultado de agrupamiento si eliminamos el número de habitaciones. Sin embargo, al poner ambos atributos en la misma escala, los dos se convierten en importantes. Las técnicas más comunes de normalización son:

  • re-escalar cada atributo en el rango [0, 1]
  • suponer que cada atributo sigue una distribución normal y hacer que los datos tengan una media de 0 y una desviación típica de 1. Selección de características El clustering es una técnica de aprendizaje automático no-supervisada. Así que la responsabilidad de identificar qué atributos son relevantes recae sobre nosotros. Además, siempre es buena idea usar el menor número atributos posible debido a los que se conoce como la maldición de la dimensionalidad. Una práctica común antes de hacer clustering es reducir la dimensionalidad del problema. Número de clusters Algunas técnicas de agrupamiento, así como K-Means, requieren que especifiquemos el número de clusters (grupos) que deseamos hallar. No es evidente, a priori, entender qué número de grupos es preferible

Ingresamos la ruta donde guardamos nuecos archivos .CSV

Datos (Descripción de datos de Standards & Poors 500)

Para este análisis, utilizamos 3 fuentes: Datos de los últimos 5 años de los componentes del índice Standard & Poors 500 descargados de https://www.kaggle.com/camnugent/sandp500/data (más información en https://www.kaggle.com/camnugent/sandp500)

Ahora se descarga la lista de las empresas S&P 500 para su uso posterior

Es siguiente paso es la preparación de datos para este análisis, consideremos solo la fecha, el precio de cierre y el símbolo.

En este paso se hace use tablas dinámicas para tener un stock diferente en cada columna e eliminar las acciones que no formaban parte del S&P 500 durante todo el período que cubre este conjunto de datos

Se realiza el análisis exploratorio de los datos

Realizamos los cálculos de los rendimientos para que poder comparar acciones Se compara la devolución desde el primer día de la compra. Entonces, el rendimiento de un día determinado es cuánto se ganaría (o perdería), en porcentaje, si las acciones se vendieran en ese día (no se consideran los costos de transacción)