




Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Descubre las mejores universidades de tu país según los usuarios de Docsity
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Una investigación sobre la minería de datos, con énfasis en técnicas como agrupamiento, asociación y reconocimiento de patrones. La minería de datos es el proceso de descubrir información útil a partir de grandes conjuntos de datos, mediante el uso de técnicas matemáticas para inferir patrones y tendencias. los conceptos básicos de minería de datos, incluyendo modelos predictivos y descriptivos, y detalla las técnicas específicas de agrupamiento, asociación y reconocimiento de patrones. El agrupamiento es el proceso de dividir registros similares en segmentos o conglomerados, basados en la similitud entre ellos. La asociación descubre reglas que muestran los hechos que ocurren frecuentemente juntos en un conjunto de datos determinado. El reconocimiento de patrones es un método de análisis de datos que utiliza algoritmos de aprendizaje automático para reconocer patrones y regularidades en los datos.
Tipo: Monografías, Ensayos
1 / 8
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
Trabajo de Investigación para la Unidad Curricular de Minería de Datos
Salcedo, Willy PROFESOR Gómez, Javier
Ciudad Ojeda, 12 de octubre de 2022
La minería de datos es el proceso de descubrir información útil a partir de grandes conjuntos de datos. La disciplina utiliza el análisis matemático para inferir patrones y tendencias en conjuntos de datos. A menudo, la minería de datos tradicional no puede descubrir estos patrones porque las relaciones son demasiado complejas o hay demasiados datos. (Hernández Orallo et al , 2005)
Así, la minería de datos tiene como objetivo buscar y descubrir patrones inesperados e interesantes mediante la aplicación de tareas de descubrimiento como clasificación, agrupamiento, patrones secuenciales, asociaciones, entre otras.
En la práctica, los modelos pueden ser de dos tipos: predictivos y descriptivos. Los modelos predictivos pretenden estimar valores futuros o desconocidos de variables de interés, que denominamos variables objetivo o dependientes, usando otras variables o campos de la base de datos, a las que nos referiremos como variables independientes o predictivas.
Los modelos descriptivos, en cambio, identifican patrones que explican o resumen los datos, es decir, sirven para explorar las propiedades de los datos examinados, no para predecir nuevos datos. Algunas tareas de minería de datos que producen modelos predictivos son la clasificación y la regresión, y las que dan lugar a modelos descriptivos son el agrupamiento, las reglas de asociación y el análisis correlacional.
Cada tarea puede ser realizada usando distintas técnicas. Por ejemplo, los modelos inferidos por los árboles de decisión y las redes neuronales (por citar dos técnicas de las más conocidas y utilizadas) pueden inferir modelos predictivos. Igualmente, para una misma técnica se han desarrollado diferentes algoritmos que difieren en la forma y criterios concretos con los que se construye el modelo.
de compra en el tiempo. El dato de entrada es un conjunto de secuencias llamado data-secuencia. Cada una de estas últimas es una lista de transacciones, en las que cada transacción es un conjunto de ítems. (Timarán Pereira et al , 2016).
Un patrón secuencial también se compone de una lista de conjuntos de ítems. El problema es encontrar todos los patrones secuenciales que cumplan con un soporte mínimo especificado por el usuario, en el cual el soporte es el porcentaje de data-secuencias que contiene el patrón. Los patrones secuenciales, en el dominio de la medicina, se pueden utilizar por ejemplo para ayudar a identificar síntomas y enfermedades que preceden a otras enfermedades.
RECONOCIMIENTO DE PATRONES El reconocimiento de patrones es un método de análisis de datos que utiliza algoritmos de aprendizaje automático para reconocer patrones y regularidades en los datos. Estos datos pueden ser desde texto e imágenes hasta sonidos u otras cualidades definibles. Los sistemas de reconocimiento de patrones pueden reconocer patrones familiares con rapidez y precisión. También pueden reconocer y clasificar objetos desconocidos, reconocer formas y objetos desde diferentes ángulos e identificar patrones y objetos incluso si están parcialmente oscurecidos. (Kantardzic, 2020).
El reconocimiento de patrones tiene una gran variedad de aplicaciones, como el procesamiento de imágenes, el reconocimiento del habla y de las huellas dactilares, la interpretación de fotografías aéreas, el reconocimiento óptico de caracteres en documentos escaneados, como contratos y fotografías, e incluso la obtención de imágenes y el diagnóstico médico. El reconocimiento de patrones es también la tecnología que está detrás de la analítica de datos. Por ejemplo, esta técnica puede utilizarse para predecir los resultados del mercado de valores.
PREVISIÓN La previsión es una técnica que utiliza datos históricos para realizar estimaciones informadas que son predictivas para determinar la dirección de las tendencias futuras. La previsión es una herramienta de toma de decisiones que ayuda a las empresas a hacer frente a la incertidumbre que rodea a un negocio examinando cuidadosamente los datos históricos y las tendencias. (Olson y Wu, 2020).
También puede calificarse como una herramienta de planificación que permite a las empresas trazar sus próximos movimientos y presupuestos en consecuencia. Las empresas utilizan la herramienta de previsión con la esperanza de que cubra todas las incertidumbres que puedan producirse. Por lo general, se considera una buena práctica indicar el grado de incertidumbre de las previsiones. Hay que tener siempre presente una cosa: los datos deben estar actualizados para poder hacer una previsión precisa.
SIMULACIÓN La simulación es una técnica que permite imitar (o simular) en un ordenador el comportamiento de un sistema real o hipotético según ciertas condiciones particulares de operación. Para analizar, estudiar y mejorar el comportamiento de un sistema mediante las técnicas de simulación, es necesario primero describir bajo un cierto formalismo el conocimiento que se tiene sobre las dinámicas de interés (modelo conceptual), y luego codificarlo en un entorno de simulación para poder realizar experimentos y analizar los resultados. (Olson y Wu, 2020).
OPTIMIZACIÓN Un modelo de optimización es una traducción de las características principales del problema de negocios que está intentando resolver. El modelo consiste en tres elementos: la función de objetivo, las variables de decisión y las restricciones de negocios. (Kantardzic, 2020).
En el caso más simple, un problema de optimización consiste en maximizar o minimizar una función real eligiendo sistemáticamente valores de entrada (tomados de un conjunto permitido) y computando el valor de la función. La generalización de la teoría de la optimización y técnicas para otras formulaciones comprende un área grande de las matemáticas aplicadas. De forma general, la optimización incluye el descubrimiento de los mejores valores de alguna función objetivo dado un dominio definido, incluyendo una variedad de diferentes tipos de funciones objetivo y diferentes tipos de dominios.
CLASIFICACIÓN La clasificación de datos permite obtener resultados a partir de un proceso de aprendizaje supervisado. Es, además, el proceso por medio del cual se encuentran propiedades comunes entre un conjunto de objetos de una base de datos y se los cataloga en diferentes clases, de acuerdo con el modelo de clasificación. (Timarán Pereira et al , 2016).
La minería de datos es la fase más característica del proceso de descubrimiento de conocimiento en bases de datos. El objetivo de esta fase es producir nuevo conocimiento que pueda utilizar el usuario. Esto se realiza construyendo un modelo basado en los datos recopilados para este efecto. El modelo es una descripción de los patrones y relaciones entre los datos que pueden usarse para hacer predicciones, para entender mejor los datos o para explicar situaciones pasadas.
Dentro de la minería de datos se distinguen diversos tipos de tareas, cada una de las cuales puede considerarse como un tipo de problema a ser resuelto por un algoritmo de minería de datos. Esto significa que cada tarea tiene sus propios requisitos, y que el tipo de información obtenida con una tarea puede diferir mucho de la obtenida con otra.
La clasificación es seguramente el modelo más utilizado. En él, cada registro de la base de datos pertenece a una clase, la cual se indica mediante el valor de un atributo. Este atributo puede tomar diferentes valores discretos, cada uno de los cuales corresponde a una clase. El objetivo es predecir la clase de nuevas instancias de lasque se desconoce la clase. Más concretamente, el objetivo del algoritmo es maximizar la razón de precisión de la clasificación de las nuevas instancias.
Por otro lado, el agrupamiento es el modelo descriptivo por excelencia y consiste en obtener grupos naturales a partir de los datos. En este modelo, los datos son agrupados basándose en el principio de maximizar la similitud entre los elementos de un grupo minimizando la similitud entre los distintos grupos. Es decir, se forman grupos tales que los objetos de un mismo grupo son muy similares entre sí y, al mismo tiempo, son muy diferentes a los objetos de otro grupo.
Hernández Orallo, J., Ramírez Quintana, M. J., y Ferri Ramírez, C. (2005). Introducción a la minería de datos. Editorial Pearson Educación. Madrid, España.
Kantardzic, M. (2020). Data Mining. Concepts, Models, Methods, and Algorithms. Publisher John Wiley & Sons, Inc. Hoboken, New Jersey, United States of America.
Olson, D. L., y Wu, D. (2020). Predictive Data Mining Models. Publisher Springer. London, England.
Timarán Pereira, S. R., Hernández Arteaga, I., Caicedo Zambrano, S. J., Hidalgo Troya, A., y Alvarado Pérez, J. C. (2016). El proceso de descubrimiento de conocimiento en bases de datos. En Descubrmiento de patrones de desempeño académico con árboles de decisión en las competencias genéricas de la formación profesional. Editorial Ediciones Universidad Cooperativa de Colombia. Bogotá, Colombia. Pp. 63-86.