Minería de Datos: ¿Para qué le sirve?

En el mundo de rápido crecimiento actual, uno de los objetos más importantes y valiosos son los datos. Estos datos pueden provenir de muchos recursos y algunos tipos de estos datos recopilados no están estructurados y son ruidosos.

Necesitamos convertir estos datos no estructurados y ruidosos en algunos datos significativos para que podamos obtener patrones útiles válidos y ocultos para descubrir relaciones desconocidas entre diferentes atributos entre los datos.

¿Qué es la minería de datos?

Normalmente, la minería significa extraer los objetos ocultos, por lo que aquí la minería de datos significa encontrar patrones ocultos de los datos para extraer información significativa.

Tomemos un ejemplo de la vida real para comprender correctamente la minería de datos. Todos sabemos que Gmail tiene una función para detectar correo no deseado automáticamente y colocar esos correos directamente en la carpeta de correo no deseado.

¿Alguna vez pensó en cómo Google tiene ideas o suposiciones sobre esos correos? Déjame decirte cómo entiende Google que esos correos electrónicos son correos no deseados.

Google tiene una gran cantidad de datos para entrenar su modelo para detectar el correo electrónico no deseado. Antes de comenzar a hacer el modelo, primero buscarán técnicas de minería de datos para comprender los datos y encontrar patrones ocultos a partir de ellos. Me refiero a patrones ocultos repetidamente. Pero, ¿cuáles son esos patrones?

Si alguna vez se da cuenta, todo el correo no deseado tiene algunas palabras clave comunes como:

  1. Lotería
  2. Algunos enlaces propensos a virus
  3. Regalos gratis
  4. Esquemas
  5. Promesas
  6. Descuento

Entonces, si sus correos electrónicos contienen alguno de estos tipos de palabras clave, Google coloca esos correos directamente en carpetas de spam.

O podemos tomar un ejemplo para encontrar el fraude a través de una transacción en línea:

Para detectar la transacción fraudulenta, necesitamos comprender los datos y el patrón oculto por obvio.

Supongamos que una persona recibe de repente un mensaje del banco de que ha gastado 10,000000 rupias en París para comprar joyas. Pero en su historia, nunca había estado en París y no compró nada más de 500000. 

Aquí vienen las técnicas de minería de datos para ayudar a encontrar los patrones de todos los montos de transacciones anteriores y el historial de ubicaciones. El modelo debe poder comprender y detectar que el titular de la tarjeta no realizó esta transacción. Entonces estas son las aplicaciones más poderosas de la minería de datos.

Tipos de minería de datos

Creo que todos tenemos una breve idea sobre la minería de datos, pero debemos comprender qué tipos de datos se pueden extraer. 

A. Base de datos relacional: 

Si los datos ya están en la base de datos, se pueden extraer. Pero, ¿qué es una base de datos?

La base de datos es un sistema donde puede almacenar y administrar sus datos sin esfuerzo. 

Ahora vienen las bases de datos relacionales, este es también un tipo de sistema de administración de bases de datos en el que se define algún tipo de relación entre sus datos que ayuda a almacenar, administrar y recuperar los datos de la base de datos fácilmente.

B. Almacén de datos:

El almacenamiento de datos es una forma de recopilar los datos de varios recursos y descubrir los requisitos comerciales significativos a partir de eso. En palabras simples, ayuda a encontrar y cumplir con los requisitos comerciales al procesar los datos no estructurados.

Sé que todos tienen dudas sobre cómo funciona el concepto de almacén de datos. Permítanme resumir las técnicas en breve. Las primeras técnicas de almacenamiento de datos funcionan

  • Datos estructurados
  • Datos semiestructurados
  • Datos no estructurados

Estos datos semiestructurados y no estructurados se procesan, transforman e ingieren.

Para que los usuarios puedan acceder a estos datos procesados ​​para algunas herramientas conocidas de Business Intelligence, clientes SQL y hojas de cálculo. Ahora, la técnica del almacén de datos hace converger la información procedente de diferentes fuentes en una base de datos completa.

El almacén de datos ayuda con una base de datos estructurada correctamente para que una organización pueda analizar a sus clientes con mayor precisión. Todo este proceso asegura que se extraiga toda la información. Por lo tanto, podemos decir que el almacenamiento de datos completa el proceso de minería de datos.

C. Depósitos de datos:

Por el nombre mismo, podemos entender que los repositorios de datos son un espacio donde puede almacenar todos sus datos cruciales para preprocesarlos más tarde.

Específicamente, un repositorio de datos se refiere al sistema de almacenamiento de datos.

D. Base de datos relacional de objetos:

Las bases de datos relacionales de objetos son una mezcla de bases de datos orientadas a objetos y modelos de bases de datos relacionales. Es compatible con todas las características de los conceptos orientados a objetos (OOPS). Uno de los enfoques principales de este concepto es hacer un puente entre la base de datos relacional y el modelo orientado a objetos.

E. Base de datos transaccional:

Por lo general, las bases de datos transaccionales se utilizan para manejar toda la información sobre la transacción. Suponer,

  1. Quieres contar todos los clics de tu sitio web
  2. Reserva de vuelo
  3. Reservación de hotel
  4. Cualquier tipo de compra

Y todas las transacciones tienen un número de identificación de transacción único para obtener la información adecuada de los datos. Una base de datos transaccional contiene otra información relacionada con la transacción. Aplicación para esta base de datos podemos decir detección de fraude de tarjetas de crédito.

Entonces, aquí conoceremos más sobre el proceso del ciclo de vida de la minería de datos.

1. Comprensión empresarial:

Antes de lanzarnos a cualquier proceso, debemos tener una visión clara de la comprensión empresarial. Entonces, ¿a qué se refiere con comprensión empresarial? La comprensión empresarial significa ampliar los destinos y los requisitos previos desde el punto de vista comercial.

Esta etapa nos ayuda a comprender qué se necesita para llegar a su destino y solucionar el problema.

En palabras simples, el enfoque principal de esta parte es comprender los objetivos y requisitos del proyecto desde una perspectiva comercial. Después de eso, convierta esos conocimientos en una definición de problema de minería de datos. Se diseña un plan básico para lograr los objetivos.

2. Comprensión de datos:

Uno de los pasos más importantes es tener una comprensión adecuada de sus datos. Esta etapa comienza con la recopilación de datos y continúa con actividades para familiarizarse con los datos, identificar problemas de calidad de los datos, descubrir los primeros conocimientos sobre los datos o detectar subconjuntos interesantes para formar hipótesis sobre información oculta. 

3. Modelado :

Después de recopilar y preprocesar todos los datos, aplicamos varias técnicas de modelado. Luego, a través de la extracción de características, descubra los atributos más relevantes de los datos para aplicar en diferentes modelos.

Pasos para modelar:

  • Extracción de características: una de las partes más esenciales antes de construir su modelo es la extracción de características. Puede asumir qué características son la base de su modelo. Esto decide cómo funcionará su modelo. Por lo tanto, debe elegir todas las funciones con mucha sabiduría.

    La selección de funciones se utiliza para eliminar las funciones que añaden más ruido que información. Esto se hace para evitar la maldición de la dimensionalidad, que es la razón de la complejidad del modelo.

  • Entrene al modelo: entendamos esta situación con un ejemplo. Suponga que está haciendo un pastel y tiene todos los ingredientes listos. Ahora todos deben mezclarlos correctamente y hornearlos. Entrenar al modelo es lo mismo que hornear el pastel. Ahora solo necesita pasar los datos en el algoritmo adecuado para entrenar su modelo.

4. Evaluación:

En esta etapa, ya construiste el modelo (o modelos). Antes de la implementación final del modelo, es importante evaluar el modelo. Necesitamos asegurarnos de que nuestro modelo tenga ciertas cualidades para lograr los requisitos comerciales predefinidos.  

5. Implementación:

La creación y evaluación del modelo no es el final. Necesitamos asegurarnos con cada perspectiva posible de que nuestro modelo aprende adecuadamente de los datos y cumple con todos los objetivos. Luego, después del informe, podemos implementar nuestro modelo en la nube para nuestros clientes.

Tecnologías utilizadas para la minería de datos

Estadísticas

Por lo general, los conceptos de estadísticas se utilizan para comprender los datos y la minería de datos está directamente relacionada con las estadísticas. La EDA se realiza sobre los datos utilizando ideas de estadísticas básicas.

Pero, ¿qué es EDA?

EDA significa análisis de datos exploratorios. Es un conjunto de funciones matemáticas que describe el comportamiento de los objetos en términos de variables aleatorias y sus distribuciones de probabilidad asociadas. En la minería de datos, se utilizan modelos estadísticos para caracterizar y clasificar los datos. Además de eso, se realiza la minería de datos.

Aprendizaje automático

Los algoritmos de Machine Learning se utilizan para entrenar nuestro modelo para lograr los objetivos. Ayuda a comprender cómo los modelos pueden aprender en función de los datos.

El enfoque principal del aprendizaje automático es aprender los datos y reconocer patrones complejos a partir de ellos para tomar decisiones inteligentes basadas en el aprendizaje sin ninguna programación explícita. Debido a todas estas características, el aprendizaje automático se está convirtiendo en la tecnología de más rápido crecimiento. 

Sistemas de bases de datos y almacenes de datos

Como discutimos antes, los sistemas de administración de bases de datos y el almacenamiento de datos se enfocan principalmente en el manejo y manejo de los datos. Tiene altos principios en los modelos de datos, lenguajes de consulta, procesamiento de consultas, métodos de optimización, almacenamiento de datos, indexación y métodos de acceso. Al final obtuvimos datos optimizados de donde se puede extraer cierta información.

Recuperación de información

Por el nombre mismo podemos entender que la recuperación de información es el proceso para buscar documentos o información en documentos. Estos documentos pueden estar en forma de texto o multimedia o en cualquier forma. La principal diferencia entre la recuperación de información tradicional y el sistema de base de datos es:

  1. En la recuperación de información tradicional, los datos que se buscan no están estructurados.
  2. Para los sistemas de administración de bases de datos, los datos están estructurados y pueden ser recuperados por consultas y no tienen una estructura compleja.

Algoritmos de aprendizaje automático utilizados en la minería de datos

Antes de entrar en el algoritmo, echemos un vistazo a los tipos de aprendizaje automático:

Hay tres tipos de aprendizaje automático:

  1. Supervisado
  2. Sin supervisión
  3. Aprendizaje reforzado

¿Qué es el aprendizaje supervisado?

Desde el propio nombre, podemos entender que el aprendizaje supervisado funciona como supervisor o profesor. Básicamente, en el aprendizaje supervisado, enseñamos o entrenamos a la máquina con datos etiquetados (eso significa que los datos ya están etiquetados con alguna clase predefinida). Luego probamos nuestro modelo con un nuevo conjunto de datos desconocido y predecimos el nivel para ellos.

¿Qué es el aprendizaje no supervisado?

El aprendizaje no supervisado es una técnica de aprendizaje automático en la que no es necesario supervisar el modelo. En su lugar, debe permitir que el modelo funcione por sí solo para descubrir información. Se trata principalmente de datos sin etiquetar.

¿Qué es el aprendizaje por refuerzo?

El aprendizaje por refuerzo consiste en tomar las medidas adecuadas para maximizar la recompensa en una situación particular. Se utiliza para definir la mejor secuencia de decisiones que permiten al agente resolver un problema y maximizar una recompensa a largo plazo.

2. Clasificación

¿Qué es la técnica de clasificación?

La clasificación es un proceso para categorizar los datos en clases. Admite datos estructurados y no estructurados. La parte principal de este algoritmo para predecir la clase de puntos de datos dados. Estas clases se denominan destino, etiqueta o categorías.

Este problema de clasificación funciona en conjuntos de datos discretos.

Tomemos un ejemplo para entender el proceso con claridad. La detección de la enfermedad COVID 19 puede denominarse problema de clasificación. Este problema es parte de la clasificación binaria.

¿Pero cómo?

Como en este proceso de detección, solo puede haber dos clases, es decir, tiene COVID 19 positivo o COVID 19 negativo. El clasificador necesita datos para comprender los patrones más relevantes y ocultos para identificar la enfermedad. Y una vez que el clasificador se entrena con precisión, se puede utilizar para identificar a los pacientes positivos para COVID 19.

La clasificación es un tipo de aprendizaje supervisado porque los objetivos también reciben los datos de entrada. 

Terminologías utilizadas en el proceso de clasificación

  • Clasificador: es un algoritmo para asignar los datos de entrada a la categoría específica.
  • Modelo de clasificación: el modelo que ayuda a predecir la clase y sacar una conclusión a partir de los datos de entrada del entrenamiento. 
  • Característica: una característica es una propiedad individual medible que depende de los datos, los objetivos y el fenómeno observado. 
  • Clasificación binaria: es una clasificación con dos resultados. Ejemplo: verdadero o falso / 0 o 1.
  • Clasificación de clases múltiples: la clasificación viene con más de dos clases; en la clasificación de clases múltiples, a cada muestra se le asigna una sola etiqueta u objetivo.
  • Clasificación de etiquetas múltiples: en esta clasificación, cada muestra se asigna a un conjunto de etiquetas u objetivos.
  • Entrene al clasificador: entrene al clasificador en sci-kit learn, usamos el método de ajuste (X, y) para entrenar el modelo en función de los datos de entrenamiento.
  • Predecir el objetivo: para predecir la clase a partir del modelo, proporcionamos observaciones sin etiquetar al modelo. 
  • Evaluar: la evaluación del modelo es comprender qué tan bien está funcionando nuestro modelo, es decir, informe de clasificación, puntaje de precisión, etc.

3. Agrupación

¿Qué es la agrupación en clústeres?

La agrupación en clústeres es un proceso de dividir los conjuntos de datos en grupos, que consisten en puntos de datos similares.

Los puntos dentro de los mismos grupos son similares entre sí, pero son diferentes en comparación con otros grupos

La técnica de agrupación ayuda a determinar la agrupación intrínseca en un conjunto de datos sin etiquetar. Al organizar los datos en grupos, se muestra la estructura interna de los datos. Crea la partición en el conjunto de datos.

Agrupación exclusiva:

 En la técnica de agrupación exclusiva, el artículo pertenece exclusivamente a un grupo.

Agrupación superpuesta: en la agrupación superpuesta, los elementos pueden pertenecer a varios grupos. 

Agrupación jerárquica: la agrupación jerárquica es como tener una relación padre-hijo / estructura en forma de árbol.

Análisis de asociación y correlación: 

El análisis de asociación y correlación es un proceso para comprender la relación única entre variables que no son inmediatamente obvias.

Una analogía para entender la relación:

Suponga que un vendedor de Wal-Mart está tratando de aumentar las ventas de la tienda combinando los productos y agregando descuentos en ellos.

Para hacer eso, el vendedor trató de encontrar más oportunidades y más productos de este tipo que se puedan unir. Luego analizó todos los registros de ventas. 

Y de repente encontró algo muy interesante:

Muchos clientes que compraron pañales también compraron bebidas. Los dos productos no están relacionados, por lo que decidió investigar más (La relación entre pañales y cerveza no es común y no es obvia de inmediato, pero existe).

Y, por último, descubrió que criar a los niños es agotador y, para aliviar el estrés, los padres decidieron imprudentemente comprar bebidas. 

“Un ejemplo perfecto de reglas de asociación en minería de datos”

Análisis de valores atípicos :

El análisis de valores atípicos se realiza para comprender la anomalía de los datos. Ayuda a comprender qué son los atributos y los casos que no son similares a otros.