miércoles, 2 de febrero de 2022

Bussines Intelligence (BI)

 BI

Es la habilidad de transformar datos en informacion e informacion en conocimiento de forma que se pueda optimizar el proceso de toma de decisiones en los negocios.

W. H. Inmon1 , define los AD como “una colección de datos orientada al negocio, integrada, variante en el tiempo y no volátil, para el soporte del proceso de toma de decisiones de la gerencia” (3). 

Ralph Kimball  afirma que un AD es: "una copia de las transacciones de datos específicamente estructurada para la consulta y el análisis" (4). También fue quien determinó que un AD no era más que: "la unión de todos los Mercados de Datos de una entidad" (4).

En fin, se trata de un sistema integrado y multidimensional de almacenamiento histórico de datos estables, funcionalmente dirigido a consultas, reportes y análisis de información, estructurado de manera distinta  que los sistemas transaccionales; que constituye un banco central de datos, el cual se nutre de varias bases de datos, en lo adelante BD, de tal manera que todos puedan acceder a su información mediante las consultas y reportes, dando respuestas a las necesidades de los distintos tipos de usuarios. 


Jerarquias clasicas




Metodologias para la construccion de almacenes de datos( AD o DW)

Bill Inmon se basa en un enfoque descendente (top-down), el cual propone construir primero el almacén de datos y a partir de este los mercados de datos. Plantea la creación de un repositorio de datos corporativo como fuente de información consolidada, persistente, histórica y de calidad. Al ser construido descendentemente, los mercados de datos se nutren de los almacenes de datos corporativos, convirtiéndose en un complejo empresarial de base de datos relacionales. Inmon afirma que la creación de una base de datos relacional con una leve normalización, necesita ser la base para los mercados de datos. Por lo que los mismos se crean a partir de la arquitectura relacional de los datos corporativos. (7) 

Por otro lado, Ralph Kimball se basa en un enfoque ascendente (bottom-up), plantea que se debe crear por cada departamento un conjunto de mercados de datos independientes, y orientados a los temas que estén relacionados con él. Y el almacén de datos es la unión de todos los mercados de datos de una entidad. Entre sus principales características se encuentran que divide el mundo de inteligencia de negocios entre los hechos y las dimensiones, lo cual hace que esta metodología sea eficaz y que conduzca a una solución completa en un corto período de tiempo. (8) 

Estas dos metodologías mencionadas anteriormente consisten en amplios procesos de desarrollo sobrecargando en gran medida todas las etapas del desarrollo con gran documentación. Existen otras metodologías que pudieran aplicarse al desarrollo de un almacén de datos y que la comunidad científica considera como probadas, pero se enfocan hacia la minería de datos, ellas son: CRISP-DM, SEMMA y P3TQ. (9) 

(YO: Las tres metodologías dominantes para el proceso de la minería de datos son: KDD, CRISP-DM y SEMMA.)
******************
OTra lectura

Un DW debe ir acompañado de un modelo de datos, los dos mos utilizados son el relacional y el multidimensional. El modelo relacional es ampliamente soportado en diferentes SGBD. TÌpicamente un DW puede almacenarse de dos formas: ROLAP y MOLAP. El tipo de almacenamiento de datos ROLAP guarda los datos en una base de datos (BD) relacional. El MOLAP guarda los datos en matrices multidimensionales.

Un DW se define como una colecciÛn de datos orientada al tema, integrada, temporal y no volatil, usada principalmente para la toma de decisiones (Inmon, 1996).
  
*******************
Diferencia entre un data warehouse y data mining

 A data warehouse works by organizing data into a schema which describes the layout and type of data. Query tools analyze the data tables using schema.

En resumen un data warehouse es un tipo de sistema de base de datos diseñado para la analitica de datos y el data minng es un proceso para identifacar patrones/correlaciones desconocidos, supongo que
un se puede hacer mineria de datos desde un dataware house

StatSoft defines data warehousing as a process of organizing the storage of large, multivariate data sets in a way that facilitates the retrieval of information for analytic purposes.



Data mining is the process of analyzing unknown patterns of data.A data warehouse is database system which is designed for analytical instead of transactional work.


Data is stored periodically.Data is analyzed regularly.
Data warehousing is the process of extracting and storing data to allow easier reporting.Data mining is the use of pattern recognition logic to identify patterns

Data warehousing is a process which needs to occur before any data mining can take place.

-----------------------
Data mining: advanced analysis. Avoid SQL databases (as well as most NoSQL, because key-value stores and columnar stores are just as useless here), they are very slow and way too limited.

Data warehousing: OLAP, with very little analytical capabilities. Some basic filtering (drill down) and averaging. Here, columnar layouts are nice, because they allow computing average values efficiently.
-----------------------

Data Warehousing is putting data in a central location in a way that is optimised for querying and analysis, i.e. it is more structured towards reporting and analysis than a 'live' system both in terms of performance and usability.

Data Mining is using advanced analytical techniques on any data (perhaps even that stored in a data warehouse), typically using maths and statistics-based approaches.
----------------------
PropósitoPara facilitar la información y el análisis de datos.Para hacer que la minería de datos sea ​​más fácil y conveniente. Hecho para ordenar y cargar datos importantes en las bases de datos.

**********************
DESDE OTRA LECTURA: 
El objetivo de crear un DW es el de que una gran cantidad de datos sean transformados en información para que en conjunto con herramientas OLAP, paquetes estadisticos profesionales y herramientas de minerÌa de datos sirva para la toma de decisiones (Elmasri, 2006).

*******************
1.3 Identificar perspectivas e indicadores. 

Indicadores(Yo: Medidas): valores numéricos que representan lo que se desea analizar concretamente, por ejemplo: saldos, promedios, cantidades, sumatorias, fórmulas, etc. 

Perspectivas(Dimensiones): se refieren a los objetos mediante los cuales se quiere examinar los indicadores, por ejemplo: clientes, proveedores, sucursales, países, productos, rubros, etc. Cabe destacar, que el Tiempo es muy comúnmente una perspectiva.
*****************
*****************
- Hecho: es el objeto a analizar, posee atributos llamados de hechos o de sÌntesis, y son de tipo cuantitativo. Sus valores (medidas) se obtienen generalmente por la aplicación de una función estadÌstica que resume un conjunto de valores en unico valor. 
Por ejemplo: ventas en dólares, cantidad de unidades en inventario, cantidad de unidades de producto vendidas, horas trabajadas, promedio de piezas producidas, consumo de combustible de un vehÌculo, etcetera. 
- Dimensiones: representan cada uno de los ejes en un espacio multidimensional. Suministran el contexto en el que se obtienen las medidas de un hecho. Algunos ejemplos son: tiempo, producto, cliente, departamento, entre otras. Las dimensiones se utilizan para seleccionar y agrupar los datos en un nivel de detalle deseado. Los componentes de una dimensión se denominan niveles y se organizan en jerarquÌas, verbigracia, la dimensión tiempo puede tener niveles dÌa, mes y año. Los hechos se guardan en tablas de hechos y las dimensiones en tablas de dimensiones






Un modelo multidimensional se puede representar como un esquema en estrella, copo de nieve (snowflake) o constelación de hechos (Chaudhuri, 1997; Kimball, 2002). 
- Esquema en estrella: esta formado por una tabla de hechos y una tabla para cada dimension. 
- Esquema copo de nieve: es una variante del esquema en estrella que presenta las tablas de dimensión normalizadas. 
-Constelación de hechos: son varios esquemas en estrella o copo de nieve que comparten dimensiones. 
----
OLAP ofrece un conjunto de operadores que facilitan la concepción de consultas, algunos de ellos son Slice & Dice, Swap, Drill Down, Drill Up, Roll-Up, Drill-Across, DrillThrough (Chaudhuri, 1997).

Almacenamiento ROLAP (Relational OLAP) 
En ROLAP se utiliza una arquitectura de tres niveles. 
La BD relacional maneja el almacenamiento de datos, 
el motor OLAP proporciona la funcionalidad analÌtica, 
y alguna herramienta especializada es empleada para el nivel de presentación
********
Desde otro punto de vista, IN es el conjunto de estrategias y herramientas enfocadas a la administración y creación de conocimiento a través del análisis de datos existentes en una organización.

No hay comentarios:

Publicar un comentario