BI
Es la habilidad de transformar datos en informacion e informacion en conocimiento de forma que se pueda optimizar el proceso de toma de decisiones en los negocios.
W. H. Inmon1
, define los AD como “una colección de datos orientada al negocio, integrada,
variante en el tiempo y no volátil, para el soporte del proceso de toma de decisiones de la
gerencia” (3).
Ralph Kimball afirma que un AD es: "una copia de las transacciones de datos específicamente
estructurada para la consulta y el análisis" (4). También fue quien determinó que un AD no era
más que: "la unión de todos los Mercados de Datos de una entidad" (4).
En fin, se trata de un sistema integrado y multidimensional de almacenamiento histórico de datos
estables, funcionalmente dirigido a consultas, reportes y análisis de información, estructurado de
manera distinta que los sistemas transaccionales; que constituye un banco central de datos, el cual
se nutre de varias bases de datos, en lo adelante BD, de tal manera que todos puedan acceder a su
información mediante las consultas y reportes, dando respuestas a las necesidades de los distintos
tipos de usuarios.
Jerarquias clasicas
Metodologias para la construccion de almacenes de datos( AD o DW)
Bill Inmon se basa en un enfoque descendente (top-down), el cual propone construir primero el
almacén de datos y a partir de este los mercados de datos. Plantea la creación de un repositorio de
datos corporativo como fuente de información consolidada, persistente, histórica y de calidad. Al
ser construido descendentemente, los mercados de datos se nutren de los almacenes de datos
corporativos, convirtiéndose en un complejo empresarial de base de datos relacionales. Inmon
afirma que la creación de una base de datos relacional con una leve normalización, necesita ser la
base para los mercados de datos. Por lo que los mismos se crean a partir de la arquitectura
relacional de los datos corporativos. (7)
Por otro lado, Ralph Kimball se basa en un enfoque ascendente (bottom-up), plantea que se debe
crear por cada departamento un conjunto de mercados de datos independientes, y orientados a los
temas que estén relacionados con él. Y el almacén de datos es la unión de todos los mercados de
datos de una entidad. Entre sus principales características se encuentran que divide el mundo de
inteligencia de negocios entre los hechos y las dimensiones, lo cual hace que esta metodología
sea eficaz y que conduzca a una solución completa en un corto período de tiempo. (8)
Estas dos metodologías mencionadas anteriormente consisten en amplios procesos de desarrollo
sobrecargando en gran medida todas las etapas del desarrollo con gran documentación. Existen
otras metodologías que pudieran aplicarse al desarrollo de un almacén de datos y que la
comunidad científica considera como probadas, pero se enfocan hacia la minería de datos, ellas
son: CRISP-DM, SEMMA y P3TQ. (9)
(YO: Las tres metodologías dominantes para el proceso de la minería de datos son: KDD, CRISP-DM y SEMMA.)
******************
OTra lectura
Un DW debe ir acompañado de un modelo de datos, los
dos mos utilizados son el relacional y el multidimensional. El
modelo relacional es ampliamente soportado en diferentes
SGBD. TÌpicamente un DW puede almacenarse de dos
formas: ROLAP y MOLAP. El tipo de almacenamiento de
datos ROLAP guarda los datos en una base de datos (BD)
relacional. El MOLAP guarda los datos en matrices multidimensionales.
Un DW se define como una colecciÛn de datos
orientada al tema, integrada, temporal y no
volatil, usada principalmente para la toma de
decisiones (Inmon, 1996).
*******************
Diferencia entre un data warehouse y data mining
A data warehouse works by organizing data into a schema which describes the layout and type of data. Query tools analyze the data tables using schema.
En resumen un data warehouse es un tipo de sistema de base de datos diseñado para la analitica de datos y el data minng es un proceso para identifacar patrones/correlaciones desconocidos, supongo que
un se puede hacer mineria de datos desde un dataware house
StatSoft defines data warehousing as a process of organizing the storage of large, multivariate data sets in a way that facilitates the retrieval of information for analytic purposes.
Data mining is the process of analyzing unknown patterns of data. | A data warehouse is database system which is designed for analytical instead of transactional work.
|
Data is stored periodically. | Data is analyzed regularly. |
Data warehousing is the process of extracting and storing data to allow easier reporting. | Data mining is the use of pattern recognition logic to identify patterns
|
Data warehousing is a process which needs to occur before any data mining can take place.
-----------------------
Data mining: advanced analysis. Avoid SQL databases (as well as most NoSQL, because key-value stores and columnar stores are just as useless here), they are very slow and way too limited.
Data warehousing: OLAP, with very little analytical capabilities. Some basic filtering (drill down) and averaging. Here, columnar layouts are nice, because they allow computing average values efficiently.
-----------------------
Data Warehousing is putting data in a central location in a way that is optimised for querying and analysis, i.e. it is more structured towards reporting and analysis than a 'live' system both in terms of performance and usability.
Data Mining is using advanced analytical techniques on any data (perhaps even that stored in a data warehouse), typically using maths and statistics-based approaches.
----------------------
Propósito | Para facilitar la información y el análisis de datos. | Para hacer que la minería de datos sea más fácil y conveniente. Hecho para ordenar y cargar datos importantes en las bases de datos. |
**********************
DESDE OTRA LECTURA:
El objetivo de crear un DW es el de que una gran cantidad de datos sean transformados en información para que en conjunto con herramientas OLAP, paquetes estadisticos profesionales y herramientas de minerÌa de datos sirva para la toma de decisiones (Elmasri, 2006).
*******************
1.3 Identificar perspectivas e indicadores.
Indicadores(Yo: Medidas): valores numéricos que representan lo que se desea analizar concretamente, por
ejemplo: saldos, promedios, cantidades, sumatorias, fórmulas, etc.
Perspectivas(Dimensiones): se refieren a los objetos mediante los cuales se quiere examinar los indicadores, por
ejemplo: clientes, proveedores, sucursales, países, productos, rubros, etc. Cabe destacar, que el
Tiempo es muy comúnmente una perspectiva.
*****************
*****************
- Hecho: es el objeto a analizar, posee atributos llamados de hechos o de sÌntesis, y son de tipo cuantitativo.
Sus valores (medidas) se obtienen generalmente por la
aplicación de una función estadÌstica que resume un
conjunto de valores en unico valor.
Por ejemplo:
ventas en dólares, cantidad de unidades en inventario,
cantidad de unidades de producto vendidas, horas trabajadas, promedio de piezas producidas, consumo de
combustible de un vehÌculo, etcetera.
- Dimensiones: representan cada uno de los ejes en un
espacio multidimensional. Suministran el contexto en
el que se obtienen las medidas de un hecho. Algunos
ejemplos son: tiempo, producto, cliente, departamento,
entre otras. Las dimensiones se utilizan para seleccionar
y agrupar los datos en un nivel de detalle deseado. Los
componentes de una dimensión se denominan niveles
y se organizan en jerarquÌas, verbigracia, la dimensión
tiempo puede tener niveles dÌa, mes y año.
Los hechos se guardan en tablas de hechos y las dimensiones
en tablas de dimensiones
Un modelo multidimensional se puede representar como un
esquema en estrella, copo de nieve (snowflake) o constelación de hechos (Chaudhuri, 1997; Kimball, 2002).
- Esquema en estrella: esta formado por una tabla de
hechos y una tabla para cada dimension.
- Esquema copo de nieve: es una variante del esquema
en estrella que presenta las tablas de dimensión normalizadas.
-Constelación de hechos: son varios esquemas en estrella
o copo de nieve que comparten dimensiones.
----
OLAP ofrece un conjunto de operadores que facilitan la
concepción de consultas, algunos de ellos son Slice & Dice,
Swap, Drill Down, Drill Up, Roll-Up, Drill-Across, DrillThrough (Chaudhuri, 1997).
Almacenamiento ROLAP (Relational OLAP)
En ROLAP se utiliza una arquitectura de tres niveles.
La BD
relacional maneja el almacenamiento de datos,
el motor
OLAP proporciona la funcionalidad analÌtica,
y alguna
herramienta especializada es empleada para el nivel de
presentación
********
Desde otro punto de vista, IN es el conjunto
de estrategias y herramientas enfocadas a la
administración y creación de conocimiento a través
del análisis de datos existentes en una organización.