Big Data, BI y ML

Mejoramos tus capacidades de negocio con dashboards interactivos, construidos sobre tus sistemas actuales o sobre plataformas Big Data.

Ingeniería de datos

El planeta está generando información a un ritmo cada vez más acelerado, planteando enormes desafíos en su almacenamiento, tratamiento y confidencialidad.

Sin embargo, el mayor reto para las empresas consiste en poner en valor sus propios datos. Para ello es necesario acabar con su dispersión en fuentes de información heterogéneas o silos y concentrarlos en una plataforma integrada de Big Data donde la información pueda ser consultada y analizada con facilidad.

Podemos agrupar estas plataformas de datos en dos niveles, dependiendo del volumen de información a alojar y de las transformaciones requeridas: los Data Lakes y los Datawarehouses.

  • Un Data Lake es un repositorio de información que contiene principalmente datos en bruto (raw) o con muy poco tratamiento. El almacenamiento en estos sistemas suele basarse en sistemas de ficheros distribuidos de alta capacidad como HDFS, AWS S3, Google Cloud Storage o Azure Data Lake, capaces de albergar tanto información estructurada (CSV, JSON) como no estructurada (texto libre o binarios). Mientras que estos sistemas de ficheros garantizan la escalabilidad a nivel de almacenamiento, Hadoop y Spark garantizan la escalabilidad a nivel de procesamiento mediante paradigmas de computación como MapReduce que son virtualmente independientes del volumen de información a tratar. Por encima de estos, Hive y Spark SQL permiten acceder a la información en forma de tablas y vistas mediante sentencias SQL, pudiéndose usar HBase como base de datos columnar de baja latencia. Por lo general estos componentes se despliegan y gestionan de forma integrada por medio de distribuciones comerciales, siendo Cloudera, AWS EMR, Azure Data Lake Storage + Google Cloud SQL algunas de las más populares. Estos sistemas funcionan sin problemas en el rango de los Petabytes o incluso más allá.

  • Un Datawarehouse en cambio maneja información estructurada obtenida a partir de transformaciones y agregaciones realizadas sobre la información en bruto, normalmente para adecuarlas a un modelo de datos bien establecido de acuerdo con las directrices de Data Governance de la empresa. Estas plataformas no manejan información tan masiva como los Data Lakes y su rango de funcionamiento está más en el rango de los Terabytes. Apache Druid, AWS Redshift y Azure Synapse Analytics son algunos ejemplos de productos capaces de implementar un datawarehouse a partir de datos en bruto.

El proceso para extraer los datos de los silos de información hacia estas plataformas se denomina ETL (Extraction, Transformation and Load). Existen numerosas herramientas capaces de realizar ETLs, algunas de ellas de sofware abierto y otras sólo disponibles desde las plataformas de Amazon Web Services, Azure y Google Cloud para sus respectivos servicios. Podemos destacar Airflow y Sqoop entre las del primer tipo, y servicios como AWS Glue Google Composer y Azure Data Factory entre las comerciales.

El tratamiento de datos en tiempo real merece un apartado específico. Apache Kafka y todo el ecosistema montado a su alrededor (Kafka Streams, Kafka Connect) es una de las tecnologías clave, así como también Apache Flink y Spark Streaming. Una vez más, los principales vendors de cloud disponen también de soluciones propietarias como MSK, Kinesis y Azure Event Hubs.

Ciencia de datos

Una vez que todos los datos del cliente se encuentran disponibles en una plataforma centralizada las posibilidades para extraer insights sobre los mismos se incrementan exponencialmente. Técnicas como el machine learning permiten predecir el comportamiento de sucesos futuros a partir de la información histórica acumulada, así como calcular variables tales como el precio de venta de un producto para maximizar el beneficio, o la cantidad de productos a mantener en stock para evitar roturas al menor coste. Al conjunto de estas técnicas que combinan matemática, estadística y tecnologías de la información se la denomina ciencia de datos, y sus resultados tienen multitud de aplicaciones en todos los campos del conocimiento humano.

NumPy, scikit-learn, Tensorflow, Keras y PyTorch son algunas de las librerías más utilizadas por los científicos de datos para construir modelos capaces de predecir y optimizar variables, mientras que Jupyter y Zeppelin se emplean habitualmente para mostrar los resultados de un análisis de datos. Frameworks como MLFlow, KubeFlow o Sagemaker garantizan que el proceso de análisis, entrenamiento y publicación de los modelos es reproducible y escalable.

Business intelligence

La visualización de datos es un área esencial para la obtención de insights en una empresa. Tradicionalmente realizada mediante Excels y procedimientos manuales, los nuevos requisitos impuestos por el Big Data y la necesidad de mostrar información en tiempo real ha provocado la aparición de sofisticadas herramientas para el desarrollo de dashboards potentes y visualmente atractivos. Power BI, Tableau, Quicksight y Apache Superset se encuentran entre nuestras favoritas y contamos con expertos certificados en las mismas con amplia experiencia desarrollando informes e impartiendo formación.

Consúltanos

En NEXT DIGITAL HUB contamos con profesionales capaces de extraer el máximo valor a tus datos y con experiencia en proyectos de implantación de data lakes, datawarehouses y plataformas de business intelligence. Contáctanos para entender tus necesidades y te ayudaremos a llevar a tu estrategia de data governance a un nuevo nivel.