Como futuro investigador y científico de datos es imprescindible que conozcas lo que se quiere decir cuando se habla de un dataset.
Este artículo comienza con una historia sobre dos profesionales, Carlos y Juan, que tienen dificultades para comunicarse acerca de los datos, porque aún no tienen un vocabulario compartido.
Quizás te identifiques con Carlos o Juan. El primer personaje, Carlos, es investigador y científico de datos. El segundo personaje, Juan, también es una profesional bien entrenado y altamente calificado.
Siguiendo la historia, este artículo procede a definir qué es un dataset y qué tipos existen.
Falta de un vocabulario compartido
Carlos, que es investigador y científico de datos, se reúne con Juan, que es un colega experimentado. Carlos y Juan necesitan hablar sobre agregar una sección a un informe trimestral que vence en unas pocas semanas. Carlos aún no ha participado en este informe, pero accedió a ayudar con partes del análisis.
La fuente de la frustración de Carlos y Juan es que los dos aún no tienen un vocabulario compartido.
En la preparación para la reunión Carlos le pide a Juan que traiga una copia de los datasets originales relevantes. Ellos pensaron que se entenderían, . pero pronto se dan cuenta de que no lo han hecho. En la reunión Juan proporciona una tabulación cruzada y la ofrece como los datos originales.
Resulta que una tabulación cruzada no es un dataset original. Una tabulación cruzada puede funcionar como un conjunto de datos, pero no son datos originales.
Una tabulación cruzada es una técnica analítica. La tabla que resulta de una tabulación cruzada es el resultado de aplicar esta técnica. Entonces, por supuesto, Carlos vuelve a pedir el dataset original. Luego, por supuesto, Juan, pensando que ya ha proporcionado el dataset, se siente frustrado.
La fuente de la frustración de ambos es que los dos aún no tienen un vocabulario compartido. Todavía no se estaban comunicando de manera efectiva. Debido a esta situación, no solo están frustrados, sino que su proyecto relacionado con los datos también se verá afectado.
Dataset: qué es
Un dataset consta aproximadamente de dos componentes. Los dos componentes son filas y columnas. Además, una característica clave de un dataset es que está organizado de modo que cada fila contenga una observación.
De esta forma, un dataset es un conjunto de datos tabulados en cualquier sistema de almacenamiento de datos estructurados.
La palabra hace alusión a una única base de datos de origen, la que se puede relacionar con otras. Cada columna del conjunto de datos representa una variable y cada fila corresponde a un dato que vamos a tratar.
Tipos de datasets
Según el formato y origen tenemos un total de cuatro tipos de datasets, los cuales se emplean teniendo en cuenta las necesidades de los modelos de datos a trabajar.
Bases de datos: este dataset tiende a confundirse con el Archivo, sin embargo, la diferencia radica en su nivel de especialidad. Es decir, son bases de datos con un formato específico que se encuentran diseñadas para programas puntuales. Un ejemplo: las bases de datos de Oracle, las cuales funcionan solo para sus desarrollos.
Archivo: Cuando hablamos de este tipo de dataset nos referimos a un fichero independiente en el cual se almacena toda la información con la que vamos a trabajar. Como parte de sus ventajas figuran la rapidez y la seguridad en cuanto al trabajo con los datos al poder explotarlos de forma local. No obstante, la conexión con otros datasets que no se encuentran almacenados en la misma máquina y la escalabilidad, se complejiza.
Web: Como quizás intuyas, resulta de la compilación de datos que se almacenan dentro de un sitio web.
Folder: corresponde a la suma de distintos datasets almacenados en una misma carpeta, los cuales tienen conexión entre ellos. Es importante que estos archivos compartan un mismo formato.
Los conjuntos de datos adquieren relevancia por la facilidad de acceso a un gran volumen de información pública y privada para la elaboración de modelos de big data y posterior programación para el Machine Learning y la Inteligencia Artificial.
¿Quieres aprender a trabajar con datasets? ¿Buscas formarte como científico de datos? MIOTI Tech & Business School es un instituto tecnológico pionero y referente en el sector que ofrece formación especializada en Data Science & Deep Learning, Data Science & Big Data, Data Science & Analytics y Data Strategy & Analytics.
Si tienes ganas de potenciar tu empleabilidad y liderar la nueva revolución tecnológica podrás obtener más información de estos programas de máster aquí.