Explora una amplia variedad de Datasets públicos para probar y potenciar tus proyectos o análisis.
La tecnología y la información suelen ir de la mano. Cada vez más las nuevas tecnologías nos permiten procesar grandes cantidades de información y es aqui donde los Datasets públicos se vuelven relevantes.
¿Qué son los datasets públicos?
Un dataset, o conjunto de datos, es un archivo que contiene información estructurada como tablas o matrices.
Estos conjuntos de datos se utilizan para analizar y comprender situaciones diversas, desde el comportamiento del consumidor hasta la detección de patrones.
Con base al análisis de estos datos podemos resolver problemas y mejorar procesos en diversos campos o industrias.
Para que los datasets se consideren públicos deben estar disponibles de forma gratuita y no contener información personal o privada. Las condiciones que especifiquen lo anterior deben ser muy claras.
¿Qué utilidad tiene los datasets públicos?
Pueden ser una herramienta valiosa en un proyecto de software o aplicación, especialmente durante el proceso de pruebas.
Estos usualmente contienen una gran cantidad de datos de prueba realistas y variados que pueden ser utilizados para evaluar el desempeño y funcionalidad del software.
Su uso además, nos evita el tener que invertir tiempo en generar datos de forma manual, esto se traduce en un ahorro significativo de tiempo y recursos.
Los datos contenidos en un dataset público pueden ser mas representativos y variados que aquellos generados manualmente.
Por lo descrito anteriormente te dejamos a continuación 5 sitio desde los cuales podrás descargar datasets públicos para tus aplicaciones.
1. Kaggle
Una de las plataformas más populares en línea para descargar y compartir conjuntos de datos públicos.
Esta plataforma ofrece además competencias, cursos y discusiones en línea para la comunidad de ciencia de datos de todo el mundo.
Dentro de Kaggle hay alrededor de 50,000 datasets públicos y casi 400,00 cuadernos de notas públicos tambien conocidos como Kaggle notebook.
Un Kaggle notebook puede estar compuesto por tutoriales o código que han utilizado distintos usuarios en distintos ejercicios de análisis de datos y machine learning.
2. Awesome Public Datasets
Repositorio de Github que recopila una gran cantidad de conjuntos de datos en una amplia variedad de temas que van desde la ciencia y tecnología hasta social media y más.
La idea atrás de este repositorio es que los datos sean más accesibles y fáciles de encontrar para todas aquellas personas interesadas en ellos.
Awesome Public Datasets cuenta con conjuntos de datos de alta calidad que además son de licencia abierta, es decir; pueden ser descargados y utilizados de forma gratuita.
La comunidad de GitHub puede contribuir a este repositorio agregando nuevos conjuntos de datos o bien, realizando mejoras a los ya existentes.
3. Data.gov
Sitio desarrollado a partir de una iniciativa del gobierno de los Estados Unidos para proporcionar acceso a todos aquellos datos públicos de diversas instancias federales, estatales y locales.
Data.gov ofrece una amplia variedad de datos basados en áreas como lo son: educación, medio ambiente, energía, justicia entre muchas otras más.
El total de conjuntos de datos albergados en la plataforma es de alrededor de 249,957 los cuales encontraremos en formatos JSON, XLS, CSV y XML.
4. Datos.gob.mx
Plataforma oficial del gobierno de México para la publicación de datos abiertos, estos estan basados en distintas temáticas como: Cultura, Turismo, Economía, Educación, Energía, Medio Ambiente, Finanzas, Gobiernos Locales, Infraestructuras, Salud y Seguridad.
La descarga en datos.gob.mx puede realizarse en distintos formatos: CSV, JSON y XLSX.
5. Datos abiertos Colombia
Sitio web oficial del gobierno colombiano en el cual publica y pone a disposición conjuntos de datos abiertos correspondientes a su país.
Al igual que las otras plataformas mencionadas previamente los datos estan disponibles en formatos CSV, XLSX, JSON y XML lo que facilita su uso con herramientas de análisis diversas.
En datos.gov.co hay a disposición conjuntos de datos geoespaciales para su visualización de datos en mapas y su integración con otras plataformas de geolocalización.
En conclusión, los datasets públicos son muy valiosos para los proyectos de análisis de datos, ya que nos permiten acceder a información de calidad y confiable de forma gratuita.
Además de los sitios recomendados aqui, encontraras otros mas en la web que podrán darte la variedad necesaria en base al uso que tu necesites.
Encontrarás la mayoría en formatos compatibles para ser utilizados en aplicaciones como Power BI, Google Data Studio, Tableu, asi como lenguajes de programación como Python, lenguaje que suele utilizarse como herramienta de análisis de datos y estadístico.
El acceso a esta información puede ser factor determinante para las pruebas de tu proyecto, o bien, del éxito del mismo en caso de que uses estos datos en aplicaciones y/o análisis de datos que ya estén en operación.
Foto principal: Luke Chesser – Unsplash