26 fantastiske åbne datasæt til dine datavidenskab/ML-projekter

Søgningen efter de rigtige datasæt kan være skræmmende, især når du har brug for dem til maskinlæring (ML) og datavidenskabsprojekter. Vi reducerer din forskningsindsats ved at levere den ultimative liste over gratis datasæt.

Datasæt er simpelthen samlinger af data. Det kan være finansiel, samfundssundhed, aktiemarkedsdata, bankdata, geografiske data, partikelvidenskabelige forskningsdata, vurderinger af produkter på et e-handelswebsted osv.

Datasæt indeholder data indsamlet gennem en videnskabelig undersøgelsesstandard og er vigtige for yderligere visualisering, ekstraktion, prognoser osv. Da data svarer til råolie i det digitale univers, bliver datasæt kommercielle og sparsomme.

Fortsæt med at læse for at finde ud af det grundlæggende om datasæt. Du vil også opdage nogle open source-datasæt, der virkelig er gratis til dine maskinlæringsprojekter (ML) eller datavidenskabelige projekter.

Hvad er datasæt?

Datasæt er indsamling af data i en struktureret og organiseret container. Normalt forbinder landinspektører datasæt med et unikt organ, for eksempel World Bank Open Data.

Igen opbevarer dataindsamlerne datasættene, der er specifikke for et emne som 2020 Census Data of the United States of America udgivet af United States Census Bureau.

Du vil finde mange datasæt om globale og lokale spørgsmål. De fleste datasæt indeholder indbyrdes relaterede datapunkter. For eksempel befolkningen i et land og hvordan fedme relaterer sig til forskellige klasser af denne befolkning.

Dataforskerne skal muligvis rense, omstrukturere og behandle sådanne datasæt ved hjælp af big data-værktøjer for at nå frem til værdifulde konklusioner som at reducere plastikaffald ved at analysere plastikforbrugsdata, afhjælpe arbejdsstyrkeproblemer ved at analysere løndata, træne kunstig intelligens (AI) og så på.

Typer af datasæt

Afhængigt af kilden til datasættene kan de være offentlige eller private. Offentlige datasæt er åbne for alle og bidrager meget til forskning og udvikling.

Igen kan datasæt være af følgende typer afhængigt af oplysningerne i dem:

  • Multivariat: Sådanne data indeholder flere variabler.
  • Kategorisk: Det portrætterer mange kategorier af mennesker.
  • Numerisk: Sådanne datasæt måler data i tal som alder, højde osv.
  • Korrelation: I denne type er datapunkter indbyrdes forbundne.
  • Filbaseret: Her gemmes datasæt i filer.
  • Bivariat: Et datasæt med to variable og en sammenhæng mellem dem.
  • Webdatasæt: Data indsamlet fra en eller flere lignende internetportaler.
  • Database: Sådanne datasæt gemmer data i tabeller, kolonner og rækker.
  Skift automatisk fra WiFi til mobildata, når signalet er lavt

Open Source-datasæt til datavidenskabelige projekter

Gratis datasæt er brændstoffet til at drive din passion for en datavidenskabskarriere. For hvis du er i de tidlige stadier af din datavidenskabskarriere, vil du måske gerne påtage dig personlige og ikke-kommercielle projekter for selvtillid eller porteføljeopbygning.

For det første kan du nemt teste dine nyindlærte færdigheder ved at anvende værktøjer og teknikker på datasætproblemer i den virkelige verden.

For eksempel er der frit tilgængelige kræftforskningsdata, Covid-19-data, FBI-kriminalregistreringsdata, partikelanalysedata fra CERN osv. Du kan bruge sådanne data og bygge en datavidenskabsmodel til at besvare vitale sociale, økonomiske og sundhedsmæssige problemer .

For det andet fungerer sådanne projekter som porteføljeforstærkere for din karriere. Hvis du kan bygge en succesfuld dataanalysemodel, der kan tilbyde handlingsorienteret indsigt, kan du fremvise disse modeller online ved at oprette porteføljewebsteder. Arbejdsgivere foretrækker projekter frem for formålserklæringer.

Gratis datasæt til maskinlæringsprojekter

Ligesom en datavidenskabsprofessionel skal en ML-professionel også arbejde på selvstyrede projekter for at undersøge deres færdigheder. Hvis projektet bliver vellykket, bliver det også en ideel komponent til din online eller offline portefølje af ML-projekter.

Derfor kan du nu forstå, at datavidenskab og ML-vækst afhænger af strukturerede datasæt. Hvis sådanne datasæt var for kommercialiserede, ville forskning og udvikling inden for datavidenskab blive fuldt virksomhedscentreret.

For at holde den datavidenskabelige ML-forskning åben for alle tilbyder følgende bureauer, institutioner og platforme gratis datasæt:

Data.gov

Du vil finde alle de åbne data indsamlet og behandlet af den amerikanske regering. i Data.gov. Platformen tilbyder også ressourcer og værktøjer til at udføre research, designe datavisualiseringer, udvikle mobil-/webapps mv.

Dets bemærkelsesværdige datasæt omfatter data om bæredygtig arealanvendelse, data om boliger i landdistrikter, elektroniske navigationskort i indlandet osv.

Åbn datasæt: Kaggle

Kaggle tilbyder et hav af offentlige data og computerkoder til datavidenskabelige projekter. Du kan vælge Datasæt for rådata og Kode for programmering af koder. Trendende datasæt på Kaggle er AMEX-data, Simpsons Viewership, Chatbot-træningsdata osv.

Segmentdatasæt: YouTube 8-M

Segmentdatasæt fra YouTube 8-M tilbyder dig segmentannoteringer verificeret af menneskelige revisorer. Du kan også få adgang til YouTube-8M-datasættet fra den samme portal. Datasættet indeholder 6,1 millioner video-id’er, 350.000 timers video, 2,6 milliarder audio/visuelle funktioner, 3863 klasser af videoer og i gennemsnit 3,0 etiketter pr. video.

Register over åbne data på AWS

ROD på AWS hjælper dataforskere med at dele og opdage datasæt, der hostes på AWS-ressourcer. Nogle interessante datasæt, du kan finde her, er The Cancer Genome Atlas, Foldingathome COVID-19-datasæt, Common Crawl osv.

Machine Learning Repository: UCI

UCI Machine Learning Repository vedligeholder i øjeblikket 622 datasæt, der passer til datavidenskabsfolk og ML-ingeniører til at træne deres AI-modeller. Der er også en søgbar grænseflade til at undersøge databaserne. Populære attraktioner er Accelerometer-datasættet, Synchronous Machine-datasæt, Wikipedia Math Essentials, Turkish Headlines-datasæt osv.

BigQuery offentlige datasæt: Google Cloud

Mange offentlige datasæt er gemt på BigQuery. Google gør datasættet tilgængeligt gratis gennem Google Cloud Public Dataset Program. Den gratis forespørgsel har dog en grænse på 1 TB om måneden. Du kan udføre standard SQL og ældre SQL-forespørgsler.

  Sådan tilføjer du gennemsigtighed til ethvert vindue og fastgør det på toppen

Fantastiske offentlige datasæt: GitHub

Awesome Public Datasets er et open source-datasæt, der indeholder emnecentrerede offentlige data. Indsamlet og sorteret fra forskellige blogs, svar og brugerfeedback kombinerer det gratis og betalte datasæt om fysik, sport, software, naturligt sprog og maskinlæring.

Verdensbankens data

World Bank Open Data er platformen, hvor du får gratis adgang til globale udviklingsdata. Det tilbyder også andre værdifulde ressourcer såsom præ-formaterede tabeller og rapporter. Du kan nemt gennemse efter land eller indikator for at få det nødvendige datasæt.

FiveThirtyEight: Data

FiveThirtyEight er en amerikansk hjemmeside, der beskæftiger sig med analyse af meningsmålinger, politik, økonomi og sport. Du kan få adgang til disse afstemninger og prognoser gennem datasæt fra deres platform. Du kan downloade datasættene med et enkelt klik.

ImageNet

ImageNet er en billeddatabase, hvorfra forskere verden over kan få open source-datasæt til deres ikke-kommercielle projekter. Her er billederne organiseret ud fra WordNet-hierarkiet. Projektet spiller en afgørende rolle i avanceret dybdelæringsforskning.

Datasætarkiv: UNICEF DATA

Ved hjælp af datasætarkiverne kan du få fat i datasæt indsamlet af UNICEF over hele verden. Data om migration, fordrivelse, kost, tilslutning, uddannelse, sundhed, læring, dødelighed, vold, barndomsudvikling, børneægteskaber, børnearbejde og forskellige statistikker er tilgængelige her.

Find åbne data: Govt. af UK

Hvis dit projekt har brug for data udgivet af lokale organer og den britiske regering, er Find Open Data den portal, du bør tjekke ud. Det dækker offentlige udgifter, erhvervsliv, sundhed, uddannelse, forsvar og flere datasæt.

Data: United States Census Bureau

Har du brug for US Census data til et relevant projekt? Du kan få hjælp fra USCB Data. Her kan du udforske 2020 folketællingsdata, tabeller, kort og dataprofiler, mens du visualiserer data og bruger dataværktøjer.

Data og statistik: CDC

Det amerikanske føderale agentur Centers for Disease Control and Prevention leverer også gratis datasæt til offentligheden for at få adgang til data og statistikker fra denne portal. Datasættets emner er miljøsundhed, kroniske sygdomme, fødsler og fødsel, dødsfald og dødelighed, forventet levetid, skader og vold, reproduktiv sundhed, nationale anmeldelsespligtige sygdomme osv.

Datasæt: MIT

Dette datasæt fokuserer på hvirvelinducerede vibrationsdata. Center for Ocean Engineering ved MIT er vært for nogle offentligt tilgængelige datasæt til benchmarking af computerkoder. Datasættene er åbne for alle for at invitere nye teorier fra de data- og synkroniseringsforskere, der arbejder inden for samme felt.

Verdensbankens datakatalog

Datakataloget indsamler gratis datasæt, der gør Verdensbankens udviklingsrelaterede data let tilgængelige. At bruge det i forskellige projekter er en leg, da du nemt kan finde og downloade dine foretrukne oplysninger. Den indeholder over 5000 datasæt, der dækker Verdensbankens mikrodata, finanser og energiplatforme.

  Din guide til at låse op for kraften ved Spotlight-søgning i OS X

NASA rumvidenskabelige data

NASA tilbyder adgang til sine arkivdata på Space Science Data Coordinated Archive. Denne platform er en stor hjælp for den brede offentlighed, især folk, der arbejder med uddannelse og rumforskning. Den har 400 TB digitale data, der indeholder information om 550 rumvidenskab.

Få dataene: Inde i Airbnb

Airbnb er en globalt anerkendt online markedsplads for homestays og ferieboliger. Det tilbyder også dataindsamling om forskellige byer verden over fra Get the Data. Du kan browse gennem byen for hurtigt at få dataene. Desuden kan du anmode om dine nødvendige data og læse dataforudsætninger på denne portal.

Webdata: Amazon-anmeldelser

De, der er interesseret i markedsundersøgelser og produktanmeldelser, bør bruge datasættene fra Snap Web Data. Det indeholder mere end 34 millioner brugeranmeldelser på Amazon, fra juni 1995 til marts 2013. Datasættet indeholder almindelig tekst, produktinformation, brugernavn, vurderinger og en anmeldelse.

IMF data

IMFs dataportal er værdifuld for alle økonomiske og finansielle datatyper. Uanset om du søger efter IMF-finansdata, eksterne sektorstatistikker, flagskibspublikationer eller mikroøkonomiske data, er det her, du kan finde dem. Desuden kan du bruge et filter til at få landevise data.

Google Bøger Ngrams

Hvis du arbejder med dele af tale og sprog, kan Google Books Ngrams hjælpe dig betydeligt. Dette open source-datasæt giver dig en idé om at bruge et bestemt ord og en sætning gennem historien eller et bestemt tidsinterval. Kilden til dette datasæt er de digitale dokumenter, der er indekseret af Google.

Markedsdata: Financial Times

Hvis du ønsker at få fingrene i pålidelige og nøjagtige globale og regionale aktiemarkedsdata, er Markets Data fra The Financial Times her for at hjælpe dig. Det giver dig mulighed for at arbejde med markedsdata fra Amerika, Asien-Stillehavsområdet, Europa, Afrika og det globale marked.

Jorddata: NASA

NASA giver fuld og åben adgang til sine videnskabelige data gennem Earth Data-programmet, der hjælper dig med at forstå vores hjemmeplanet og lave projekter med den. Du kan finde gratis datasæt om atmosfærisk, biosfære, kryosfære, menneskelige dimensioner, jordoverflade, hav, fast jord, sol-jord-interaktion og terrestrisk hydrosfære.

Datasætsøgning: Google

Hvis du er studerende, forsker eller dataforsker, der leder efter datasæt til at understøtte dit projekt, kan du få hjælp fra Dataset Search-portalen. Du kan kalde det en søgemaskine til datasæt, da den lader dig opdage datasæt, der er hostet i forskellige rapporter på tværs af nettet gennem søgeordssøgning.

Åbne data: CERN

Den europæiske forskningsorganisation CERN har en Open Data-portal, som du kan bruge til at få adgang til de forskningsgenererede data på CERN. Denne datasætportal indeholder to petabyte data relateret til partikelfysik. Desuden kommer den med applikationer og dokumentation, der er nødvendig for dataanalyse.

Crime Data Explorer: FBI

Crime Data Explorer (CDE) er open source-datasættet fra FBI, der har til formål at give lettere adgang til deling af kriminelle, ikke-kriminelle og retshåndhævende data. Udover at give dig mulighed for at opdage de nødvendige data gennem visualisering og kategorifiltrering, lader denne platform dig downloade data i CSV-format.

Afsluttende ord

Indtil videre har du gennemgået en virkelig udtømmende liste over datasæt af høj kvalitet. Artiklen præsenterer data fra forskellige nicher som fysisk videnskab, lægejournaler, rumforskning, strafferegistre, produktvurderinger osv.

Afhængigt af det datavidenskabelige eller maskinlæringsprojekt, du er i gang med, kan du vælge. Næsten alle datasættene har også korrekte instruktioner til at hjælpe dig med dit projekt.

Du kan også være interesseret i disse ressourcer for at lære datavidenskab og ML.