ChatGPT pentru analiza datelor: un ghid pentru începători
Cei mai mulți dintre noi considerăm ChatGPT ca pe un chatbot conversațional. Cu toate acestea, ChatGPT este, de asemenea, un instrument cuprinzător de analiză a datelor care poate gestiona diferite formate de fișiere de date, inclusiv foi de calcul Excel, fișiere CVS, PDF și chiar fișiere JSON.
De fapt, această lucrare a constatat că ChatGPT atinge performanțe comparabile cu oamenii în diferite sarcini de analiză a datelor. În același timp, a fost mult mai rapid și de peste 200 de ori mai ieftin decât un analist de date senior!

În acest ghid, vă voi arăta cum să utilizați ChatGPT pentru a efectua mai multe sarcini de analiză a datelor în câteva minute fără experiență de codare sau software statistic costisitor. După încărcarea datelor, puteți utiliza instrucțiuni conversaționale simple pentru a vă curăța, transforma și vizualiza datele.
Rezumat
Vom folosi datele din cel mai recent Raport World Happiness pentru a:
- Creați vizualizări precum diagrame cu bare, grafice cu linii, diagrame cu case și hărți termice.
- Analizați tendințele în timp, între țări și între diferite variabile.
- Efectuați analize de regresie și chiar explorați modelarea predictivă, inclusiv metode mai avansate, cum ar fi analiza profilului latent.
Ghidul va include, de asemenea, sfaturi despre cum să vă faceți rezultatele mai consistente și mai atractive din punct de vedere vizual.
Încărcarea mai multor fișiere
Puteți încărca până la 10 fișiere într-o singură conversație, ceea ce înseamnă că puteți aduce mai multe seturi de date și că ChatGPT vă ajută să le comparați sau să le îmbinați fără probleme.
Limitări
Înainte de a începe, este important să subliniem că caracteristica Analiză avansată a datelor este încă experimentală. Uneori s-ar putea să devină confuz, să producă declarații incorecte sau să introducă erori numerice (toate acestea sunt comune pentru LLM). Prin urmare, pentru a obține cele mai bune rezultate, verificați întotdeauna cu atenție rezultatul. Când creați vizualizări sau modele, este posibil să fie necesar să ajustați solicitările de câteva ori pentru a vă asigura că totul pare corect și are sens.
De asemenea, caracteristica „Vizualizare analiză” vă permite să vedeți codul Python de bază ChatGPT folosit pentru a crea rezultatul. Aceasta este o modalitate excelentă de a verifica pașii parcurși și de a verifica din nou calculele. De asemenea, puteți cere ChatGPT să vă furnizeze fișiere de program descărcabile sau noi seturi de date transformate, astfel încât să aveți o evidență a tuturor modificărilor efectuate.
Cum să activați instrumentul avansat de analiză a datelor
Analiza avansată a datelor este disponibilă utilizatorilor ChatGPT Plus (20 USD/lună). Pentru a-l accesa, pur și simplu conectați-vă la ChatGPT, începeți un nou chat și încărcați fișierele de date. Caracteristica ADA se va activa automat, recunoscând când doriți să efectuați analiza datelor.
Folosind GPT-uri specializate
Deși nu trebuie să faceți nimic pentru a utiliza caracteristica ADA, ChatGPT are un GPT specializat „Data Analyst” dezvoltat de OpenAI. Acest GPT este reglat special pentru sarcinile de analiză a datelor. Pentru a-l utiliza, faceți clic pe „Explorați GPT-uri” în colțul din stânga sus, apoi selectați GPT-ul analist de date înainte de a începe analiza. Voi folosi Data Analyst GPT pentru analiza de mai jos.
Cum funcționează caracteristica Analiză avansată a datelor?
- Încărcați datele dvs .: Încărcați fișierele de date prin interfața de chat a ChatGPT. Faceți clic pe butonul „+” din chat pentru a vă atașa fișierele sau trageți și plasați-le.
- ChatGPT analizează datele : ChatGPT procesează datele folosind un mediu Python. Folosește biblioteci Python binecunoscute precum Pandas pentru manipularea datelor și Matplotlib pentru crearea de vizualizări.
- Furnizați instrucțiuni : Folosiți un limbaj natural pentru a oferi instrucțiuni. Puteți cere ChatGPT să curețe datele, să creeze diagrame specifice sau să execute analize, totul fără a fi nevoie să codificați.
- Rezultate în timp real : ChatGPT vă convertește instrucțiunile în scripturi Python, rulează codul și prezintă rezultatele în formate accesibile, cum ar fi tabele, diagrame sau rezumate statistice.
Pentru cele mai bune rezultate, asigurați-vă că utilizați date structurate, cu rânduri și coloane etichetate corespunzător. Adăugarea unei descrieri a fiecărei variabile într-un al doilea rând poate ajuta ChatGPT să vă înțeleagă mai bine setul de date, ceea ce poate îmbunătăți calitatea analizei (deși, nu este necesar).
Analiza iterativă
Cea mai bună parte a utilizării ChatGPT pentru analiza datelor este că este iterativă. Odată ce obțineți o ieșire inițială - cum ar fi o diagramă sau un rezumat - o puteți modifica instantaneu. Doriți să adăugați mai multe țări la un grafic? Schimbați culorile? Adăugați adnotări noi? Doar intreaba! Veți vedea modificările făcute în timp real, făcându-l un mod ușor și eficient de a vă explora datele.
Să începem cu exemplul practic.
Setul de date
Pentru acest exercițiu, vom folosi un set de date din cel mai recent Raport World's Happiness care acoperă tendințele de fericire la nivel de țară din 2008 până în 2022 [ descărcați datele aici ].
Faceți clic pe butonul din fereastra de chat (colțul din stânga jos) și încărcați fișierul de date despre fericire (sau pur și simplu trageți și plasați fișierul).

Acum sunteți gata să interacționați cu datele folosind instrucțiuni simple în limbaj natural.
Prezentare generală a setului de date
Dacă nu sunteți familiarizat cu setul de date, puteți începe prin a explora structura acestuia. Puteți cere ChatGPT să citească datele, să le descrie, să le curețe pentru valori nule și să le transforme. Setul nostru de date este deja în formatul dorit, dar lipsesc observații, așa că putem cere ChatGPT să le ștergă. Iată câteva exemple de instrucțiuni pentru a începe.
· Vă rugăm să analizați fișierul de date și să oferiți o descriere a tuturor variabilelor.
· Arată-mi primele câteva rânduri ale setului de date.
· Generați un tabel cu statistici rezumative, care arată media, abaterea standard și numărul de observații pentru fiecare variabilă din setul de date.
· Generați histograme pentru fericire, PIB pe cap de locuitor și speranța de viață pentru a înțelege distribuția acestora în toate țările.
Iată câteva dintre rezultate. ChatGPT a descris variabilele și a creat câteva histograme.

Schema de culori
ChatGPT creează cod Python pentru a crea imagini vizuale. Procesul poate fi oarecum aleatoriu. Prin urmare, dacă doriți să produceți grafice consistente, poate fi util să alegeți o schemă de culori. Iată câteva hărți de culori pe care le puteți folosi. Voi folosi unele dintre aceste scheme de culori în exemplele de mai jos.

Sau le puteți tăia mai departe. Iată harta de culori spectrală împărțită în 5 (cu câteva coduri hexadecimale de mai jos).

'# 5cb7aa ', '# 97d5a4 ', '# fff1a8 ', '# fa9b58 ', '# ee6445 '
Notă despre acuratețe
Este important să verificați acuratețea ieșirii. Deși este avansat (și mai bun decât majoritatea oamenilor), sistemul poate produce rezultate înșelătoare. A cere ChatGPT să lucreze pas cu pas, să explice rezultatul și să verifice de două ori lucrul este o modalitate excelentă de a-l forța să producă rezultate mai precise.
În plus, puteți face clic pe Afișare lucru pentru a vedea codul Python de bază pe care sistemul îl folosește pentru a produce rezultatele. Acest lucru vă permite să vedeți toți pașii pe care îi face sistemul pentru a produce rezultatul. De asemenea, puteți cere sistemului să vă furnizeze un fișier de program descărcabil sau un set de date nou transformat și curățat.
Analiza serii temporale
Ok, să începem prin a ne uita la tendințele fericirii de-a lungul timpului.
Fericirea globală
În primul rând, să ne uităm la fericirea globală de-a lungul timpului. Rețineți că nu există nicio variabilă în setul de date care să măsoare fericirea globală. GPT-4 va efectua automat sarcina și apoi va crea graficul.
Trasează un grafic cu linii care afișează fericirea medie globală din 2008 până în 2022, cu o linie de tendință pentru a evidenția schimbările generale. Utilizați următoarea culoare pentru linia fericirii: #5cb7aa și această culoare pentru linia tendințelor: #ee6445. Asigurați-vă că începeți din 2008.

Există o ușoară creștere a fericirii din 2016 și 2020 și apoi o scădere, probabil din cauza pandemiei covid-19. Dar tendința generală este pozitivă.
În continuare, să ne uităm la câteva tendințe de fericire specifice țării de-a lungul timpului.
Generați un grafic cu linii care să prezinte fericirea Statelor Unite, Regatului Unit, Bulgariei, Afganistanului și Finlandei din 2008 până în 2022. Folosiți culori diferite pentru fiecare țară. Mai exact, utilizați schema de culori spectrală pentru a alege culori mai vibrante.

Schimbări în timp
În continuare, ne vom uita la țările care au experimentat cele mai mari schimbări de fericire în aceeași perioadă de timp.
Creați o diagramă cu bare pentru a arăta care țări au experimentat cele mai mari modificări ale scorurilor de fericire din 2008 până în 2022. Arătați-mi primele 10 și cele mai mici 10 în ceea ce privește creșterea și scăderea fericirii. Puneți țara cu cea mai mare creștere a fericirii în partea de sus a graficului și cea cu cea mai mare scădere a fericirii în partea de jos. Utilizați următoarea culoare pentru creștere (#5cb7aa) și scădere (#ee6445). Mulţumesc!

Diagrama Heatmap
Putem reprezenta chiar tendințele specifice țării cu o hartă termică.
Generați o hartă termică pentru Statele Unite, Afganistan, Costa Rica, Bulgaria și Finlanda din 2008 până în 2022. Puneți anul pe axa orizontală și țările pe cea verticală. Utilizați schema de culori spectrală. Puneți cele mai fericite țări în partea de sus și mai puțin fericite în partea de jos. Mulţumesc!

Generați diagrame cu casete
De asemenea, putem genera un diagramă cu casete care ne poate permite să vedem distribuția scorurilor de fericire în timp și să ne ajute să identificăm valorile aberante.
Generați diagrame cu case pentru a explora distribuția scorurilor de fericire pentru fiecare an. Utilizați schema de culori spectrală. Mulţumesc!

Analiza Cross Country
În continuare, să ne uităm la distribuția fericirii în întreaga lume.
Comparând fericirea între țări
În primul rând, vom compara nivelurile de fericire din diferite țări.
Generați o diagramă cu bare care arată primele 10 țări cele mai fericite în 2022 și primele 10 țări cele mai puțin fericite. Puneți țările pe axa verticală și nivelurile de fericire pe cea orizontală. Asigurați-vă că cele mai fericite țări sunt în partea de sus și că toate țările sunt în ordine descrescătoare (de exemplu, cea mai fericită țară este în partea de sus a graficului, țara cel mai puțin fericită este în partea de jos). Utilizați schema de culori spectrală. Pune o legendă în partea dreaptă a graficului. Mulţumesc!

Am decis să cer ChatGPT să includă țări în mijlocul distribuției fericirii. Și adăugați linii întrerupte și etichete pentru primele 10, mijloc 10, jos 10 pentru a crea puțin mai multă separare. După câteva solicitări, iată rezultatul final (a durat aproximativ 3 minute pentru a face această sarcină).

Puteți face același grafic, dar pentru toate țările europene? Utilizați din nou schema de culori spectrală. Mulţumesc!

Generați o hartă coropletă
Acum, să încercăm să vizualizăm fericirea pe harta lumii.
Puteți crea o hartă coropletică care să prezinte nivelurile de fericire ale tuturor țărilor în 2022.
Iată cum arăta prima iterație a hărții.

Nu a putut potrivi toate țările cu fișierul GeoJSON pe care îl folosea. Deci, pur și simplu i-am cerut să potrivească țările cu setul de date geoJSON și apoi să creeze o altă hartă, reparând și harta și legenda pentru a avea proporții mai bune. Iată următoarea iterație a hărții.

De asemenea, puteți cere ChatGPT să creeze o hartă care arată schimbări relative ale fericirii de-a lungul timpului.
Mare! Acum ai mai face o hartă. Puteți să analizați datele din 2008-2022 și să creați o hartă coropletă care să arate cât de mult s-a schimbat fiecare țară în această perioadă de timp (pentru a arăta mai mult sau mai puțin fericită). Vă rugăm să ajustați harta pentru a ține cont de orice valori aberante.
Creați o diagramă de păianjen
Putem chiar să fim creativi și să cerem ChatGPT să creeze o diagramă spider pentru țări individuale și apoi să le comparăm.
Puteți genera o diagramă spider pentru Bulgaria pentru 2022. Folosiți dimensiunile fericirii, log pib pe cap de locuitor, sprijin social, speranță de viață sănătoasă, libertate de a face alegeri, percepții despre corupție. Standardizat fiecare variabilă, astfel încât graficul să pară mai consistent. Faceți graficul atrăgător din punct de vedere vizual (și să arate mai modern). Utilizați schema de culori spectrală. Mulţumesc!

Analiza de corelație și regresie
În continuare, vom explora relațiile dintre diferite variabile și vom construi un model simplu pentru a înțelege determinanții fericirii.
Explorează relația dintre $ și fericire
Să creăm un scatterplot, astfel încât să putem vizualiza relația dintre bani și fericire.
Puteți crea un grafic de dispersie care să indice relația dintre PIB-ul pe cap de locuitor și fericire. Folosiți X pentru fiecare țară (faceți culoarea X diferită în funcție de nivelul de fericire). Potriviți o linie MOL care arată un interval de încredere de 95% și afișați-l pe grafic. Faceți intervalele de încredere gri deschis cu un nivel mediu de opacitate. Utilizați schema de culori magma. Mulţumesc!

Un lucru interesant este că procesul este iterativ. Deci, iată același grafic cu o schemă de culori diferită și numai pentru 2022.

Și adăugarea numelor de țări.

Să facem același lucru cu toate celelalte variabile din setul de date (PIB pe cap de locuitor, sprijin social, speranță de viață sănătoasă, libertate de a face alegeri, generozitate, percepții despre corupție). Combinați toate graficele într-o singură figură de 2 (coloane) x 3 (rânduri).

Rulați un model de regresie liniară
În continuare, vom replica figura 2.1 din Raportul Fericirii Mondiale.
Puteți rula o regresie MOL combinată care să explice fericirea din toate sondajele disponibile până în 2022. Folosiți fericirea ca DV și log pib pe cap de locuitor, sprijin social, speranță de viață sănătoasă, libertate de a face alegeri, generozitate, percepții despre corupție ca elemente de control. Includeți efectele fixe ale anului. Raportați toți coeficienții într-un tabel cu titlul: Regresie pentru a explica fericirea medie în diferite țări. Coeficienții sunt raportați cu erori standard robuste grupate pe țară (în paranteze). ***, ** și * indică semnificația la nivelurile de 1, 5 și, respectiv, 10 procente. Raportați numărul de țări, numărul de observații și R-pătratul ajustat. Mulţumesc!
Iată câteva dintre rezultate, care sunt identice cu cifra din Raportul Fericirii Mondiale. De asemenea, puteți cere ChatGPT să exporte rezultatul într-un fișier Excel sau să creați tabelul pentru Latex, pe care îl puteți edita în continuare. Important este că a replicat destul de exact modelul OLS.

Pe baza rezultatelor, care factor este cel mai important pentru fericire la nivel de țară? Cum ți-ai dat seama de asta? Puteți crea un grafic care să indice importanța relativă a fiecărei variabile pentru fericire? Excludeți efectele fixe ale anului. Utilizați schema de culori magma.

Puteți rula un model de regresie care să explice fericirea din toate sondajele disponibile până în 2022. Folosiți fericirea ca DV și log pib pe cap de locuitor, sprijin social, speranță de viață sănătoasă, libertate de a face alegeri, generozitate, percepții despre corupție ca elemente de control. Includeți țara și anul cu efecte fixe. Pe baza modelului estimat, puteți afișa un grafic cu fericirea prezisă față de fericirea reală pentru Statele Unite. Mulţumesc!

Analiza profilului latent (avansat)
În continuare, să încercăm o tehnică mai avansată, cum ar fi analiza profilului latent (LPA), care este o metodă statistică utilizată pentru a identifica subgrupuri sau profiluri în cadrul unei populații mai mari pe baza variabilelor observate. LPA presupune că există câteva subgrupuri latente (neobservate) în populație, iar oamenii din cadrul fiecărui subgrup au caracteristici comune care îi diferențiază de alte subgrupuri.
Un exemplu ar fi un studiu care analizează sănătatea emoțională a studenților. Puteți măsura variabile precum depresia, anxietatea, stima de sine și satisfacția de viață. LPA pe aceste variabile poate identifica trei profiluri latente: un grup „sănătos” cu depresie/anxietate scăzută și stima de sine ridicată/satisfacție în viață, un grup „distres moderat” cu scoruri moderate la toate variabilele și un grup „distresat” cu depresie/anxietate și stimă de sine scăzută/satisfacție de viață. Profilurile reprezintă subgrupuri de studenți cu experiențe de sănătate emoțională distincte care nu sunt măsurate direct, dar sunt deduse prin variabilele observate.
Puteți aplica LPA pentru a identifica subgrupuri de clienți cu preferințe și comportamente diferite care pot permite strategii de marketing direcționate. Sau puteți detecta subgrupuri de investitori care iau decizii pe baza unor obiective distincte și toleranțe la risc pentru a sprijini consultanța financiară și așa mai departe.
Efectuați o analiză a profilului latent (LPA) folosind date privind următoarele variabile pentru toate țările din setul nostru de date: scorul de fericire, PIB-ul pe cap de locuitor, sprijinul social, libertatea de a face alegeri de viață și indicele de percepție a corupției. Scopul este de a identifica grupuri de țări care au profiluri comune pentru aceste variabile. Selectați numărul optim de profiluri latente - când faceți aceste îmbunătățiri marginale în model (arată un grafic). Validați modelul rezultat examinând entropia, probabilitățile medii de clasă latentă și șansele de clasificare corectă. Raportați valorile centroidului (medii variabile) pentru fiecare profil și numărul de țări alocat fiecăruia. Vizualizați profilurile fiecărui cluster folosind diagrame cu bare, evidențiind nivelurile medii ale fiecărui factor din fiecare cluster (utilizați valorile standardizate aici). Creați grafice separate pentru fiecare profil. Utilizați schema de culori spectrală pentru toate graficele. Respirați adânc și lucrați pas cu pas. Multumesc!
ChatGPT a ales trei profiluri, ceea ce pare rezonabil (câștigul dincolo de trei profiluri este doar marginal).

Și iată o defalcare a profilurilor. Țările nu sunt cea mai bună aplicație a LPA, dar ideea este că puteți face acest tip de analiză exploratorie relativ bine.

În ansamblu, analiza a găsit 3 profiluri distincte. După cum v-ați aștepta, un profil a reflectat o bunăstare și o dezvoltare economică mai scăzute. Un altul moderat bunăstare și dezvoltare economică. Iar cea finală bunăstare ridicată și nivel ridicat de dezvoltare economică (precum și nivel scăzut de percepție a corupției).



Învățare automată (model forestier aleatoriu)
În continuare, vom adapta un model de bază de învățare automată (pădure aleatoare) pentru a prezice scorurile de fericire. Acest lucru nu este menit să fie exhaustiv și este necesară o înțelegere de bază a metodei, ci pentru a demonstra capacitățile ChatGPT.
Antrenează un model de pădure aleatoriu pentru a prezice fericirea. Predictorii ar trebui să includă PIB-ul pe cap de locuitor, sprijinul social, libertatea de a face alegeri de viață, indicele de corupție și efectele fixe ale anului. Utilizați 70% din date pentru instruire, 20% pentru validare și 10% pentru testarea performanței modelului. Arată cât de bine funcționează modelul. Evaluați importanța fiecărei variabile (afișați un grafic cu importanța relativă a fiecărui factor). Finalizați analiza fără oprire. Faceți orice presupuneri trebuie să faceți.

Pe baza modelului estimat, puteți afișa un grafic cu fericirea prezisă față de fericirea reală pentru Statele Unite. Mulţumesc!

Tabloul de bord interactiv (avansat)
În cele din urmă, putem chiar crea un tablou de bord interactiv pentru a vizualiza setul de date folosind Python și Streamlit.
· Utilizați instrumente precum Plotly, Dash sau Streamlit pentru a crea o aplicație web interactivă.
· Includeți diferite tipuri de diagrame și permiteți utilizatorilor să filtreze și să interacționeze cu datele.
· Încorporați intrarea utilizatorului pentru a actualiza dinamic vizualizările.
Analiza exploratorie a datelor
În cele din urmă, chiar dacă nu știi de unde să începi, poți pur și simplu să ceri ChatGPT să exploreze singur datele și să găsească câteva modele interesante sau contra-intuitive. De obicei face o treabă grozavă.
Explorează datele pe cont propriu, căutând modele contra-intuitive
Puteți explora datele pe cont propriu și puteți căuta modele interesante? Care sunt unele observații contra-intuitive, dacă există? Oferă câteva vizualizări care să mă ajute să înțeleg ceea ce descoperi.
Și, asta este! Sperăm că acest ghid v-a oferit câteva idei bune despre cum să utilizați ChatGPT pentru analiza datelor. ChatGPT nu este perfect, iar cel mai bun caz de utilizare este să ai un fundal în analiza datelor, astfel încât să poți evalua critic rezultatul. Cu toate acestea, atunci când este utilizat eficient, vă poate accelera semnificativ fluxul de lucru, vă poate oferi informații noi și vă poate ajuta la explorarea seturilor de date complexe. Amintiți-vă, combinarea experienței dvs. cu capacitățile ChatGPT poate duce la o analiză a datelor mai eficientă, care este și mai distractivă!
Comentarii
Trimiteți un comentariu