Skip to main content

Date eronate. Care sunt consecințele utilizării datelor eronate?

By March 21, 2023Blog, FME, Uncategorized

2,5 trilioane de octeți de date sunt generați zilnic în întreaga lume. Chiar dacă datele au devenit accesibile pe scară largă, calitatea lor rămâne încă problematică. Datele incorecte reprezintă o problemă majoră pentru fiecare persoană care lucrează cu date. Conform statisticilor Kissmetrics, datele de proastă calitate pot determina companiile să piardă până la 20% din profit. Datele incorecte sunt, de asemenea, un obstacol semnificativ în calea dezvoltării business-ului.

Citiți acest articol pentru a afla:

De ce datele mele sunt eronate? 7 motive principale

Pot exista multe cauze pentru datele eronate. Să aruncăm o privire la cele mai comune motive:

1. Date învechite

Datele, în special cele culese în teren, sunt obținute din locuri diferite și cu frecvențe diferite. Nu este garantat că toate datele colectate sunt din aceeași perioadă de timp. Mai mult, în cazul proiectelor mari, colectarea datelor poate dura atât de mult încât până la sfârșitul procesului datele vor fi deja învechite.

Acest lucru este obișnuit pentru un proces manual de colectare a datelor care nu poate ține pasul cu schimbările constante. Un exemplu este colectarea manuală a datelor în domeniul legat de ex. rețele de alimentare cu apă, energie sau telecomunicații.

2. Modele de date diferite

Colectarea manuală este cauza evidentă a diferențelor dintre modelele de date, chiar dacă acestea sunt culese de aceeași persoană. Este uimitor câte moduri există de a scrie numele unei străzi. Să luăm Bulevardul 4 iulie. Poate fi scris și ca Bulevardul 4 iulie, 4 iulie, 4-th of July etc. O simplă schimbare a numelui care poate trece cu ușurință neobservată face ca datele să fie inconsecvente. Sistemele de prelucrare a datelor le tratează ca informații complet diferite.

Nu numai utilizatorii sunt acuzați pentru lipsa de consistență a datelor. Există mai multe motive pentru diferențele dintre modelele de date. Ele provin adesea din actualizările sistemelor IT, în special actualizările principale care fac ca software-ul să crească câteva versiuni. Sistemul actualizat poate include noi atribute, astfel încât datele transferate devin incomplete.

Problema diferitelor modele de date este adesea legată de fuziunile companiilor. Fuziunile necesită integrarea bazelor de date utilizate de companiile care se combină într-o singură entitate.

Motivele diferențelor dintre modelele de date

Modificarea adnotării datelor

Actualizarea sistemelor IT

Fuziunea sistemelor diferitelor companii

3. Lipsa de referințe

Este esențial să definiți referința potrivită care vă permite să verificați corectitudinea datelor, în special atunci când utilizați date open source.

Pe lângă avantajul lor incontestabil de accesibilitate, datele open source prezintă un risc semnificativ de erori. Acest lucru se datorează faptului că sunt actualizate de un public larg. Un exemplu de platformă de date open source este OpenStreetMap.

Pentru a evita rezultatele false ale analizei, merită să comparați mai multe seturi de date din surse diferite. Acest lucru vă permite să capturați părți comune, precum și părți cu cele mai semnificative diferențe. De exemplu, puteți compara datele din OpenStreetMap și Topographic Object Database.

4. Prea multă încredere în sursele externe de date

O greșeală comună este a avea prea multă încredere în datele din surse externe.

De obicei, acestea sunt verificate și calitatea lor este satisfăcătoare. Dar bazele de date cu adrese poștale contrazic acest argument. Acestea conțin multe adrese, dar, de obicei, doar o mică parte este cu adevărat utilă. Există o lipsă de cunoștințe despre cum au fost colectate astfel de date și dacă sunt actualizate, complete și consecvente. De asemenea, nu există nicio garanție că vă vor sprijini operațiunile.

icon-1

În timpul analizei datelor, ar trebui să luați în considerare și contextul și momentul în care datele au fost produse, precum și cine le-a colectat și în ce scop. Prejudecățile pot afecta datele chiar și în etapa de colectare și acest lucru poate influența rezultatele analizei.

5. Multiple surse de date într-o companie

Sursele de date pot fi dispersate chiar și în cadrul unei singure organizații. Diferite tipuri de date pot fi colectate în moduri diferite, astfel încât poate exista o lipsă a unui model sau format de date consistent.

Probleme apar atunci când încercați să integrați astfel de date. O anumită înregistrare (de exemplu, legată de unul dintre clienți) poate apărea în mod repetat în sistemul central care adună date din mai multe surse. Prin urmare, trebuie să decideți ce bază de date sau sistem ar trebui să fie superior altora care completează sursa principală de date. Înregistrarile inutile ar trebui apoi șterse.

You can learn more about the benefits of data integration from our article “Spatial data – assets that improve your company management”.

6. Înregistrări duplicate

Adesea, după îmbinarea mai multor surse de date, setul de date final conține înregistrări duplicate. Nu este o problemă dacă sunt identice, deoarece tot ce trebuie să faceți este să ștergeți datele repetate. Devine dificil dacă înregistrările diferă doar într-un singur atribut, un mic detaliu, cum ar fi o cifră dintr-un număr de telefon. Atunci nu știi care este corect și care ar trebui șters. În această situație, trebuie să efectuați o verificare suplimentară a datelor.

7. Erori umane

Am menționat deja erorile umane. Acestea apar atunci când datele sunt transcrise într-un sistem sau bază de date. Acestea pot fi valori ale atributelor nevalide, greșeli de scriere sau inconsecvențe în notație din cauza diferențelor dintre limbi (de exemplu, puncte sau virgule la scrierea punctelor zecimale).

Acest tip de eroare este rezultatul oboselii umane sau al distragerii atenției legate de sarcini repetitive, plictisitoare. Acestea pot apărea și în cazul în care un angajat nu are abilitățile necesare pentru îndeplinirea sarcinii, de exemplu, nu știe cum să completeze un anumit formular.

Cele mai frecvente erori de date

O categorie generală de erori de date este legată de atributele:

  • valori lipsă sau necunoscute
  • greșeli de scriere,
  • lipsă  diacritice,
  • notații diferite ale unui atribut dat, de ex. avenue – av – av, street – st – str etc. Lipsa de consecvență a modelelor de date din diferite surse, de ex. Bulevardul George Washington vs Bulevardul Washington,
  • lipsa unui număr de identificare (ID),
  • diferite formate de date și/sau unitați diferite

Alte erori comune includ:

nerespectarea modelului sau schemei adoptate,
înregistrări sau obiecte duplicate rezultate din integrarea diferitelor surse,
referințe invalide sau lipsă la seturile de date externe sau resursele lexicale.

Rezultatele sondajului nostru demonstrează scăderea calității datelor, de obicei, datorită unor erori umane sau date învechite din diferite surse.

Erori de date spațiale

Este surprinzător cât de multe companii și instituții încep să-și folosească datele spațiale. Această tendință va continua să crească, așa că este important să aveți grijă de datele dvs. geospațiale.

Reminder – datele spațiale sunt acelea care conțin informații suplimentare de localizare geografică pe lângă lista obișnuită de atribute.

Toate erorile de date descrise mai sus pot fi adevărate atât pentru datele spațiale, cât și pentru cele non-spațiale.

În ambele cazuri, pot exista atribute lipsă, valori invalide, greșeli de scriere etc. care pot rezulta din sisteme învechite, erori umane, surse de date diferite, obiecte duplicate din integrările bazelor de date etc.

Din păcate, datele spațiale pot conține erori suplimentare, specifice.

Cele mai frecvente erori de date spațiale

Cele mai frecvente erori de date spațiale includ:

erori geometrice și topologice în datele vectoriale:
  • poligoane neînchise,
  • linii care nu ating puncte,
  • linii care se intersecteaza,
  • vârfuri sau interceptări plasate incorect,
  • tip de geometrie invalidă,
  • schemă model definită incorect,
  • unități sau sisteme de coordonate invalide,
  • rețele inconsistente și lipsa legăturilor între obiecte.
erori de clasificare în datele fotogrammetrice din cauza diferențelor în definițiile claselor (sisteme de clasificare)

Un exemplu este o provocare legată de clasificarea solurilor din zonele transfrontaliere. În timpul validării, unele profiluri pot fi suprapuse.

erori de generalizare

Utilizarea incorectă a tehnicilor de generalizare sau a parametrilor pentru datele vectoriale, de ex. un parametru de netezire sau simplificare care este prea mare.

De unde provin erorile de date spațiale?

Sursele erorilor de date spațiale sunt similare cu cele pe care le-am menționat deja anterior. Ele pot apărea din cauza:

  • sursele de date sunt create de useri neexperimentați care pot face multe greșeli,
  • datele nu sunt verificate înainte de a fi partajate în mod obișnuit,
  • informațiile utilizate sunt învechite,
  • datele au fost create într-un sistem care nu este acceptat de sisteme mai noi și nu poate fi citit corect,
  • o persoană care lucrează cu date spațiale nu are suficientă experiență pentru a ști, de ex. ce sistem de coordonate ar trebui utilizat sau care tehnică de generalizare sau clasificare este cea mai bună pentru un anumit set de date.
data-excess

Care sunt consecințele utilizării datelor de proastă calitate?

În primul rând, utilizarea datelor de proastă calitate are ca rezultat o muncă la fel de slabă calitativ.

Utilizarea analizelor datelor care conțin erori vă face să trageți concluzii incorecte, prin urmare, fiecare decizie pe care o luați pe baza acestor analize este, de asemenea, greșită. Aceasta este o strategie deosebit de slabă, mai ales pe piața mereu competitivă, unde supraviețuirea multor companii depinde de luarea deciziilor corecte.

În cazul datelor spațiale și non-spațiale, erorile perturbă și întârzie foarte mult munca. Acest lucru are ca rezultat proiecte întârziate, clienți nemulțumiți, pierderi financiare și pierderi de parteneriate.

În sondajul nostru, am întrebat participanții despre cele mai comune consecințe ale lucrului cu date de proastă calitate. Răspunsurile lor indică ineficiența muncii, analize incorecte și oportunități de vânzare pierdute.

Erorile de date spațiale au și mai multe consecințe, mult mai grave decât pierderea afacerii.

Uneori, viața umana depinde de calitatea datelor spațiale.

Cea mai populară utilizare a datelor spațiale este GPS-ul și navigația. Acesta este ceea ce folosesc serviciile de salvare pentru a ajunge la locul incidentului. În acest tip de situație, fiecare secundă de întârziere poate fi ultima a cuiva. Datele incorecte pot face ca ambulanța să ajungă mai întâi în locul greșit, ceea ce prelungește timpul de așteptare pentru persoanele care au nevoie de ajutor.

Există un alt exemplu, mai puțin dramatic, care încă arată impactul datelor incorecte. O companie de construcții poate deteriora accidental instalația de energie sau conductele de apă/gaz atunci când utilizează hărți cu informații incorecte. Acest lucru poate fi atât periculos, cât și supărător pentru persoanele care nu au acces la gaz, apă sau electricitate.

Rezumat

Acum cunoașteți sursele și tipurile erorilor de date spațiale și non-spațiale. Datele de slabă calitate pot influența negativ atât operațiunile de afaceri, cât și viața de zi cu zi a multor oameni. Prin urmare, merită să vă asigurați de calitatea datelor înainte de a le folosi în analize și proiecte. Acest lucru asigură fiabilitatea muncii dvs. și a analizelor utilizate pentru luarea deciziilor strategice cruciale.

Rămâneți la curent pentru următorul articol pentru a afla cum să eliminați erorile de date. Urmariți-ne pe LinkedIn ca să nu îl ratați!

Doriți să aflați mai multe despre rezolvarea problemelor legate de date? Contactaţi-ne!