Database
 sql >> база данни >  >> RDS >> Database

5 често срещани грешки, които трябва да избягвате, когато премахвате дублирането на вашите данни

Данните са сила и с тази сила идва голяма отговорност. Една от най-големите пречки пред данните е идентифицирането на дубликати и премахването на дупли.

Целта на дедупликацията на данни е да премахне излишните данни във вашия бизнес. Създават се дубликати във всички области на вашия бизнес, като например представителят по продажбите, който въвежда нов запис, без първо да проверява базата данни, маркетолог качва списък с потенциални купувачи, без да проверява дали записът съществува, и клиент, който въвежда информацията си отново, тъй като е забравил, че вече имате акаунт при вас.

Дедупликацията на данни гарантира правилно управление на данните на такива записи, намалено съхранение на данни, по-ефективни маркетингови комуникации и по-добър прогнозен анализ. Дублиращите се записи всъщност могат да окажат огромно влияние върху записите за машинно обучение и наука за данни, като теоретично дават на клиентите два пъти по-голяма прогнозна сила и следователно създават отклонение в резултатите.

Въпреки това, с всяка страхотна идея идват рискове и в рамките на стратегия за премахване на дублирането, при която данните се изтриват през повечето време, може да има присъщи грешки.

Обработка на линия или последваща обработка

Вградените процеси на дедупликация премахват дублирането на данните, докато се обработват. Това означава, че намалява незабавно количеството данни, което е страхотно, но често има проблеми с производителността с количеството ресурс, необходим за изпълнение, като например стратегия. Това обаче означава, че имате нужда от много по-малко необработено дисково пространство, тъй като данните никога не се изпращат на първо място, тъй като дедупликацията се извършва на предния край.

Важно е да се уверите, че имате процесорна мощност за вградена дедупликация и това не оказва влияние върху производителността. Другата грешка е да се приеме, че има нулеви случаи за дублиране. Има законни нужди от дубликати във вашата система. Причините могат да бъдат причините за фактуриране, обслужване на клиенти, продажби и маркетинг, следователно е добра идея да се консултирате с всички отдели, които докосват данните, преди да приложите обработката на линия.

Алгоритми

Дедупликацията е толкова добра, колкото алгоритмите, с които се захранва, т.е. как се откриват дублирани записи на първо място? Да предположим, че имаме 100 копия на файл в нашите системи, защото всеки служител имаше своя собствена версия. Вместо да съхранявате множество копия, добрата практика ви казва да съхранявате само едно и всички служители да посочат това. Ами ако някой от служителите направи промяна в собствения си файл, което означава, че е малко по-различен от другите? Рискувате да загубите данни. Важно е да се уверите, че всички правила, които задавате, имат смисъл и да не започвате да премахвате уникални набори от данни по погрешка.

Има няколко често срещани алгоритма, използвани за премахване на дублирането на данни, като SHA-1 или MD5 и структури за двоично дърво за търсене, които си струва да прегледате, за да намерите най-подходящото за вас.

Докато де-дупирането на набори от данни в примера по-горе може лесно да бъде разгледано от учените по данни. По отношение на продажбите и маркетинговите записи е малко по-трудно. Имайте предвид, че различните фирми определят дубликатите по различен начин, това вече не е задача за учените по данни, а по-скоро за ръководителите на различни отдели. Следователно, първата стъпка е да се идентифицира какво прави дубликат. Например, вземете гигант в търговията на дребно като Walmart. За дистрибуторска компания всяко местоположение на Walmart ще се счита за уникален запис, но за софтуерна компания, която продава в Walmart, те ще считат всички местоположения за дублирани, тъй като искат да продават само в главния офис. Същото може да се каже и за продажбата в P&G, където някои бизнеси продават поотделно за всяка марка. Поради това те искат да ги запазят отделно и да приложат свързването родител/дете, вместо да премахват измамите, за да идентифицират различните марки. Ето защо, преди да дедупирате, уверете се, че имате дефинирани всички правила, преди да разберете алгоритъма, който да използвате за премахване на дублиране на данните.

Шифроване

При защитата на данните често се случва екипите по сигурността да разполагат с криптирани данни, когато влизат в бизнеса, което означава, че е невъзможно да се дедуптира, тъй като всичко е уникално в този контекст. Ако използвате продукти за репликация и криптиране в съответствие със софтуера за дедупликация, има много голям шанс файловете да бъдат репликирани, тъй като той просто не може да ги избере като уникални блокове за съхранение.

Продуктите за защита на данните понякога са наясно с премахването на дублирането, но е жизненоважно да прецените как всичко се интегрира заедно.

Ръчно премахване на дублиране

Повечето фирми ще се опитат ръчно да дедупират своята база данни, като заемат огромно количество ресурс и време с голям риск от човешка грешка. Освен това, с огромни набори от данни, е практически невъзможно ръчните процеси да уловят всичко.

Например, какво ще стане, ако Джон Смит купи чифт обувки на вашия уебсайт днес. Той се връща утре, но се регистрира като J Smith, тъй като е забравил данните си за вход. Следващата седмица той се регистрира отново, но с различен имейл адрес. Тук споменах само три полета с данни, но вече започва да се усложнява, така че представете си, ако имате 200 полета с данни за клиенти, как да гарантирате, че те са уникални?

Важно е или сами да изградите пълни алгоритми, ако извършвате ръчен процес, или придобиете инструменти за почистване на данни, за да го направите вместо вас, спестявайки цялото това време и усилия.

Резервни копия

Дедупликацията може да се обърка! Преди да премахнете дубликатите, важно е всичко да е архивирано и да можете бързо да разрешите всички проблеми. Връщайки се към предишния ни пример, какво ще стане, ако открием, че Джон Смит и Джей Смит всъщност са различни хора и трябва да си върнат акаунта? Нуждаете се от процес, който може да направи точно това, което сега е законово изискване в ЕС (GDPR).

Стратегията за дедуплициране на данни е важна, тъй като предприятията увеличават своя дигитален отпечатък. При толкова много канали за комуникация само един дублиран запис има капацитета да създаде пристрастия и потенциално да доведе до грешни решения. Въпреки това трябва да се направи правилно, за да се избегнат последствията от премахване на грешни записи или неправилно захранване на алгоритми и намаляване на бизнес скоростта. Уверете се, че премахването на дублирането на данни е напълно оформено в рамките на вашата стратегия за управление на данните.


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Възстановете копие на вашата база данни

  2. SQL Union – Изчерпателно ръководство за оператора UNION

  3. SQL не е равен на () оператор за начинаещи

  4. Свързване на SAS JMP към Salesforce.com

  5. Ролята на DBA в NoSQL