Database
 sql >> база данни >  >> RDS >> Database

Анатомия на ролята в разработката на софтуер:специалист по данни

Преди 12 години, когато написах първите статии за „Разбиване на кода:Разбиване на ролите за разработка на софтуер“, взех съзнателно и може би противоречиво решение да не включвам администратора на база данни или архитект на база данни като част от ролите. Решението беше взето, защото имаше малко организации, които се занимаваха с мащаба на данните, които изискваха тази специална роля в процеса на разработка на софтуер. Архитектът на решението може да се погрижи за необходимостта на организацията да проектира структурата на данните като част от цялостната им роля. Оттогава обаче светът на данните стана по-голям.

Големи данни

Днес сме изправени пред по-голям обем, по-голяма скорост и динамично разнообразие на източниците на данни, които обработваме. Не говорим за типичните релационни бази данни, които са популярни от десетилетия. Разширяването на данните изисква набор от техники и умения, които са за разлика от историческите подходи към данните, които сме използвали.

Многонишковата обработка на данни е подобрение на подходите с единична нишка към обработката на данни, които популяризираха обработката на данни през 80-те години на миналия век; обаче дори тези подходи, които разчитат на един компютър с множество нишки на изпълнение, се разпадат, когато количеството обработка, необходима за извличане на смисъл, надвишава капацитета на една машина.

Възходът на базираните на услуги изчисления

През 1999 г. потребителите у дома можеха да дарят своите резервни изчислителни цикли на своите компютри за каузата за намиране на извънземен разум чрез проекта [email protected], изпълняван през UC Berkeley. Това не беше първото използване на широко разпространени изчисления или изчисления в мрежа, но това е проектът, който завладя въображението на интернет потребителите навсякъде. Изведнъж те имаха възможността да бъдат тези, които откриха „ET“. При строителството проектът разпределя огромни количества данни за обработка на много компютри, които извършваха изчисления на данните, за да видят дали има интересни битове, които вероятно не са просто фонов шум. [email protected] беше само един от разпределените изчислителни проекти, които доведоха до осведомеността за проблемите, при които един компютър няма да е достатъчен.

IBM, Microsoft и други сега предлагат компютърни услуги и услуги за машинно обучение, за да помогнат на организациите да се справят с данните, които улавят, и да ги осмислят, така че да не се налага да мобилизират армия от ангажирани доброволци. Платформите имат за цел да осигурят изчислителната мощност и машинното обучение, необходими за извличане на информацията, скрита в обемите данни. Вместо организациите, които трябва да изграждат и внедряват свои собствени центрове за данни със специални изчислителни ресурси, ресурсите за преобразуване на данните в информация и значение се предлагат под наем.

Не става въпрос за данните, а за прозренията

Въпреки че количеството данни, което улавяме, е зашеметяващо, не данните са интересни. Интересното е какво могат да ви кажат данните – ако сте в състояние да ги анализирате. Индивидуалните показания за производителността на двигателя не са важни, но способността да се предвиди кога двигателят се нуждае от поддръжка или има вероятност да се повреди -това е важно.

Учените по данни не са фокусирани върху съхранението на данни, както бяха архитектите на данни и администраторите на бази данни. Вместо това те са фокусирани върху преобразуването на данни в информация и в крайна сметка в прозрения, които бизнесът може да използва за вземане на по-добри решения. Това означава търсене на нови подходи за анализиране на данните по начини, които разкриват интересни прозрения, които бизнесът може да използва в своя полза.

Стоене на набори и статистика

Традиционният процес на разработка на софтуер е запознат с процедурния подход за решаване на проблеми. Разработчиците, лидерите и архитектите са добре обучени в методите и ползите от процедурното изграждане. Процедурните подходи са като автоматизацията на невероятно послушен, но не оригинален работник. На компютъра се казват стъпките (процедурата) за изпълнение в какъв ред и при какви условия трябва да повтори операцията или да раздели между множество пътища. Въпреки това учените по данни работят не само с процедурни подходи, но и с логика, базирана на множество. Стилът на мислене е различен, защото търси пропуски и пресечни точки. Той функционира въз основа на отношения на равенство и неравенство между различни набори от информация.

Въпреки че някои разработчици са се сблъсквали с логика, базирана на набори в работата си, учените по данни трябва да се чувстват комфортно и свободно в способността си да манипулират набори от информация.

Освен това, за разлика от други роли в жизнения цикъл на разработката на софтуер, ученият по данни се нуждае от специализирано умение извън сферата на разработката на софтуер. Тъй като учените по данни търсят прозрения за връзките между различни битове данни, те се нуждаят от солидна основа в статистиката, за да могат да търсят и генерират статистически стойности като корелация, за да отговорят на въпросите, които поставят, и да открият неточни връзки между различни набори от данни.

Къде е заглавието на позицията?

Ръстът на данните достигна повратната точка. Независимо дали става дума за анализ на социални мрежи, история на кликвания или данни за покупки, организациите виждат реална бизнес стойност в данните, които са заключени в техните бази данни, а учените по данни са ключът към отключването на потенциала на тези данни.

Улавянето на тази стойност означава наемане на хора, които имат уменията да свързват алгоритмите за обработка с данните и да впрегнат изчислителната мощност за създаване на тези резултати.

Добрият, лошият и грозният

Науката за данни избухва в момента с появата на устройства за Интернет на нещата, записващи всякакви данни от всякакви места. Това означава страхотна възможност и повече от няколко предизвикателства. Ето само някои от тези предизвикателства:

  • Добре: Има страхотна възможност за намиране на нови начини за извличане на прозрения от данни.
  • Добре: Компютърни ресурси и ресурси за съхранение могат да бъдат закупени в големи количества.
  • Добре: Учените за данни са много търсени и вероятно ще останат такива за известно време.
  • Лошо: Тъй като алгоритмите и подходите се развиват, винаги ще се чувствате остарели.
  • Лошо: Всички данни се нуждаят от почистване и значителна част от времето ще бъде изразходвана за тази работа.
  • Грозно: Пробите и грешките ще означават много „провали“ и малко триумфи.

В заключение

Ролята на Data Scientist има бързо нарастваща нужда и различен набор от умения. Ако харесвате класа си по статистика и обичате да намирате модели, които другите хора не могат да видят, това може да е точно за вас.


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Модел на библиотечни данни

  2. Измерване на „режим на наблюдателя“ на SQL Trace спрямо разширени събития

  3. SCD тип 4

  4. Как да сравним датата в SQL

  5. SQL присъединявания