Базите данни за машинно обучение вече навършват пълнолетие. Това предоставя огромни възможности за специалисти по бази данни, които могат да се развиват, за да се възползват от тази промяна.
В момента професионалистите по бази данни, например администратори на бази данни (DBA) и разработчици на бази данни, са едни от най-важните позиции във всяка ИТ организация. Специалист по база данни отговаря за създаването, управлението и предоставянето на контролиран достъп до база данни. Наличието на точния човек като DBA може да помогне на компаниите да спестят време и да съкратят времето за разработка на приложения. Въпреки това, с нарастващия достъп до огромно количество данни, отговорностите на специалист по база данни се развиват бързо.
Разработени са няколко технологии, които могат да се използват не само за управление и изследване на данни, но могат да помогнат за вземането на добре информирани решения въз основа на данните. Машинното обучение е една такава технология, която отбеляза голям скок през последното десетилетие. Тази статия предоставя кратък преглед на това как машинното обучение може да повлияе на професиите в базата данни и какви са предимствата на машинното обучение като набор от умения.
Какво е машинно обучение?
Машинното обучение е процес на разбиране и извличане на полезни модели от данни с помощта на различни статистически алгоритми. Машинното обучение се разделя допълнително на техники за контролирано и неконтролирано обучение. Понастоящем машинното обучение се използва за решаване на много сложни проблеми като класифициране на шунка и спам имейли, прогнозиране на цените на жилищата, генериране на поезия, класификация на изображения и така нататък.
Ще замени ли машинното обучение професиите в базата данни?
Едно от най-често срещаните погрешни схващания за машинното обучение е, че то ще замени хората на много работни места. Въпреки че това може да е вярно за някои повтарящи се задачи, AI и машинното обучение основно ще допълнят човешкия мозък, а не го заменят. За професионалистите по бази данни базите данни за машинно обучение няма да ги заменят, по-скоро ще им помогнат изключително.
Това ще позволи на специалистите по бази данни да се съсредоточат много повече върху планирането и стратегическите задачи, тъй като ще автоматизира по-скучни и автономни задачи като инсталиране, конфигуриране и редовни актуализации на базата данни. Следователно, вместо да се страхуват от въздействието на машинното обучение върху работата си, специалистите по бази данни трябва да го възприемат като начин да изпълняват по-малко предизвикателни задачи много по-бързо и ефективно. .
Обработката с големи данни е предизвикателство
Поради възхода на световната мрежа през последните две десетилетия, данните са достъпни във всякакви форми и размери. Всъщност терминът големи данни често се използва за набор от данни, който е огромен по обем, идва с висока скорост и съдържа разнообразно съдържание.
Работата с огромни количества такива неструктурирани данни се превърна в предизвикателство за DBA. Установено е, че алгоритмите, работещи върху бази данни за машинно обучение, работят добре и с неструктурирани данни. Огромно количество данни могат лесно да бъдат разбити на смислена информация чрез техники за машинно обучение, които подчертават необходимостта професионалистите по база данни да придобият умения за машинно обучение.
Тук са бази данни за машинно обучение
Компании като Microsoft и Oracle вече са започнали да включват различни възможности за машинно обучение в бази данни. Например Microsoft Azure SQL Database има модул, който предлага и препоръчва различни стратегии за подобряване на производителността, които могат да се прилагат автоматично. По подобен начин SQL Server Query Store предоставя план за идентифициране на заявки, причиняващи затруднения в производителността. Базата данни на Oracle 18c съдържа възможности за самовъзстановяване и може да прилага самостоятелно корекции и надстройки, когато възникне проблем с базата данни. Доброто познаване на машинното обучение всъщност помага на разработчиците на бази данни да разберат обосновката зад различните препоръки, направени от инструментите за база данни за машинно обучение.
Появата на напълно автономни бази данни
Текущите бази данни за машинно обучение имат ограничени възможности. Фокусът на текущите изследвания е да се разработят напълно автоматизирани бази данни. Не би ли било хубаво да имате база данни, която може да предвиди проблемите, които ще възникнат и е достатъчно проактивна, за да предприеме превантивни мерки предварително? Или няма да направи живота на професионалист по база данни много по-лесен, ако базата данни се архивира автоматично, когато възникне важна транзакция? Има много сценарии, при които базите данни за машинно обучение са изключително полезни.
Например, съществуващите бази данни извършват автоматично архивиране в определено време, но не всички транзакции на база данни си заслужават да бъдат подкрепени. В този вид сценарии базите данни за машинно обучение могат да станат достатъчно умни, за да знаят кога да архивират и кога не.
Освен това много проблеми с базата данни могат да бъдат предвидени предварително. Например, в сценариите, при които множество потребители имат достъп до различни ресурси на базата данни, вероятността от застой се увеличава многократно. Ако това се случи, база данни за машинно обучение може да премине към предоставяне на контролиран достъп до ресурси и да избегне блокиране.
Има няколко академични изследователски групи, които са се опитали да разработят напълно автономни бази данни.
Carnegie Mellon Database Research Group разработи проект OtterTune който използва техники за машинно обучение и данни за работното натоварване от огромен брой стари бази данни, за да създаде модели, способни автоматично да настройват нови работни натоварвания. Базата данни за машинно обучение OtterTune също така автоматично препоръчва оптималните настройки за подобрена пропускателна способност и намалена латентност за нови приложения за бази данни.
MIT също така разработи рамка за управление на база данни с отворен код, наречена DBSee ра който прогнозира производителността за даден набор от ресурси на базата данни и също така идентифицира тесните места в производителността.
Крива на обучение
Машинното обучение често се определя като пресечната точка на компютърните науки и статистиката. Всеки с познания по компютърни науки може сравнително бързо да изгради своите умения за машинно обучение до средно ниво, ако развие разумно разбиране на статистиката.
Много GUI инструменти и облачни платформи като Google AI, IBM Watson, Amazon Sagemaker, Azure ML са опростили процеса на внедряване на техники за машинно обучение, като предоставят базирани на GUI интерфейси за плъзгане и пускане за бази данни за машинно обучение. Потребителите трябва само да знаят как да използват инструмента, тъй като по-голямата част от работата (добавяне на набори от данни, избор на техники за предварителна обработка, обучение на модела и накрая оценка на модела) може да се извърши с няколко щраквания на мишката.
Ако професионалистът по база данни наистина иска да изгради кариера в усъвършенствано машинно обучение, той ще трябва да изгради задълбочено разбиране на статистиката. Компютърните знания на професионалист в базата данни ще бъдат повече от достатъчно добри, за да схване бързо свързаните с CS концепции за машинно обучение.
Въпреки това, както казахме по-горе, ако специалист по база данни се интересува само от използването на машинно обучение за автоматизиране на повтарящи се задачи, познаването на GUI базираните инструменти за машинно обучение ще бъде повече от достатъчно.
Множество кариерни пътеки
Успехът на машинното обучение и изкуствения интелект накара организациите да разработят специализирани екипи за наука за данни, съдържащи квалифицирани експерти по машинно обучение.
Понастоящем експертите по машинно обучение и специалистите по бази данни имат различни кариерни пътеки, но все повече и повече организации очакват експертите по машинно обучение или наука за данни да имат известно ниво на опит в базата данни и обратно.
Като се има предвид, че в момента това се променя, професионалистите по бази данни с познания за умения за машинно обучение са предпочитани и имат по-добри шансове да бъдат наети или като професионалист по база данни, или експерт по машинно обучение, или някой с двете длъжностни отговорности.
Окончателна присъда
Появата на големите данни и свързаните с тях техники за машинно обучение вероятно ще донесе съществени промени в длъжностните отговорности на професионалистите по бази данни, тъй като фокусът им за извънреден труд ще се измести върху данните от базата данни, тъй като базите данни за машинно обучение все повече се управляват сами.
Машинното обучение ще помогне на специалистите по бази данни да автоматизират много ръчни и трудоемки задачи и ще ги освободят да инвестират време и усилия, за да възприемат уменията за машинно обучение и да ги използват.
Изучаването на статистическите данни, необходими за развитие от професионалист по база данни в по-широка база данни и машинно обучение, не е просто, но ще изплати големи дивиденти по отношение на кариерния растеж и възможности.