Database
 sql >> база данни >  >> RDS >> Database

Разбиране на анализа на големи данни

Големи данни е полезен само когато можем да направим нещо с него; в противен случай това е просто купчина боклук. Въпреки това, усилията, необходими за копаене, понякога са като опит за намиране на игла в купа сено. Един смислен модел се появява само с много анализи. Анализът започва да работи, опитва се да анализира данните с всяка налична машина, включително мозъците. Тези машини не са нищо друго освен инструменти, придружени от изчислителна мощност за изследване на данните. Тази статия се опитва да даде кратък преглед на техниките, използвани с анализ на големи данни.

Общ преглед

Преди анализа данните се събират от различни източници. Трябва да го подредите по начин, така че анализаторът да може да върши работата си и да предоставя някои осезаеми продукти от данни, полезни за бизнес процеса на организацията. Събраните данни могат да бъдат в различни състояния, като неструктурирани необработени данни, полуструктурирани данни, структурирани данни и т.н. Това са суровините за анализ на големи данни. След това сложният процес на изследване започва да разкрива скрити модели, корелации и прозрения. Анализаторите се възползват от всички налични инструменти и технологии в процеса на анализ и се опитват да извлекат някаква стойност от него. Следователно, какви анализ на данни означава процес на изследване на голям набор от данни (с една или повече характеристики, които ги наричат ​​големи данни) и разкриване на някаква значима информация.

Основни анализи

Първоначално анализаторът трябва да се увери, че данните имат някаква стойност, преди да използва стриктни усилия и ресурси за анализиране на данните. Понякога простата визуализация и статистика са това, от което се нуждаете, за да получите някои резултати. Основните техники са както следва:

  • Основно наблюдение: Мониторингът на голям обем данни в реално време също е един от начините да получите известна представа. Например, просто чрез наблюдение на метеорологичните данни, събирани през годините, можем да придобием доста представа за видовете климатични условия на даден географски регион. Освен това информацията в реално време за вятъра, влажността, налягането, температурата и така нататък може да хвърли светлина върху вида на предстоящата буря. Ако свържем всяка точка, може да има редица параметри с огромна информация. Днес, ако можем да докоснем тенденцията на всички туитове в социалните медии, можем лесно да добием представа за масите и какво мислят те. Политическият анализатор често прави това и това, което правят, е просто да наблюдават данните за поточно предаване.
  • Нарязване и нарязване на кубчета: Тази обща техника се отнася до сегментиране на голям блок данни в по-малки набори от данни, така че да стане лесен за разглеждане и разбиране. Сегментирането се извършва многократно, докато се получи по-управляем размер. Конкретни заявки се задействат, за да се получи някаква представа или да се направят някои изчисления, да се създаде графично представяне или да се приложи статистическа формула към по-малките набори от данни. Това помага да се установи определена перспектива за анализатора, който седи в морето от данни. Човек може да има запитвания само когато гледната точка е определена. Следователно техниката помага при изграждането на пространство за заявки при работа с голям обем данни.
  • Откриване на аномалии: Аномалия , тук, се отнася до внезапната промяна на събитията, която се случва в среда, която може да предизвика различни ефекти. Например, внезапният спад в Сенсекса може да има много причини, като резки социално-политически промени, война или природни бедствия или много други неща. Но ако можем да открием аномалията, това дава ценна представа за разбиране и анализ на ситуацията. Прост набор от статистически данни или наблюдение също може да помогне за решаването на проблема.

Разширен анализ

Както трябва да е очевидно, анализът не винаги е ясен или прост. Всъщност в много случаи това зависи от сложността на данните и видът на информацията, която искаме да извлечем, определя вида на анализа, който искаме да включим в процеса. Разширената аналитика използва алгоритми за сложен анализ на различни формати на данни, като използване на машинно обучение, невронни мрежи, сложни статистически модели, текстов анализ и усъвършенствани техники за извличане на данни, за да се извлече някакъв смислен модел от обема данни.

  • Текстови анализи: Анализът на текста е процесът, при който смислена информация се извлича от колекция от неструктурирани данни. Работата с неструктурирани данни е огромна част от анализа на големите данни; следователно се използват специфични техники за анализиране и извличане на информация и накрая да я трансформират в структурирана информация. След това структурираната информация се използва за удобен по-нататъшен анализ. Техниките, използвани с текстовия анализ, са извлечени от компютърната лингвистика, статистиката и други дисциплини по компютърни науки.
  • Прогнозно моделиране: Прогнозното моделиране използва решения за извличане на данни и вероятност за прогнозиране на резултатите. Техниката се прилага както към структурирани, така и към неструктурирани данни за прогнозиране на резултата. Например, една система за прогнозиране може да предвиди броя на потребителите на даден продукт, преминаващи към друг продукт въз основа на някои налични поведенчески атрибути или да предскаже промяна в мисленето на хората, като наблюдава тенденцията за туитване в социалните медии, която може да има решаващо социално-политическо резултат в политическа кампания.
  • Използване на статистически алгоритми за извличане на данни: Има много други усъвършенствани техники за прогнозиране, използващи статистически данни и решения за извличане на данни. Има техники като клъстерен анализ, микросегментиране, анализ на афинитета и други подобни.

Заключение

Тази статия, разбира се, само задрасква повърхността на темата, но може би дава представа за това, което е да се нарече анализ на големи данни. Тенденцията за използване на големи данни от организациите бързо набира скорост както по добри, така и по лоши причини. Резултатът несъмнено е отворен за употреба и злоупотреба и ние не можем да го спрем. Създават се нови инструменти и технологии, които да подпомогнат процеса на анализ на големи данни. Може би осъзнаването е единствената почивка.


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Как се стартират паралелни планове – част 2

  2. 5 често срещани грешки, които трябва да избягвате, когато премахвате дублирането на вашите данни

  3. SQL UNION Клауза за начинаещи

  4. Свързване на Snowflake DB &IRI Workbench

  5. Кога да преминете към по-голям RDS екземпляр