Големи данни
Големи данни описва големия обем данни, структурирани или неструктурирани, които заливат бизнеса ежедневно. Големите данни третират начини за анализиране, извличане на информация от или работа с набори от данни, които са твърде големи или сложни, за да се обработват от нормален софтуер за обработка на данни.
Големите данни имат следните характеристики:
- Обем: Количеството генерирани и съхранени данни
- Разнообразие: Видът и естеството на данните
- Скорост: Скоростта, с която се генерират и обработват данните
- Истинност: Качество на данните и стойността на данните
Влиянието на Azure върху големите данни
Microsoft Azure трансформира данните в полезна информация, като използва инструменти за машинно обучение. Позволява ви да комбинирате всякакви данни в произволен мащаб и да създавате и внедрявате модели за машинно обучение в мащаб.
Със следните продукти на Azure може да се извършва разширен анализ върху големи данни:
- SQL Data Warehouse
- Фабрика за данни
- Azure BLOB Storage
- Azure Databricks
- Azure Cosmos DB
- Power BI
Нека разгледаме всеки от тях поотделно.
SQL Data Warehouse
SQL Data Warehouse е базиран в облак EDW (Enterprise Data Warehouse), който използва масивна паралелна обработка (голям брой процесори, които извършват набор от изчисления в паралел) за изпълнение на сложни заявки в петабайтове данни.
Вие просто импортирате големи данни в SQL Data Warehouse с PolyBase T-SQL заявки (заявки, които четат данни от Hadoop), след което, със силата на MPP, изпълнявате високопроизводителни анализи. Тогава складът на данни ще се превърне в единствената версия на истината, на която можете да разчитате за прозрения.
Фабрика за данни
Data Factory е услуга за интегриране на данни в облак, която съставя услуги за съхранение, движение и обработка на данни в автоматизирани тръбопроводи за данни. Azure Data Factory е услуга за хибридна интеграция на данни, която ви позволява да създавате, планирате и организирате работни потоци ETL/ELT (Извличане, трансформиране, зареждане).
Azure BLOB Storage
Azure BLOB съхранение е масивно мащабируемо хранилище на обекти за неструктурирани документи, изображения, видеоклипове и аудио. Azure BLOB съхранението е оптимизирано за съхраняване на огромни количества неструктурирани данни (данни, които не се придържат към конкретен модел на данни или дефиниция), като например текстови или двоични данни.
Azure BLOB съхранение има следните функции:
- Обслужване на документи или изображения директно в браузър
- Съхранение на файлове за разпределен достъп
- Поточно аудио и видео
- Запис в регистрационни файлове
- Съхранение на данни за възстановяване след бедствие, архивиране и възстановяване и архивиране
Azure Databricks
Azure Databricks е лесна, бърза и съвместна платформа за анализ, базирана на Apache Spark (разпределена клъстерна изчислителна рамка с отворен код с общо предназначение, която предоставя интерфейс за програмиране на клъстери с имплицитен паралелизъм на данните).
Azure Cosmos DB
Azure Cosmos DB е глобално разпределена услуга за бази данни. Той е проектиран да осигури ниска латентност, еластична мащабируемост на пропускателната способност, добре дефинирана семантика за последователност на данните и висока наличност.
Power BI
Power BI е набор от инструменти за бизнес анализ, които предоставят прозрения. Power BI ви позволява да се свързвате с множество източници на данни, да опростявате подготовката на данни, да управлявате ad hoc анализ, както и да изготвяте отчети, които да се използват в мрежата и на мобилни устройства.
Заключение
Големите данни се развиват и продължават да се развиват. С помощта на инструментите на Azure големите данни стават все по-управляеми.