Oracle
 sql >> база данни >  >> RDS >> Oracle

Oracle Data Mining (ODM) – Инсталиране и настройка

Общ преглед

Oracle Data Mining (ODM) е компонент на опцията за база данни на Oracle Advanced Analytics. ODM съдържа набор от усъвършенствани алгоритми за извличане на данни, които са вградени в базата данни, което ви позволява да извършвате разширени анализи на вашите данни.

Oracle Data Miner е разширение на Oracle SQL Developer, среда за графична разработка за Oracle SQL. Oracle Data Miner използва технологията за копаене на данни, вградена в Oracle Database, за да създава, изпълнява и управлява работни потоци, които капсулират операции за копаене на данни. Архитектурата на ODM е илюстрирана на фигура 1.

Фигура 1:Архитектура на Oracle Data Mining за големи данни

Алгоритмите се изпълняват като SQL функции и използват силните страни на базата данни на Oracle. SQL функциите за извличане на данни могат да копаят транзакционни данни, агрегати, неструктурирани данни, т.е. тип данни CLOB (с помощта на Oracle Text) и пространствени данни.

Всяка функция за извличане на данни определя клас проблеми, които могат да бъдат моделирани и решени. Функциите за извличане на данни обикновено попадат в две категории:контролирани и неконтролирани.

Понятията за контролирано и неконтролирано учене произлизат от науката за машинното обучение, която е наречена подобласт на изкуствения интелект.

Контролираното обучение е известно още като насочено обучение. Процесът на обучение се ръководи от предварително известен зависим атрибут или цел. Насоченото извличане на данни се опитва да обясни поведението на целта като функция на набор от независими атрибути или предиктори.

Ученето без надзор е ненасочено. Няма разлика между зависими и независими атрибути. Няма известен по-рано резултат, който да ръководи алгоритъма при изграждането на модела. Ученето без надзор може да се използва за описателни цели.

Надзиравани алгоритми за извличане на данни на Oracle

Техника Приложимост Алгоритми (Кратко описание)
Класификация
Най-често използваната техника за прогнозиране на специфичен резултат, например идентификация на ракови туморни клетки, анализ на настроенията, класификация на лекарства, откриване на спам. Логистична регресия на генерализирани линейни модели – класическа статистическа техника, достъпна в базата данни на Oracle във високопроизводителна, мащабируема, парализирана реализация (прилага се за всички алгоритми на OAA ML). Поддържа текстови и транзакционни данни (прилага се за почти всички алгоритми на OAA ML)

Наивни Bayes – Бърз, прост, общоприложим.

Поддържа векторна машина – Алгоритъм за машинно обучение, поддържа текст и широки данни.

Дърво на решенията – Популярен ML алгоритъм за интерпретируемост. Предоставя четими от човека „правила“.
Регресия
Техника за прогнозиране на непрекъснат числен резултат, като анализ на астрономически данни, Генериране на информация за поведението на потребителите, рентабилността и други бизнес фактори, Изчисляване на причинно-следствени връзки между параметрите в биологичните системи. Множествена регресия на обобщени линейни модели – класическа статистическа техника, но вече достъпна в базата данни на Oracle като високопроизводителна, мащабируема, парализирана реализация. Поддържа регресия на хребет, създаване на характеристики и избор на функции. Поддържа текстови и транзакционни данни.

Поддържа векторна машина – алгоритъм за машинно обучение, поддържа текст и широки данни.
Важност на атрибута
Рангира атрибутите според силата на връзката с целевия атрибут. Случаите на употреба включват намиране на фактори, които са най-свързани с клиентите, които отговарят на оферта, фактори, най-свързани със здрави пациенти. Минимална дължина на описанието – разглежда всеки атрибут като прост модел за прогнозиране на целевия клас и осигурява относително влияние.

Неконтролирани алгоритми за извличане на данни на Oracle

Техника Приложимост Алгоритми
Групиране
Клъстерирането се използва за разделяне на записите на база данни на подмножества или клъстери, където елементите в клъстер споделят набор от общи свойства. Примерите включват намиране на нови клиентски сегменти и препоръки за филми. K-Means – Поддържа извличане на текст, йерархично групиране, базирано на разстояние.

Клъстериране с ортогонално разделяне – йерархично клъстериране, базирано на плътност.

Максимизиране на очакванията – Техника за клъстериране, която се представя добре при проблеми с извличането на данни (плътни и разредени).
Откриване на аномалии
Откриването на аномалии идентифицира точки от данни, събития и/или наблюдения, които се отклоняват от нормалното поведение на набор от данни. Често срещаните примери включват банкови измами, структурен дефект, медицински проблеми или грешки в текст Машина за вектор за поддръжка от един клас – обучава немаркирани данни и се опитва да определи дали дадена тестова точка принадлежи към разпределението на обучителни данни.
Избор и извличане на функции
Произвежда нови атрибути като линейна комбинация от съществуващи атрибути. Приложимо за текстови данни, латентен семантичен анализ (LSA), компресиране на данни, разлагане и проекция на данни и разпознаване на модели. Неотрицателна матрична факторизация – Картира оригиналните данни в новия набор от атрибути

Анализ на главните компоненти (PCA) – създава нови по-малко съставни атрибути, които представляват всички атрибути.

Разлагане на единичен вектор – установен метод за извличане на характеристики, който има широк спектър от приложения.
Асоциация
Намира правила, свързани с често срещани артикули, използвани за анализ на пазарната кошница, кръстосани продажби, анализ на първопричината. Полезно за пакетиране на продукти и анализ на дефекти. Apriori – Хешира дърво за събиране на информация в база данни

Активиране на опцията Oracle Data Mining

От 12c издание 2 Oracle Advanced Analytics Опцията включва Data Mining и Oracle R функционалност.

Опцията Oracle Advanced Analytics е активирана по подразбиране по време на инсталирането на Oracle Database Enterprise Edition. Ако искате да активирате или деактивирате опция за база данни, можете да използвате помощната програма на командния ред chopt .

chopt [ enable | disable ] oaa

За да активирате опцията Oracle Advanced Analytics:

Създаване на таблично пространство в ODM схема

Всички потребители се нуждаят от постоянно пространство за таблици и временно пространство за таблици, в които да вършат работата си, може да бъде много полезно да имате отделна област във вашата база данни, където можете да създавате всичките си обекти за извличане на данни.

usr_dm_01 схема  ще съдържа всички ваши изработки за извличане на данни.

Създаване на ODM хранилище

Трябва да създадете хранилище на Oracle Data Mining в базата данни. Отидете на Data Miner Navigator в SQL Developer.

Изберете Изглед -> Data Miner -> Data Miner Connections:

Отваря се нов раздел до съществуващия ви раздел Връзки:

За да добавите usr_dm_01 схема към този списък, щракнете върху зелените прозорци с плюс и OK

Ако хранилището не съществува, се появява съобщение, което пита дали искате да инсталирате хранилището. Щракнете върху Да бутон, за да продължите с инсталирането.

Трябва да въведете SYS паролата

Настройки за инсталиране на хранилище

Прозорец за напредъка на инсталирането на Data Miner Repository

Задачата е завършена успешно

Регистрационен файл

Компоненти за извличане на данни на Oracle

Работният поток ви позволява да изградите серия от възли, които извършват цялата необходима обработка на вашите данни.

Пример за работен процес, разработен за предсказуем анализ

Изгледи на речник на ODM данни

Можете да получите информация за моделите за копаене от речника на данните.

Изгледите на речника на данни за извличане на данни са обобщени, както следва:

Забележка:* може да бъде заменен от ALL_, USER_, DBA_ и CDB_

*_MINING_MODELS :Информация за създадените модели за копаене.

*_MINING_MODEL_ATTRIBUTES :Съдържа подробностите за атрибутите, които са били използвани за създаване на модела за извличане на данни на Oracle.

*_MINING_MODEL_SETTINGS :Връща информация за настройките за моделите за копаене, до които имате достъп.

Препратки

Ръководство за потребителя на Oracle Data Mining. Наличен на:https://docs.oracle.com/en/database/oracle/oracle-database/19/dmprg/lot.html

Oracle Data Mining – мащабируеми прогнозни анализи в базата данни. Наличен на:https://www.oracle.com/database/technologies/advanced-analytics/odm.html

Преглед на системата Oracle Data Miner. Наличен на:https://docs.oracle.com/database/sql-developer-17.4/DMRIG/oracle-data-miner-overview.htm#DMRIG124


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. не може да получи параметър от процедурата на oracle, изпълнявана от mybatis

  2. Топ 5 отнемащи време SQL заявки в Oracle

  3. NLS_LANG настройка за JDBC тънък драйвер?

  4. verify_queryable_inventory върнат ORA-20008:Времето за изчакване изтече

  5. Това е в подробностите