Database
 sql >> база данни >  >> RDS >> Database

Обединяване на файлове с данни със Statistica, част 1

Платформата Statistica е класирана в петте най-добри платформи за наука за данни според новия доклад на Gartner за 2017 г. „Магически квадрант за платформи за наука за данни“ (https://www.gartner.com/doc/3606026/magic-quadrant-data-science- платформи), наречени преди това „Разширени платформи за анализ“ през 2016 г. Широката гама от функции и графичен потребителски интерфейс (GUI), предоставени от Statistica, го правят един от най-често използваните инструменти за наука за данни.

Файловете с данни Statistica се наричат ​​Електронни таблици , които имат редове и колони с данни. Редовете с данни се наричат ​​случаи и заглавките на колоните за данни се наричат ​​променливи . Често срещан проблем при подготовката на данни е, че различни членове на екипа разработват или събират набори от данни поотделно и наборите от данни трябва да бъдат обединени, преди да може да се използва електронната таблица. Данните могат да бъдат в множество файлове с данни. Ще обсъдим как данните в два различни файла с данни могат да бъдат обединени в един файл с данни със Statistica.

Statistica поддържа различни видове режими на сливане за два файла с данни, а това са:

  • Конкатенация: Когато два файла с данни са обединени, един файл с данни се взема и добавя (или се свързва) от дясната страна на другия файл с данни.
  • Картезиански: Създава кръстосано произведение от два файла с данни.
  • Съответствие на имената на случаите: Обединява случаите (редовете) на един файл с случаите на другите файлове, като съпоставя имената на случаите.
  • Променливи за съвпадение: Обединява редовете на един файл с данни с редовете на другия файл с данни, като съпоставя имената на променливите.

Ще започнем с обсъждане на сливането на конкатенацията. Този урок има следните раздели:

  • Настройка на средата
  • Конкатенация на файлове с данни
  • Заключение

Настройка на средата

Изтеглете и инсталирайте Statistica Platform. Файловете с данни Statistica се наричат ​​електронни таблици (съхранени с .sta наставка). В този урок ще създадем някои файлове с данни на Statistica. Създава се файл с данни с Файл>Нов . В Създаване на нов документ , изберете Електронна таблица , както е показано на фигура 1.


Фигура 1: Избиране на нова електронна таблица за създаване

За да запазите файл с данни, изберете Файл>Запазване като , както е показано на фигура 2.


Фигура 2: Файл>Запазване като

Конкатенация на файлове с данни

Първо, създайте двата файла с данни, които трябва да бъдат обединени. Файловете с данни, които ще бъдат обединени, обикновено имат същия брой редове и същия или различен брой колони. Тъй като данните трябва да бъдат конкатенирани, имената на колоните обикновено са различни. Нищо от това не е изискване; два файла с данни могат да имат различен брой редове и ние също ще обсъдим как да обединим такъв набор от файлове с данни. Целта е да се слеят данните в един файл с данни с другия, така че 2 файл с данни да се добави от дясната страна на 1 файл с данни. Като пример създайте файл с данни (наречен wlslog1.sta ) със заглавки на колони (променливи). ) марка за време , категория и тип и следните данни (примерни регистрационни данни).

4-8-2014-7:06:16,Забележете,WebLogicServer4-8-2014-7:06:17,Забележете,WebLogicServer4-8-2014-7:06:18,Забележете,WebLogicServer4-8-2014 -7:06:20,Забележете,WebLogicServer4-8-2014-7:06:21,Забележете,WebLogicServer4-8-2014-7:06:22,Забележете,WebLogicServer

wlslog1.sta файл с данни е показан в Statistica на фигура 3.


Фигура 3: Файл с данни wlslog1.sta

Създайте друг файл с данни (wlslog2.sta ) със заглавки на колони име на сървър , код и съобщ. и добавете следните данни (също примерни регистрационни данни).

AdminServer,BEA-000365,STANDBYAdminServer,BEA-000365,RESUMINGAdminServer,BEA-000365,ADMINAdminServer,BEA-000331,STARTINGAdminServer,BEA-000365,VERNEDBEA000> 

wlslog2.sta файл е показан на фигура 4. За да обедините двата файла с данни, wlslog1.sta и wlslog2.sta щракнете върху Данни раздел и изберете Обединяване , както е показано на фигура 4.


Фигура 4: Файл с данни wlslog2.sta

A Опции за сливане се показва диалогов прозорец, както е показано на фигура 5. Променливи разделът е избран по подразбиране. Изберете Режим като Конкатенация . Щракнете върху Файл 1 бутон, за да изберете 1 файл за обединяване.


Фигура 5: Опции за сливане

Изберете wlslog1.sta файл в Избор на електронна таблица диалогов прозорец (вижте фигура 6). Щракнете върху OK . wlslog1.sta файл се добавя към Файл 1 поле. По същия начин изберете 2 файла wlslog2.sta .


Фигура 6: Избиране на електронна таблица за обединяване

Не се изисква друга конфигурация. По подразбиране се генерира изходна електронна таблица и може да бъде конфигурирана с Опции раздел, както е показано на фигура 7. Запазете настройките по подразбиране за изходната електронна таблица.


Фигура 7: Раздел Опции

Двата файла, които ще бъдат обединени, се добавят към Файл 1 и Файл 2 полета, както е показано на фигура 8. Настройката по подразбиране за Несъответстващи случаи запълва файловете с данни с липсващите стойности, което предполага, че празни данни се съхраняват за секцията на обединен ред (случай ), който не съвпада от един файл с данни в друг. Щракнете върху OK .


Фигура 8: Файлове с данни за обединяване

Двата файла с данни се свързват, както е показано на фигура 9. Получената електронна таблица има 6 колони и 6 реда.


Фигура 9: Резултатна електронна таблица след обединяване

Ако една електронна таблица има повече редове от другата, двете електронни таблици ще се обединят по същия начин. Като пример добавете допълнителен ред в електронната таблица 1 (wlslog1.sta ), за да направите 7 реда, както е показано на фигура 10.


Фигура 10: Допълнителен ред в wlslog1.sta

Когато е свързана с електронната таблица 2 (wlslog2.sta ), получената електронна таблица има допълнителен ред с липсващи данни за колоните от електронната таблица 2 (вижте фигура 11).


Фигура 11: Обединена електронна таблица

Заключение

В този урок въведохме обединяване на файлове с данни (наричани още електронни таблици) в платформата Statistica за наука за данни. Обсъдихме един от режимите на сливане:Конкатениране на сливане. В следващ урок ще обсъдим сливането чрез съвпадение на имена на случаи и чрез съвпадение на променливи.


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Компресия и нейните ефекти върху производителността

  2. Прагове за оптимизиране – групиране и агрегиране на данни, част 3

  3. Научете как да използвате оператор CASE в SQL

  4. Как да преброите броя на редовете в таблица в SQL

  5. T-SQL Тип данни за дата и време