Платформата Statistica е класирана в петте най-добри платформи за наука за данни според новия доклад на Gartner за 2017 г. „Магически квадрант за платформи за наука за данни“ (https://www.gartner.com/doc/3606026/magic-quadrant-data-science- платформи), наречени преди това „Разширени платформи за анализ“ през 2016 г. Широката гама от функции и графичен потребителски интерфейс (GUI), предоставени от Statistica, го правят един от най-често използваните инструменти за наука за данни.
Файловете с данни Statistica се наричат Електронни таблици , които имат редове и колони с данни. Редовете с данни се наричат случаи и заглавките на колоните за данни се наричат променливи . Често срещан проблем при подготовката на данни е, че различни членове на екипа разработват или събират набори от данни поотделно и наборите от данни трябва да бъдат обединени, преди да може да се използва електронната таблица. Данните могат да бъдат в множество файлове с данни. Ще обсъдим как данните в два различни файла с данни могат да бъдат обединени в един файл с данни със Statistica.
Statistica поддържа различни видове режими на сливане за два файла с данни, а това са:
- Конкатенация: Когато два файла с данни са обединени, един файл с данни се взема и добавя (или се свързва) от дясната страна на другия файл с данни.
- Картезиански: Създава кръстосано произведение от два файла с данни.
- Съответствие на имената на случаите: Обединява случаите (редовете) на един файл с случаите на другите файлове, като съпоставя имената на случаите.
- Променливи за съвпадение: Обединява редовете на един файл с данни с редовете на другия файл с данни, като съпоставя имената на променливите.
Ще започнем с обсъждане на сливането на конкатенацията. Този урок има следните раздели:
- Настройка на средата
- Конкатенация на файлове с данни
- Заключение
Настройка на средата
Изтеглете и инсталирайте Statistica Platform. Файловете с данни Statistica се наричат електронни таблици (съхранени с .sta наставка). В този урок ще създадем някои файлове с данни на Statistica. Създава се файл с данни с Файл>Нов . В Създаване на нов документ , изберете Електронна таблица , както е показано на фигура 1.
Фигура 1: Избиране на нова електронна таблица за създаване
За да запазите файл с данни, изберете Файл>Запазване като , както е показано на фигура 2.
Фигура 2: Файл>Запазване като
Конкатенация на файлове с данни
Първо, създайте двата файла с данни, които трябва да бъдат обединени. Файловете с данни, които ще бъдат обединени, обикновено имат същия брой редове и същия или различен брой колони. Тъй като данните трябва да бъдат конкатенирани, имената на колоните обикновено са различни. Нищо от това не е изискване; два файла с данни могат да имат различен брой редове и ние също ще обсъдим как да обединим такъв набор от файлове с данни. Целта е да се слеят данните в един файл с данни с другия, така че 2 файл с данни да се добави от дясната страна на 1 файл с данни. Като пример създайте файл с данни (наречен wlslog1.sta ) със заглавки на колони (променливи). ) марка за време , категория и тип и следните данни (примерни регистрационни данни).
4-8-2014-7:06:16,Забележете,WebLogicServer4-8-2014-7:06:17,Забележете,WebLogicServer4-8-2014-7:06:18,Забележете,WebLogicServer4-8-2014 -7:06:20,Забележете,WebLogicServer4-8-2014-7:06:21,Забележете,WebLogicServer4-8-2014-7:06:22,Забележете,WebLogicServer
wlslog1.sta файл с данни е показан в Statistica на фигура 3.
Фигура 3: Файл с данни wlslog1.sta
Създайте друг файл с данни (wlslog2.sta ) със заглавки на колони име на сървър , код и съобщ. и добавете следните данни (също примерни регистрационни данни).
AdminServer,BEA-000365,STANDBYAdminServer,BEA-000365,RESUMINGAdminServer,BEA-000365,ADMINAdminServer,BEA-000331,STARTINGAdminServer,BEA-000365,VERNEDBEA000>wlslog2.sta файл е показан на фигура 4. За да обедините двата файла с данни, wlslog1.sta и wlslog2.sta щракнете върху Данни раздел и изберете Обединяване , както е показано на фигура 4.
Фигура 4: Файл с данни wlslog2.staA Опции за сливане се показва диалогов прозорец, както е показано на фигура 5. Променливи разделът е избран по подразбиране. Изберете Режим като Конкатенация . Щракнете върху Файл 1 бутон, за да изберете 1 файл за обединяване.
Фигура 5: Опции за сливанеИзберете wlslog1.sta файл в Избор на електронна таблица диалогов прозорец (вижте фигура 6). Щракнете върху OK . wlslog1.sta файл се добавя към Файл 1 поле. По същия начин изберете 2 файла wlslog2.sta .
Фигура 6: Избиране на електронна таблица за обединяванеНе се изисква друга конфигурация. По подразбиране се генерира изходна електронна таблица и може да бъде конфигурирана с Опции раздел, както е показано на фигура 7. Запазете настройките по подразбиране за изходната електронна таблица.
Фигура 7: Раздел ОпцииДвата файла, които ще бъдат обединени, се добавят към Файл 1 и Файл 2 полета, както е показано на фигура 8. Настройката по подразбиране за Несъответстващи случаи запълва файловете с данни с липсващите стойности, което предполага, че празни данни се съхраняват за секцията на обединен ред (случай ), който не съвпада от един файл с данни в друг. Щракнете върху OK .
Фигура 8: Файлове с данни за обединяванеДвата файла с данни се свързват, както е показано на фигура 9. Получената електронна таблица има 6 колони и 6 реда.
Фигура 9: Резултатна електронна таблица след обединяванеАко една електронна таблица има повече редове от другата, двете електронни таблици ще се обединят по същия начин. Като пример добавете допълнителен ред в електронната таблица 1 (wlslog1.sta ), за да направите 7 реда, както е показано на фигура 10.
Фигура 10: Допълнителен ред в wlslog1.staКогато е свързана с електронната таблица 2 (wlslog2.sta ), получената електронна таблица има допълнителен ред с липсващи данни за колоните от електронната таблица 2 (вижте фигура 11).
Фигура 11: Обединена електронна таблицаЗаключение
В този урок въведохме обединяване на файлове с данни (наричани още електронни таблици) в платформата Statistica за наука за данни. Обсъдихме един от режимите на сливане:Конкатениране на сливане. В следващ урок ще обсъдим сливането чрез съвпадение на имена на случаи и чрез съвпадение на променливи.