Какво следва за Impala след издание 1.1

През декември 2012 г., докато Cloudera Impala все още беше в бета фаза, ние предоставихме пътна карта за планирана функционалност в производствената версия. В същия дух да поддържате добре информирани потребителите, клиентите и ентусиастите на Impala, тази публикация предоставя актуализирана пътна карта за предстоящи издания по-късно тази година и началото на 2014 г.

Но първо благодаря:От първоначалното пускане на бета версията получихме огромно количество отзиви и потвърждения за Impala – изобилни както по отношение на качеството, така и на количеството. Поне един човек от приблизително 4500 уникални организации по света е изтеглил двоичния файл Impala до момента. И дори след само няколко месеца GA, видяхме клиенти на Cloudera Enterprise от множество индустрии да внедряват Impala 1.x в критични за бизнеса среди с поддръжка чрез абонамент за Cloudera RTQ (запитване в реално време) – включително водещи организации в застраховането, банкиране, търговия на дребно, здравеопазване, хазарт, правителство, телекомуникации и реклама.

Освен това, въз основа на реакцията на други доставчици в пространството за управление на данни, малко наблюдатели биха оспорили идеята, че Impala е направила интерактивните SQL заявки с ниска латентност за Hadoop толкова важно изискване на клиента, колкото и пакетно-ориентираните SQL заявки с висока латентност. активиран от Apache Hive. Това е страхотно развитие за потребителите на Hadoop навсякъде!

Какво беше доставено в Impala 1.0/1.1

Нека започнем с отчетна карта на по-рано публикувана пътна карта за Impala 1.0/1.1. Ето списъка с функции, групиран по състояние на доставка:

Доставено:

Поддръжка за Parquet формат, Apache Avro файлов формат и LZO-компресирани текстови файлове
Поддръжка за същите 64-битови операционни платформи, които се поддържат за CDH
JDBC драйвер
Поддръжка на DDL
По-бързи, по-големи, по-ефективни от паметта свързвания
По-бързи, по-големи, по-ефективни от паметта агрегати
Още оптимизации на производителността на SQL

Отложено въз основа на отзивите на клиентите:

Управляване на отклонения
Автоматично опресняване на метаданните

Освен това, благодарение на добавянето на модула Apache Sentry (инкубиране), Impala 1.1 и по-нови сега също предоставят детайлно, базирано на роли оторизация, гарантирайки, че правилните потребители и приложения имат достъп до правилните данни. (С неотдавнашния принос на Sentry към Apache Incubator и на HiveServer2 към Hive от Cloudera, Hive 0.11 и по-късно също имат тази функционалност.)

Много работа беше свършена, но има още много работа. Сега да преминем към вълната Impala 2.0.

Пътна карта за краткосрочен план

Следната нова функционалност на Impala ще бъде пускана постепенно в бъдещите издания в близко бъдеще, като се започне с Impala 1.2 в края на 2013 г. и завършва с Impala 2.0 през първата трета на 2014 г. В допълнение, ще видите повече подобрения в производителността и подобрения на SQL функционалността в всяка версия – с цел разширяване на производителността на Impala пред алтернативните подходи на SQL-on-Hadoop на доставчиците на наследени релационни бази данни, както и на дистрибуторите на Hadoop.

Моля, имайте предвид, както винаги се случва с пътните карти, че сроковете и функциите винаги подлежат на промяна. Това, което виждате по-долу, обаче отразява текущия ни план за запис.

Impala 1.2

UDFs и разширяемост – позволява на потребителите да добавят собствена персонализирана функционалност; Impala ще поддържа съществуващи UDF на Hive Java, както и високопроизводителни собствени UDF и UDAF
Автоматично опресняване на метаданните – позволява новите таблици и данни да бъдат безпроблемно достъпни за заявки на Impala, тъй като се добавят, без да се налага да се издава ръчно опресняване на всеки възел на Impala
Кеширане на HDFS в паметта – позволява достъп до често достъпни данни на Hadoop при скорости в паметта
Оптимизация на поръчката за присъединяване на базата на разходи – освобождава потребителя от необходимостта да отгатва правилния ред на присъединяване
Визуализация на интегрирания в YARN мениджър на ресурси – позволява приоритизиране на работните натоварвания с по-фина детайлност от изолацията на ниво услуга, която в момента се предоставя в Cloudera Manager

Impala 2.0

Списъкът по-долу обхваща само по-големите, най-често търсени функции; в никакъв случай не е завършен.

Съвместими със SQL 2003 аналитични прозоречни функции (агрегиране НАД PARTITION) – за предоставяне на по-усъвършенствани възможности за анализ на SQL
Допълнителни механизми за удостоверяване – включително възможността за определяне на потребителско име/пароли в допълнение към вече поддържаното удостоверяване на Kerberos
UDTF (дефинирани от потребителя таблични функции) – за по-напреднали потребителски функции и разширяемост
Паралелизирани агрегации и обединявания в рамките на възел – за осигуряване на още по-бързи обединявания и агрегации в допълнение към повишаването на производителността на Impala
Вложени данни – позволява заявки за сложни вложени структури, включително карти, структури и масиви
Подобрен, готов за производство, интегриран в YARN мениджър на ресурси
Подобрения на паркета – непрекъснато повишаване на производителността, включително индексни страници
Допълнителни типове данни – включително типове дата и десетичен знак
ORDER BY без LIMIT клаузи

Отвъд Impala 2.0

Следният списък с функции са тези, които в момента очакваме да присъстват в 2.1 или версия скоро след това:

Допълнителна аналитична SQL функционалност – ROLLUP, CUBE и GROUPING SET
Apache HBase CRUD – позволява използването на Impala за вмъкване и актуализации в HBase
Външни обединявания с помощта на диск – позволява на обединения между таблици да се прехвърлят на диск за обединения, които изискват присъединителни таблици, по-големи от общия размер на паметта
Подзаявки в клаузите WHERE

Докато научаваме повече за изискванията на клиентите и партньорите, този списък ще се разширява.

Заключение

Както можете да видите, Impala се е развила значително след бета версията си и ще продължи да се развива, докато събираме повече отзиви от потребители, клиенти и партньори.

В крайна сметка, ние вярваме, че Impala вече е активирала нашата обща цел да позволи на потребителите да съхраняват всичките си данни в родни файлови формати на Hadoop и едновременно да изпълняват всички пакетни, машинно обучение, интерактивен SQL/BI, математика, търсене и други натоварвания върху тези данни. на място. Оттук нататък е просто въпрос на продължаване на надграждането върху тази много солидна основа с по-богата функционалност и подобрена производителност.

Джъстин Ериксън е директор по управление на продукти в Cloudera.