PostgreSQL
 sql >> база данни >  >> RDS >> PostgreSQL

Postgresql - производителност при използване на масив в голяма база данни

Мисля, че трябва да използвате elements таблица:

  • Postgres ще може да използва статистика, за да предскаже колко реда ще съвпаднат, преди да изпълни заявката, така че ще може да използва най-добрия план за заявка (по-важно е, ако данните ви не са равномерно разпределени);

  • ще можете да локализирате данните от заявката, като използвате CLUSTER elements USING elements_id_element_idx;

  • когато Postgres 9.2 бъде пуснат, ще можете да се възползвате от сканирането само на индекс;

Но направих някои тестове за 10 милиона елемента:

create table elements (id_item bigint, id_element bigint);
insert into elements
  select (random()*524288)::int, (random()*32768)::int
    from generate_series(1,10000000);

\timing
create index elements_id_item on elements(id_item);
Time: 15470,685 ms
create index elements_id_element on elements(id_element);
Time: 15121,090 ms

select relation, pg_size_pretty(pg_relation_size(relation))
  from (
    select unnest(array['elements','elements_id_item', 'elements_id_element'])
      as relation
  ) as _;
      relation       | pg_size_pretty 
---------------------+----------------
 elements            | 422 MB
 elements_id_item    | 214 MB
 elements_id_element | 214 MB



create table arrays (id_item bigint, a_elements bigint[]);
insert into arrays select array_agg(id_element) from elements group by id_item;

create index arrays_a_elements_idx on arrays using gin (a_elements);
Time: 22102,700 ms

select relation, pg_size_pretty(pg_relation_size(relation))
  from (
    select unnest(array['arrays','arrays_a_elements_idx']) as relation
  ) as _;
       relation        | pg_size_pretty 
-----------------------+----------------
 arrays                | 108 MB
 arrays_a_elements_idx | 73 MB

Така че от друга страна масивите са по-малки и имат по-малък индекс. Бих направил някои тестове на 200 милиона елемента, преди да взема решение.




  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Временна таблица за дъмп на PostgreSQL

  2. Изчислете точката на 50 мили (север, 45% NE, 45% SW)

  3. Защо да посочвате дължина за различни типове знаци

  4. Стойности на Postgres ORDER BY в IN списък с помощта на Rails Active Record

  5. Как да групирате следващите редове по неуникална стойност