Мисля, че трябва да използвате elements
таблица:
-
Postgres ще може да използва статистика, за да предскаже колко реда ще съвпаднат, преди да изпълни заявката, така че ще може да използва най-добрия план за заявка (по-важно е, ако данните ви не са равномерно разпределени);
-
ще можете да локализирате данните от заявката, като използвате
CLUSTER elements USING elements_id_element_idx
; -
когато Postgres 9.2 бъде пуснат, ще можете да се възползвате от сканирането само на индекс;
Но направих някои тестове за 10 милиона елемента:
create table elements (id_item bigint, id_element bigint);
insert into elements
select (random()*524288)::int, (random()*32768)::int
from generate_series(1,10000000);
\timing
create index elements_id_item on elements(id_item);
Time: 15470,685 ms
create index elements_id_element on elements(id_element);
Time: 15121,090 ms
select relation, pg_size_pretty(pg_relation_size(relation))
from (
select unnest(array['elements','elements_id_item', 'elements_id_element'])
as relation
) as _;
relation | pg_size_pretty
---------------------+----------------
elements | 422 MB
elements_id_item | 214 MB
elements_id_element | 214 MB
create table arrays (id_item bigint, a_elements bigint[]);
insert into arrays select array_agg(id_element) from elements group by id_item;
create index arrays_a_elements_idx on arrays using gin (a_elements);
Time: 22102,700 ms
select relation, pg_size_pretty(pg_relation_size(relation))
from (
select unnest(array['arrays','arrays_a_elements_idx']) as relation
) as _;
relation | pg_size_pretty
-----------------------+----------------
arrays | 108 MB
arrays_a_elements_idx | 73 MB
Така че от друга страна масивите са по-малки и имат по-малък индекс. Бих направил някои тестове на 200 милиона елемента, преди да взема решение.