Когато се опитвате да стартирате втория екземпляр в RAC клъстер с два възела, вторият екземпляр няма да стартира. Ако екземплярът на node1 работи, екземплярът на node2 няма да стартира. Ако екземплярът на node2 работи, екземплярът на node1 няма да стартира. Регистърът на сигналите показва следното:
Error: KGXGN polling error (15)
Errors in file /u01/app/oracle/diag/rdbms/bsp/bsp1/trace/bsp1_lmon_9151.trc:
ORA-29702: error occurred in Cluster Group Service operation
LMON (ospid: 9151): terminating the instance due to error 29702
За съжаление, файлът за проследяване на LMON дава само едни и същи съобщения за грешка, така че няма какво да се случва там.
Тази грешка възниква поради неправилна конфигурация за взаимно свързване на клъстера. Ако погледнете OCR, за да видите взаимното свързване на клъстера, можете да видите, че NIC устройството е eth4.1338:
[oracle@myhost bin]$ oifcfg getif -global
eth2 192.168.33.0 global public
eth4.1338 10.0.0.0 global cluster_interconnect
На един възел устройството eth4 е правилно. Въпреки това, на втория възел устройството е eth5.1338 и OCR се споделя между възлите. OCR очаква устройството да бъде eth4.1338. И двата сървъра се нуждаят от взаимно свързване на клъстера, за да бъде на едно и също мрежово устройство. Мрежовата конфигурация на сървъра беше променена, така че и двата възела бяха конфигурирани на устройството eth5.1338. След като сървърите бяха конфигурирани по идентичен начин, ние предефинирахме OCR конфигурацията:
[oracle@myhost bin]$ ./oifcfg setif -global eth5.1338/10.0.0.0:cluster_interconnect
Разглеждайки конфигурацията, можем да видим, че и eth4, и eth5 все още са в OCR:
[oracle@myhost bin]$ ./oifcfg getif -global
eth2 192.168.33.0 global public
eth4.1338 10.0.0.0 global cluster_interconnect
eth5.1338 10.0.0.0 global cluster_interconnect
Така че премахваме eth4 устройството:
[oracle@myhost bin]$ ./oifcfg delif -global eth4.1338/10.0.0.0
Сега имаме преконфигуриран OCR. Рестартирахме CRS и двата екземпляра се появиха и на двата възела!
Това беше една от онези грешки, при които съобщенията за грешки наистина не сочат към основната причина за проблема. Вместо това трябваше да ровя в областите, които смятах, че са най-вероятните виновници, когато по-скоро сляпо открих разликите в конфигурацията.