Документацията за RMySQL е доста добра - но предполага, че знаете основите на SQL. Това са:
- създаване на база данни
- създаване на таблица
- получаване на данни в таблицата
- извличане на данни от таблицата
Стъпка 1 е лесна:в MySQL конзолата просто „създайте база данни DBNAME“. Или от командния ред използвайте mysqladmin , или често има администраторски GUI на MySQL.
Стъпка 2 е малко по-трудна, тъй като трябва да посочите полетата на таблицата и техния тип. Това ще зависи от съдържанието на вашия CSV (или друг разделен) файл. Един прост пример би изглеждал така:
use DBNAME;
create table mydata(
id INT(11) NOT NULL AUTO_INCREMENT PRIMARY KEY,
height FLOAT(3,2)
);
Което гласи създайте таблица с 2 полета:id , който ще бъде първичен ключ (така че трябва да бъде уникален) и ще се увеличава автоматично при добавяне на нови записи; и височина , което тук е посочено като float (числов тип), с общо 3 цифри и 2 след десетичната запетая (напр. 100.27). Важно е да разбирате типове данни .
Стъпка 3 - има различни начини за импортиране на данни в таблица. Един от най-лесните е да използвате mysqlimport полезност. В примера по-горе, ако приемем, че вашите данни са във файл със същото име като таблицата (mydata), първата колона е символ на табулатор, а втората променлива за височина (без заглавен ред), това ще работи:
mysqlimport -u DBUSERNAME -pDBPASSWORD DBNAME mydata
Стъпка 4 - изисква да знаете как да изпълнявате MySQL заявки. Отново прост пример:
select * from mydata where height > 50;
Означава "извличане на всички редове (id + височина) от таблицата mydata, където височината е повече от 50".
След като овладеете тези основи, можете да преминете към по-сложни примери, като например създаване на 2 или повече таблици и изпълнение на заявки, които обединяват данни от всяка.
След това - можете да се обърнете към ръководството за RMySQL. В RMySQL настройвате връзката към базата данни, след което използвате синтаксис на SQL заявка, за да върнете редове от таблицата като рамка с данни. Така че наистина е важно да получите SQL частта - частта RMySQL е лесна.
В мрежата има купища уроци за MySQL и SQL, включително "официалния" урок на уебсайта на MySQL. Просто потърсете в Google "mysql tutorial".
Лично аз не смятам 80 Mb за голям набор от данни; Изненадан съм, че това причинява проблем с RAM и съм сигурен, че родните R функции могат да се справят доста лесно. Но е добре да научите нови умения като SQL, дори и да не ви трябват за този проблем.