PostgreSQL
 sql >> база данни >  >> RDS >> PostgreSQL

Как да генерирате схема от CSV за копие на PostgreSQL

Ако CSV не е прекалено голям и е наличен на вашата локална машина, тогава csvkit е най-простото решение. Той също така съдържа редица други помощни програми за работа с CSV файлове, така че е полезен инструмент да знаете като цяло.

Най-простото въвеждане в обвивката:

$ csvsql myfile.csv

ще отпечата необходимия CREATE TABLE SQL команда, която може да бъде записана във файл чрез пренасочване на изхода.

Ако предоставите и низ за връзка csvsql ще създаде таблицата и ще качи файла наведнъж:

$ csvsql --db "$MY_DB_URI" --insert myfile.csv

Има и опции за указване на вида на SQL и CSV, с които работите. Те са документирани във вградената помощ:

$ csvsql -h
usage: csvsql [-h] [-d DELIMITER] [-t] [-q QUOTECHAR] [-u {0,1,2,3}] [-b]
              [-p ESCAPECHAR] [-z MAXFIELDSIZE] [-e ENCODING] [-S] [-H] [-v]
              [--zero] [-y SNIFFLIMIT]
              [-i {access,sybase,sqlite,informix,firebird,mysql,oracle,maxdb,postgresql,mssql}]
              [--db CONNECTION_STRING] [--query QUERY] [--insert]
              [--tables TABLE_NAMES] [--no-constraints] [--no-create]
              [--blanks] [--no-inference] [--db-schema DB_SCHEMA]
              [FILE [FILE ...]]

Generate SQL statements for one or more CSV files, create execute those
statements directly on a database, and execute one or more SQL queries.
positional arguments:
  FILE                  The CSV file(s) to operate on. If omitted, will accept
                        input on STDIN.

optional arguments:
  -h, --help            show this help message and exit
  -d DELIMITER, --delimiter DELIMITER
                        Delimiting character of the input CSV file.
  -t, --tabs            Specifies that the input CSV file is delimited with
                        tabs. Overrides "-d".
  -q QUOTECHAR, --quotechar QUOTECHAR
                        Character used to quote strings in the input CSV file.
  -u {0,1,2,3}, --quoting {0,1,2,3}
                        Quoting style used in the input CSV file. 0 = Quote
                        Minimal, 1 = Quote All, 2 = Quote Non-numeric, 3 =
                        Quote None.
  -b, --doublequote     Whether or not double quotes are doubled in the input
                        CSV file.
  -p ESCAPECHAR, --escapechar ESCAPECHAR
                        Character used to escape the delimiter if --quoting 3
                        ("Quote None") is specified and to escape the
                        QUOTECHAR if --doublequote is not specified.
  -z MAXFIELDSIZE, --maxfieldsize MAXFIELDSIZE
                        Maximum length of a single field in the input CSV
                        file.
  -e ENCODING, --encoding ENCODING
                        Specify the encoding the input CSV file.
  -S, --skipinitialspace
                        Ignore whitespace immediately following the delimiter.
  -H, --no-header-row   Specifies that the input CSV file has no header row.
                        Will create default headers.
  -v, --verbose         Print detailed tracebacks when errors occur.
  --zero                When interpreting or displaying column numbers, use
                        zero-based numbering instead of the default 1-based
                        numbering.
  -y SNIFFLIMIT, --snifflimit SNIFFLIMIT
                        Limit CSV dialect sniffing to the specified number of
                        bytes. Specify "0" to disable sniffing entirely.
  -i {access,sybase,sqlite,informix,firebird,mysql,oracle,maxdb,postgresql,mssql}, --dialect {access,sybase,sqlite,informix,firebird,mysql,oracle,maxdb,postgresql,mssql}
                        Dialect of SQL to generate. Only valid when --db is
                        not specified.
  --db CONNECTION_STRING
                        If present, a sqlalchemy connection string to use to
                        directly execute generated SQL on a database.
  --query QUERY         Execute one or more SQL queries delimited by ";" and
                        output the result of the last query as CSV.
  --insert              In addition to creating the table, also insert the
                        data into the table. Only valid when --db is
                        specified.
  --tables TABLE_NAMES  Specify one or more names for the tables to be
                        created. If omitted, the filename (minus extension) or
                        "stdin" will be used.
  --no-constraints      Generate a schema without length limits or null
                        checks. Useful when sampling big tables.
  --no-create           Skip creating a table. Only valid when --insert is
                        specified.
  --blanks              Do not coerce empty strings to NULL values.
  --no-inference        Disable type inference when parsing the input.
  --db-schema DB_SCHEMA
                        Optional name of database schema to create table(s)
                        in.

Няколко други инструмента също правят извод за схема, включително:

  • Apache Spark
  • Панди (Python)
  • Blaze (Python)
  • read.csv + любимия ви db пакет в R

Всеки от тях има функционалност да чете CSV (и други формати) в таблична структура от данни, обикновено наричана DataFrame или подобна, като извежда типовете колони в процеса. След това те имат други команди или да напишат еквивалентна SQL схема, или да качат DataFrame директно в определена база данни. Изборът на инструмент ще зависи от обема данни, начина, по който се съхраняват, особеностите на вашия CSV, целевата база данни и езика, на който предпочитате да работите.



  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Използване на множество POSTGRES бази данни и схеми с един и същ модел Flask-SQLAlchemy

  2. Дублирана колона след превключване от сериен към тип данни за идентичност в PostgreSQL / pgAdmin4

  3. Не може да завърши Flask-Migration

  4. Премахване на елемент от масив в обект JSONB

  5. Как работи make_timestamp() в PostgreSQL