Linux文件分割?python读取大文件分割

大家好,感谢邀请,今天来为大家分享一下Linux文件分割的问题,以及和python读取大文件分割的一些困惑,大家要是还不太明白的话,也没有关系,因为接下来将为大家分享,希望可以帮助到大家,解决大家的问题,下面就开始吧!

Linux常用命令:文本文件的拼接与分割

在Linux系统中,命令行工具提供了强大的文本处理能力。本文将介绍几个常用的Linux命令,包括cat、paste、split、cut和wc,它们分别用于文本文件的拼接、分割、剪切和计数。通过掌握这些命令,你将能够更加高效地在Linux环境中处理文本文件。

cat命令的全称是concatenate,意思是连接。它可以将一个或多个文件的内容输出到标准输出,也可以将一个或多个文件的内容拼接到另一个文件中。cat命令的语法格式如下:`cat [选项]文件名`。如果没有指定文件,或者文件为-,则从标准输入读取内容。如果指定了多个文件,cat命令会按顺序将它们的内容输出或拼接。

例如,创建两个文件file1.txt和file2.txt,内容分别如下:

我们可以使用以下命令将这两个文件的内容输出到屏幕上:`cat file1.txt file2.txt`。若要将这两个文件的内容拼接到一个新的文件file3.txt中,可以使用以下命令:`cat file1.txt file2.txt> file3.txt`。若要在输出或拼接的过程中对每行进行编号,可以使用-n选项:`cat-n file1.txt file2.txt`。

paste命令的作用是将多个文件的内容按列拼接,即将每个文件的第一行拼接成一行,第二行拼接成一行,以此类推。paste命令的语法格式如下:`paste [选项]文件名`。如果没有指定文件,或者文件为-,则从标准输入读取内容。如果指定了多个文件,paste命令会按顺序将它们的内容按列拼接。

例如,假设有两个文件file1.txt和file2.txt,内容如下:

使用以下命令将这两个文件的内容按列拼接:`paste file1.txt file2.txt`。若要指定拼接时的分隔符为逗号,可以使用-d选项:`paste-d"," file1.txt file2.txt`。若要将每个文件的内容拼接成一行,可以使用-s选项:`paste-s file1.txt file2.txt`。

split命令的作用是将一个大文件分割成多个小文件,可以按行数、字节数或后缀进行分割。split命令的语法格式如下:`split [选项]文件名前缀`。如果没有指定文件,或者文件为-,则从标准输入读取内容。如果没有指定前缀,split命令会使用x作为前缀。

例如,假设有一个文件file.txt,它的内容如下:

要按行数进行分割,可以使用以下命令:`split-l 2 file.txt`。可以看到,split命令将file.txt分割成了两个小文件,每个文件有两行文本。若要按字节数进行分割,可以使用以下命令:`split-b 20 file.txt`。可以看到,split命令将file.txt分割成了五个小文件,每个文件有20个字节。若要按后缀进行分割,可以使用以下命令:`split-a 2-d file.txt`。可以看到,split命令将file.txt分割成了三个小文件,每个文件有一个后缀。

cut命令的作用是从文件或标准输入中提取指定的列或字段,可以按字符、字节或分隔符进行提取。cut命令的语法格式如下:`cut [选项] [字段位置]文件名`。如果没有指定文件,或者文件为-,则从标准输入读取内容。

例如,假设有一个文件file.txt,内容如下:

要提取每行的第一个字段,即姓名,可以使用以下命令:`cut-f 1 file.txt`。若要提取每行的第二个和第三个字段,即年龄和性别,可以使用以下命令:`cut-f 2,3 file.txt`。若要提取每行的第一个字符,可以使用以下命令:`cut-c 1 file.txt`。若要提取每行的第二个到第四个字符,可以使用以下命令:`cut-c 2-4 file.txt`。

wc命令的作用是统计文件或标准输入中的行数、字数、字节数等信息。wc命令的语法格式如下:`wc [选项]文件名`。如果没有指定文件,或者文件为-,则从标准输入读取内容。如果指定了多个文件,wc命令会显示每个文件的统计信息,以及总的统计信息。

例如,假设有一个文件file.txt,内容如下:

要统计这个文件的行数、字数和字节数,可以使用以下命令:`wc-l-w-c file.txt`。可以看到,file.txt有4行,16个字,79个字节。若要只显示行数,可以使用-l选项:`wc-l file.txt`。若要只显示字节数,可以使用-c选项:`wc-c file.txt`。若要显示最长行的长度,可以使用-L选项:`wc-L file.txt`。可以看到,file.txt的最长行是第三行,它有31个字符。

以上就是Linux常用命令:文本文件的拼接与分割的介绍,希望对你有所帮助。

详解使用split命令分割Linux文件

一些简单的 Linux命令能让你根据需要分割以及重新组合文件,来适应存储或电子邮件附件大小的限制。

Linux系统提供了一个非常易于使用的命令来分割文件。在将文件上传到限制大小的存储网站或者作为邮件附件之前,你可能需要执行此操作。要将文件分割为多个文件块,只需使用 split命令。

$ split bigfile

默认情况下,split命令使用非常简单的命名方案。文件块将被命名为 xaa、xab、xac等,并且,大概地,如果你将足够大的文件分割,你甚至可能会得到名为 xza和 xzz的块。

除非你要求,否则该命令将无任何反馈地运行。但是,如果你想在创建文件块时看到反馈,可以使用–verbose选项。

$ split–-verbose bigfile

creating file‘xaa’

creating file‘xab’

creating file‘xac’你还可以给文件命名前缀。例如,要将你原始文件分割并命名为 bigfile.aa、bigfile.ab等,你可以将前缀添加到 split命令的末尾,如下所示:

$ split–-verbose bigfile bigfile.

creating file‘bigfile.aa’

creating file‘bigfile.ab’

creating file‘bigfile.ac’请注意,上述命令中显示的前缀的末尾会添加一个点。否则,文件将是 bigfileaa之类的名称,而不是 bigfile.aa。

请注意,split命令不会删除你的原始文件,只是创建了文件块。如果要指定文件块的大小,可以使用-b选项将其添加到命令中。例如:

$ split-b100M bigfile

文件大小可以是 KB、MB,GB,最大可以是 YB!只需使 K、M、G、T、P、E、Z和 Y这些合适的字母。

如果要基于每个块中的行数而不是字节数来拆分文件,那么可以使用-l(行)选项。在此示例中,每个文件将有 1000行,当然,最后一个文件可能有较少的行。

$ split–verbose-l1000 logfile log.

creating file‘log.aa’

creating file‘log.ab’

creating file‘log.ac’

creating file‘log.ad’

creating file‘log.ae’

creating file‘log.af’

creating file‘log.ag’

creating file‘log.ah’

creating file‘log.ai’

creating file‘log.aj’如果你需要在远程站点上重新组合文件,那么可以使用如下所示的 cat命令轻松地完成此操作:

$ cat x??> original.file

$ cat log.??> original.file上面所示的分割和组合命令适合于二进制和文本文件。在此示例中,我们将 zip二进制文件分割为 50KB的块,之后使用 cat重新组合了它们,然后比较了组合后的文件和原始文件。diff命令验证文件是否相同。

$ split–verbose-b50K zip zip.

creating file‘zip.aa’

creating file‘zip.ab’

creating file‘zip.ac’

creating file‘zip.ad’

creating file‘zip.ae’

$ cat zip.a?> zip.new

$ diff zip zip.new

$<==无输出=无差别我唯一要提醒的一点的是,如果你经常使用 split并使用默认命名,那么某些文件块可能会覆盖其他的文件块,甚至会比你预期的更多,因为有些是更早之前分割的。

总结

以上所述是小编给大家介绍的使用 split命令分割 Linux文件,大家如有疑问可以留言,或者联系站长。感谢亲们支持!!!

如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

Linux系统下切割文件的split命令用法教程

你曾经是否想要把一个大文件分割成多个小文件?比如一个5gb日志文件,我们需要把它分成多个小文件,这样我们才有可能使用普通的文本编辑器读取它。有时我们需要传输20gb的大文件到另一台服务器,这就需要我们把它分割成多个文件,这样便于传输数据。下面我们来讲解使用split命令来切割文件的方法。

复制代码代码如下:

[root@localhost database]# ls-lh gkdb.db

-r--r--r-- 1 root root 411M Jul 23 17:20 gkdb.db

将将这个276M文件分割成20M的小文件,文件分割操作如下:

复制代码代码如下:

[root@localhost database]# split-b 20m gkdb.db gkdb_pack_

split是命今。

-B 20M是指将每个分卷文件最大20M。

gkdb.db需要分割的文件。

gkdb_pack_是指分割后的文件开头,分割后后的文件名一般为 gkdb_pack_aa、gkdb_pack_ab、gkdb_pack_ac依次类推。

显示分割后的文件名及大小

复制代码代码如下:

[root@localhost database]# ll-lh gkdb_pack_a*

-rw-r--r-- 1 root root 20M Jul 27 16:09 gkdb_pack_aa

-rw-r--r-- 1 root root 20M Jul 27 16:09 gkdb_pack_ab

-rw-r--r-- 1 root root 20M Jul 27 16:09 gkdb_pack_ac

-rw-r--r-- 1 root root 20M Jul 27 16:09 gkdb_pack_ad

-rw-r--r-- 1 root root 20M Jul 27 16:09 gkdb_pack_ae

-rw-r--r-- 1 root root 20M Jul 27 16:09 gkdb_pack_af

-rw-r--r-- 1 root root 20M Jul 27 16:09 gkdb_pack_ag

-rw-r--r-- 1 root root 20M Jul 27 16:09 gkdb_pack_ah

-rw-r--r-- 1 root root 20M Jul 27 16:09 gkdb_pack_ai

-rw-r--r-- 1 root root 20M Jul 27 16:09 gkdb_pack_aj

-rw-r--r-- 1 root root 20M Jul 27 16:09 gkdb_pack_ak

-rw-r--r-- 1 root root 20M Jul 27 16:09 gkdb_pack_al

-rw-r--r-- 1 root root 20M Jul 27 16:09 gkdb_pack_am

-rw-r--r-- 1 root root 20M Jul 27 16:09 gkdb_pack_an

-rw-r--r-- 1 root root 20M Jul 27 16:09 gkdb_pack_ao

-rw-r--r-- 1 root root 20M Jul 27 16:10 gkdb_pack_ap

-rw-r--r-- 1 root root 20M Jul 27 16:10 gkdb_pack_aq

-rw-r--r-- 1 root root 20M Jul 27 16:10 gkdb_pack_ar

-rw-r--r-- 1 root root 20M Jul 27 16:10 gkdb_pack_as

-rw-r--r-- 1 root root 20M Jul 27 16:10 gkdb_pack_at

-rw-r--r-- 1 root root 11M Jul 27 16:10 gkdb_pack_au

最下面的那个文件是剩余的文件。 20*20+11=411MB

合并文件

复制代码代码如下:

[root@localhost database]# cat gkdb_pack_*>gkdb.tar.gz

组装前和组装后的MD5值都是一样的,不信的话可以使用md5sum命令来检测一下。

如果要分割的是一个文本文件,比如有好几千行,当然每行的字符数是不等的,想要以行数为分割,比如每100行生成1个文件,只需要-l参数,如下:

复制代码代码如下:

[root@pps public_rw]# split-l 100 test.txt

其实,如果不加任何参数,默认情况下是以1000行大小来分割的。

实例1、以每个文件1000行分割

split命令分割文件成每个文件1000行,并且文件名依次为 [前缀]aa, [前缀]ab, [前缀]ac等,默认的前缀是X,每个文件的行数为1000行,命令如下:

复制代码代码如下:

$ split mylog

$ wc-l*

4450 mylog

1000 xaa

1000 xab

1000 xac

1000 xad

450 xae

实例2、以每个文件20MB分割

分割文件为多个20MB的文件,附带-b选项命令如下:

复制代码代码如下:

$ split-b 20M logdata

$ ls-lh| tail-n+2

-rw------- 1 sathiya sathiya 102M Jul 25 18:47 logdata

-rw------- 1 sathiya sathiya 20M Jul 25 19:20 xaa

-rw------- 1 sathiya sathiya 20M Jul 25 19:20 xab

-rw------- 1 sathiya sathiya 20M Jul 25 19:20 xac

-rw------- 1 sathiya sathiya 20M Jul 25 19:20 xad

-rw------- 1 sathiya sathiya 20M Jul 25 19:20 xae

-rw------- 1 sathiya sathiya 1.6M Jul 25 19:20 xaf

实例3、以每个文件50MB指定前缀分割

使用–bytes选项把文件分割成多个50MB的文件,–bytes类似-b选项,在第二个参数指定前缀。

复制代码代码如下:

$ split--bytes=50M logdata mydatafile

$ ls-lh

total 204M

-rw------- 1 sathiya sathiya 102M Jul 25 18:47 logdata

-rw------- 1 sathiya sathiya 50M Jul 25 19:23 mydatafileaa

-rw------- 1 sathiya sathiya 50M Jul 25 19:23 mydatafileab

-rw------- 1 sathiya sathiya 1.6M Jul 25 19:23 mydatafileac

实例4、基于行数分割文件

使用-l选项指定行数来把文件分割成多个行数相同的文件。

复制代码代码如下:

$ wc-l testfile

2591 testfile

$ split-l 1500 testfile importantlog

$ wc-l*

1500 importantlogaa

1091 importantlogab

2591 testfile

实例5、以数字后缀命名分割文件

使用-d选项可以指定后缀为数字,如00,01,02..,而不是aa,ab,ac。

复制代码代码如下:

$ split-d testfile

$ ls

testfile x00 x01 x02

阅读剩余
THE END