二进制文件怎么转换为文本文件 二进制文件( 二 )


二进制文件可以作为计算机中所有文件的统称 。
文件存储的时候 , 字节是最小的单元 。一个字节可以存储0到255这256个数字 。
某些数字在文本编辑器中 , 可以呈现为英文字符 , 例如:数字 97 就显示为英文的小写字母 a。
文本文件只存储可见的字符 。在只有英文的Ascii码文本文件中 , 每个字符的数值都不会大于 127  , 也不会等于127 , 除了数字 13 表示的回车 , 数字 10 表示的换行 , 数字9表示Tab缩进 , 其他的字符数值都大于32 , 数值32显示为空格 。
二进制文件中有许多不可见的字符 。所谓的不可见是:在普通的文本编辑器中没有定义该字符的显示方式 。
当使用GB2312的汉字编码以后 , 用相邻的两个字节表示一个汉字 。原本不可见的字符变的可见了 。这时候 , 文本文件中的字节有许多高位置1 , 大致上使用了0到255中的每一个数 。为什么说大致呢?因为你去查GB2312的码表 , 会发现每个区FF的位置都是空着的 , 也就是不使用数字255 。这是为什么呢?
数字255在某些情况下也是-1 , 这个数字可以看作文本文件的禁区 。也就是说 , 二进制文件中 , 每个字节都可以在0到255之间任意的挑选;文本文件的字节则不能使用数字255 。
GB2312码表0的位置也是空出来的 , 这是为什么呢?
答案是:为了能兼容传统的c语言程序 。
如果c语言程序在处理一个字符串 , 遇到了0 , 那么程序认为字符串结束了 。所以 , 文本文件的字节中不能使用数字0 , 以避免程序处理到一半就终止了 。
而数字255更是不能出现的 , 255在表示有符号的char时 , 就是-1 , 在c语言中定义为EOF(End Of File) 。也就是说 , 某些传统的c语言程序 , 例如getchar( )在返回-1的时候 , 程序员就认为该文件结束了 。所以 , 这个数字不能出现在文本文件的内容中 。
传统意义上 , 文本文件有禁区 , 最初的0和最终的255 , 是文本文件的禁区 。
所有不可见的Ascii码也是禁区 。
而二进制文件没有任何约束 。
各种对文本文件的编码方式 , 都会尽量避免打破这个禁区 。但在Unicode定义以后 , 这个禁区被打破了 。Unicode定义了BOM , 也就是在文本文件的开头加入几个不可见的字节 , 来表示这个文件的编码方式 。
从这以后 , 文本文件中就可以存储不可见的字符了 , 不再是那么纯粹的文本文件 。UTF-8编码的文件本来可以不使用BOM的 , 但微软也为它设计了BOM,这是一个字符 , 编码是(Unicode FEFF) , 转化为UTF8形式以后是(EF BB BF) 。
尽管打破了禁区 , 但只限定于文件开头的两三个字节 。
这可以看作一种黑客的解决问题方式 , 不优雅 , 也不美观 。因为黑客有办法在文本文件中插入更多的不可见字符 , 普通人不知道如何操作 。
有了 BOM以后,出现了字节FF , 这意味着数字255不再是禁区 。虽然不显示出来 , 但是它像一根针 , 插入文本文件的开头 。
但有了UTF-16编码以后 , 禁区彻底打破了 , 文本文件的编码如果按照UTF-16的方式存储 , 除了开头有BOM以外 , 所有不可见的ASCII码和扩展Ascii码都可以成为某个字符的一部分 。也就是说 , 没有任何禁区 。文本文件中可以存储任何数值的字节 。
文本文件可以在文本编辑器中显示 , 二进制文件可以在二进制编辑器中显示 。没有什么东西不能显示 。
所以 , 如果再问文本文件和二进制文件的区别是什么 , 答案就是:
没有区别 。
二进制文件的后缀是什么?如果你是问常用的二进制文件有哪些类型, 那一般有".jpg .doc .mp3"等等, 基本上大多数文件都是二进制文件.常用的文本文件后缀为".txt .html"等等.
但是计算机储存文件都是二进制的, 所谓文本文件是指遵循实现约定的编码规则, 如ASCII码,来记录字符的文件.
【二进制文件怎么转换为文本文件 二进制文件】后缀的作用只是帮助计算机找出解析这个文件的对应软件和编码方式. 并不会影响文件类型. 如果你吧 .mp2文件后缀改成 .txt, 任然能够用记事本程序打开.

秒懂生活扩展阅读