User's Manual
操作理论知识 45
数据压缩
基础知识
一般而言 文本 图形 软件代码或其它格式的数据流中都会包含某些重复的信息
在文本级别上这可能是您可以识别的重复使用的单词 或在二进制格式中这可能是相
同位或字节的重复出现
虽然大多数数据是独特的并具有随机性 但其二进制格式则
显示出大小不同的多种模式
它们以不同的规则重复出现
在将数据存储到磁带时
如果能够将数据中存在的冗余或重复数据段从数据中删除
则会提高数据存储的效率 借助数据压缩技术 可在将数据记录到磁带之前大幅度地
减少或删除数据中重复的数据段
然后再记录数据 这样可使有限的存储媒体上能够
存储更多的数据
并可显著提高系统的整体存储效率
采用数据压缩技术 数据流中重复的数据段可以被识别出来 然后由特定的代码字或
符号来代替
使重复出现的相同数据只需使用更少的数据位即可记录下来 这些代码
字或符号的指针指向其原始的数据字符串
这样使用更少的字符即可代表所有这些字
符串
由于较长的数据字符串由这些较小的符号代替 所以可使相同的物理存储空间
存储更多的数据
磁带驱动器应用数据压缩技术后的优点主要包括
• 相同数量的信息使用更短的磁带即可存储下来
• 在给定的磁带长度内可以存储更多的数据
•
磁带驱动器的数据存取性能可以与高传输速率的计算机相媲美
• 在相同的时间间隔内可以传输更多信息
数据压缩考虑因素
高效的数据压缩方案包括以下几个重要因素
•
压缩量
以压缩比率来衡量 此比率是指相同的数据在压缩前的数据量与压缩后
的数据量之比
即将未压缩时的数据大小除以压缩后的数据大小而得出的比率
• 执行数据压缩和解压缩的速度取决于主机的传输速率
• 待压缩数据的类型
•
压缩后数据的完整性
数据流中可以压缩的数据量取决于若干因素
包括数据模式 压缩算法 数据模式重复
长度
数据模式重复频率 对象大小 待压缩的信息块大小 和所选的初始数据模式
数据传输速率取决于几个因素 包括压缩比率 驱动器缓冲区大小 主机计算机的输入
/
输出
(I/O)
速度
主机计算机的有效磁盘存取速度 以及主机计算机的传输记录长度
可以采用不同的特定数据压缩算法
以针对不同的数据类型获得最佳的压缩效果 但
由于在日常操作环境中可能会遇到多种类型的数据
应为磁带驱动器设计一种高效数
据压缩方法
使之能够适应不同类型的数据 此外 所设计的数据压缩方法应适合不
同的数据类型
即针对所有类型的数据能够自动使压缩效果达到最优化