python数据处理模块_python中struct模块之字节型数据的处理方法
发布日期:2021-11-19 18:35:40 浏览次数:5 分类:技术文章

本文共 5357 字,大约阅读时间需要 17 分钟。

简介

这个模块处理python中常见类型数据和Python bytes之间转换。这可用于处理存储在文件或网络连接中的bytes数据以及其他来源。在python中没有专门处理字节的数据类型,建立字节型数据也比较麻烦,我们知道的bytes()函数也只能对无符号整型做处理,并且数据如下(没错,数字为多少就有多少个\x00,我们要是用这种方式来存储大量数据,结果可想而知):

va = bytes(1) # va: '\x00'

vb = bytes(2) # vb: '\x00\x00'

vc = bytes(5) # vc: '\x00\x00\x00\x00\x00'

但在python中str类型中既可以用字符串表示也可以以字节方式表示,所以你定义一个字节型的字符串常量,python是能处理它的:

va = '\x26' # va: '&'

struct处理

字节顺序

一个数据有多个字节表示的时候,字节的顺序不同也就决定了值,在struct中有以下几种字节顺序:

字符

字节顺序

尺寸

对齐方式

@

本机

本机

本机

=

本机

标准

<

小端

标准

>

大端

标准

网络

标准

对于字节顺序,只有大端和小端两种方式,只是比如你用@和=代表你用本机的字节顺序,!代表你使用网络的字节顺序。你不指定字节顺序则默认的是@。

本地字节顺序是大端或小端,取决于主机系统。例如,Intel x86和AMD64(x86-64)是小端的; 摩托罗拉68000和PowerPC G5是大端; ARM和Intel Itanium具有可切换的字节序(双字节序)。使用sys.byteorder来检查你的系统的字节顺序。

数据格式

struct支持的打包解包的数据格式如下,我们需要指定格式才能对应处理,其中对应尺寸已列出(以字节为单位):

字符

C类型

python类型

标准尺寸

x

填充字节

没有意义的值

c

char

长度为1的字节

1

b

signed char

整型

1

B

unsigned char

整型

1

_Bool

布尔

1

h

short

整型

2

H

unsigned short

整型

2

i

int

整型

4

I

unsigned int

整型

4

l

long

整型

4

L

unsigned long

整型

4

q

long long

整型

8

Q

unsigned long long

整型

8

n

ssize_t

整型

N

size_t

整型

e

浮动

2

f

float

浮动

4

d

double

浮动

8

s

char[]

字节

p

char[]

字节

P

void *

整型

打包

通过struct的pack(fmt, *args)来实现对各种数据的打包(转换为对应字节数据),pack的需要传递的参数fmt就是数据的格式,包括了字节顺序、数据类型;后面的*args参数是需要打包的数据。

vaa = struct.pack('>I', 1255) # vaa: '\x00\x00\x04\xe7' 1*4=1个字节 vab = struct.pack('>II', 1255, 23) # vab: '\x00\x00\x04\xe7\x00\x00\x00\x17' 2*4=8个字节 vac = struct.pack('>2I?', 1255, 23, True) # vac: '\x00\x00\x04\xe7\x00\x00\x00\x17\x01' 2*4+1=9个字节

我们看上述三个使用例子(数据与数据之间没有填充,都是连续的,比如对于vac我们不知道 它是由两个4字节无符号整型和一个布尔构成,我们就无法取得正确的值),看fmt参数:

‘>I'代表了以大端的字节顺序打包一个4字节无符号整型数据,所以后面只跟了一个无符号整型参数1255;

‘>II'代表了以大端的字节顺序打包两个4字节无符号整型数据,所以后面跟了两个个无符号整型参数1255和23;

‘>2I?'代表了以大端的字节顺序打包两个4字节无符号整型和一个布尔型数据,所以后面跟了两个个无符号整型参数1255、23和一个布尔值True。

注意'2I'和'II','4I'和'IIII','2?'和'??'是一样的效果。

解包

通过struct的unpack(fmt, string)来实现对字符串的解包,fmt和打包的是完全一样的,如下(返回的结果是一个元组):

vaa = struct.pack('>I', 1255) # vaa: '\x00\x00\x04\xe7'

vab = struct.pack('>II', 1255, 23) # vab: '\x00\x00\x04\xe7\x00\x00\x00\x17'

vaaa = struct.unpack('>I', vaa) # vaaa: : (1255, )

vaba = struct.unpack('>II', vab) # vaba: : (1255, 23)

进阶使用

pack_into(fmt, buffer, offset, *args)

fmt参数和pack是一样的,buffer参数是可写的缓存区,offset是写入位置的偏移量,*args是需要写入的数据。这个有什么用呢,我们想想这样两个情况,我们有两个类型已经打包好,我们想在这两个已经打包好的数据后面再添加一个数据打包;或者我们要打包的数据很多,我们不可能在pack中把所有需要打包的数据都通过参数传递给pack,那你的pack函数可能得写成千上完个参数了。这时候我们就可以用到这个函数了。

要使用它必须要一个可以写入的缓存区,我们可以导入一个字符缓存区包,然后创建一个固定大小的缓存区(以字节为单位):

import struct

from ctypes import create_string_buffer

# 创建一个9字节大小的缓存区,初始化默认全部为\x00

buf = create_string_buffer(9) # buf.raw: '\x00\x00\x00\x00\x00\x00\x00\x00\x00'

# 冲缓存区buf的第0个字节开始打包两个4字节无符号整型数据1和2

struct.pack_into(">II", buf, 0, 1, 2) # buf.raw: '\x00\x00\x00\x01\x00\x00\x00\x02\x00'

# 然后我们想再打包一个布尔型数据到buf中就可以改变以下偏移量

struct.pack_into(">?", buf, 8, True) # buf.raw: '\x00\x00\x00\x01\x00\x00\x00\x02\x01'

unpack_from(fmt, buffer, offset)和calcsize(fmt)结合解包数据

calcsize用于计算格式字符串所对应的结果的长度,如:struct.calcsize(‘II'),返回8。因为两个无符号整型所占用的长度是8个字节。unpack_from(fmt, buffer, offset)用于从buffer缓存区中使用fmt格式从offset偏移量处开始解包fmt里对应数量的数据。

import struct

from ctypes import create_string_buffer

buf = create_string_buffer(9)

struct.pack_into(">II", buf, 0, 1, 2)

struct.pack_into(">?", buf, 8, True)

# 记录位置

pos = 0

# 从buf缓存区中以大端方式从偏移位置pos处解包两个无符号整型数据返回,注意

#返回值如果只写一个则返回一个元组,否则你解包几个数据就要写几个返回值。

val = struct.unpack_from('>II', buf, pos) # val: : (1, 2)

val_a, val_b = struct.unpack_from('>II', buf, pos) # val_a: 1 val_b: 2

# 重置解包位置

pos += struct.calcsize('>II') # pos: 8

val_c, = struct.unpack_from('>?', buf, pos) # val_c: True

示例

这个示例是基于mnist手写数字识别的,我们刚开始有60000张手写数字的图片(.bmp格式的),我们通过下述代码将60000张图片转换成字节型数据,bytes.py代码如下:

import struct

import os

import numpy as np

from ctypes import create_string_buffer

import cv2

# 创建一个60000 * 784 * 1 + 3 * 4字节大小的缓存区,初始化默认全部为\x00

buffer = create_string_buffer(60000 * 784 * 1 + 3 * 4)

def writeBytesData():

index = 0

BMP_NUM = 0

BMP_WIDTH = 28

BMP_HEIGHT = 28

# 先保留三个无符号整型的缓存区

index += struct.calcsize('>III')

path = 'data/bmp'

if not os.path.exists(path):

print('No this dir!')

return

list = os.listdir(path)

for line_bmp in list:

bmp_path = os.path.join(path, line_bmp)

if os.path.isdir(bmp_path):

print('This is not a .bmp')

else:

BMP_NUM += 1

print(BMP_NUM)

buf = cv2.imread(bmp_path, cv2.IMREAD_GRAYSCALE)

buf = np.reshape(buf, [784])

for pos in range(buf.__len__()):

struct.pack_into('>B', buffer, index, buf[pos])

index += struct.calcsize('>B')

# 将保留缓存区的内容填上

struct.pack_into('>III', buffer, 0, BMP_NUM, BMP_WIDTH, BMP_HEIGHT)

with open('data/bytes/bytes.bytes', 'wb') as fp:

fp.write(buffer)

def readFromBytes():

index = 0

images = []

with open('data/bytes/bytes.bytes', 'rb') as fp:

buffer = fp.read()

# 解包前三个无符号整型

bmp_num, bmp_width, bmp_height = struct.unpack_from('>III', buffer, index)

# 重定位偏移量

index += struct.calcsize('>III')

for pos in range(bmp_num):

img = struct.unpack_from('>784B', buffer, index)

index += struct.calcsize('>784B')

# 修改为原来的图片形状

img = np.array(img, dtype=np.uint8)

img = np.reshape(img, [bmp_height, bmp_width])

# 显示图片

cv2.imshow('bmp', img)

# 按任意键继续

cv2.waitKey(0)

images.append(img)

return images

writeBytesData()

readFromBytes()

在写入bytes文件的时候有点慢,由于有60000张图片每张要写28 * 28个字节,其中目录结构如下,需要图片的可以去我的下载区下载mnist图片数据集:

bytes.py

data

bmp

1.bmp

2.bmp

...

60000.bmp

bytes

以上这篇python中struct模块之字节型数据的处理方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们。

本文标题: python中struct模块之字节型数据的处理方法

本文地址: http://www.cppcns.com/jiaoben/python/270297.html

转载地址:https://blog.csdn.net/weixin_39927214/article/details/110146491 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:python partition函数_python – rdd.repartition()和sc.parallelize(数据,分区)中的分区大小有什么区别...
下一篇:python exit 0_求助python大神,显示Process finished with exit code 0.

发表评论

最新留言

路过,博主的博客真漂亮。。
[***.116.15.85]2024年04月01日 20时00分23秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章

Java Web 网络商城案例演示十四(设计订单表) 2019-04-26
Java Web 网络商城案例演示十五 订单详情功能(提交订单支付界面) 2019-04-26
Java Web 网络商城案例演示十六 订单详情功能(支付功能的实现使用易付宝) 2019-04-26
Java Web 网络商城案例演示十七 权限过滤器 2019-04-26
Java Web 网络商城案例演示十八 关于HTML frameset 框架的使用 和dtree组件 2019-04-26
Java Web上传数据图片文件 2019-04-26
Java Web 网络商城案例演示二十一 利用工厂模式解耦(适用于不同数据库的配置) 2019-04-26
Java Web 网络商城案例演示二十二 管理员查询订单 2019-04-26
Java Web 网络商城案例演示二十三 管理员界面异步显示订单详情 修改订单状态 2019-04-26
Hibernate框架介绍以及入门 【一】Hibernate 快速入门 框架的概述 什么是 Hibernate Hibernate 持久层的ORM框架 下载Hibernate 官网 编写测试代码 2019-04-26
10分钟入门Hibernate的一级缓存 2019-04-26
10分钟解决Hibernate的事务管理,Hibernate当中要设置事务的隔离级别 2019-04-26
Hibernate一对多的关联映射,详解(代码+图解)与应用 举个栗子,搞的清楚 2019-04-26
一张图快速理解入门递归函数(Java版) 2019-04-26
C语言算法 求最大公约数(辗转相除法) 2019-04-26
掌握C语言判断素数(质数)相关内容 2019-04-26
小米多看电纸书 安装悬浮球 安装桌面 安装微信阅读 小米多看电纸书悬浮球 2019-04-26
Java Web 判断访问的客户端是手机还是电脑(区分安卓,iPhone,pc) 2019-04-26
Hibernate多对多的关系映射,详解(代码+图解)与应用 举个栗子,搞的清楚 2019-04-26
Hibernate的查询方式(大全)(检索方式)OID查询+ HQL检索 +QBC检索+SQL检索 2019-04-26