其他-在python原始文件IO中实现一致的块大小

(其他 - Achieving consistent block sizing in python raw file IO)

发布于 2020-12-02 21:23:27

预先提出问题：

标准库中是否有Python方式可使用for ... in ...语法（即__iter__/ __next__）来解析原始二进制文件，从而产生尊重buffersize参数的块，而无需子类IOBase或其子类？

详细说明

我想使用该for ... in ...语法打开一个原始文件进行解析，并且希望该语法生成可预测形状的对象。对于正在解决的问题，这没有按预期发生，所以我尝试了以下测试（import numpy as np必需）：

In [271]: with open('tinytest.dat', 'wb') as f:
     ...:     f.write(np.random.randint(0, 256, 16384, dtype=np.uint8).tobytes())
     ...:

In [272]: np.array([len(b) for b in open('tinytest.dat', 'rb', 16)])
Out[272]:
array([  13,  138,  196,  263,  719,   98,  476,    3,  266,   63,   51,
    241,  472,   75,  120,  137,   14,  342,  148,  399,  366,  360,
     41,    9,  141,  282,    7,  159,  341,  355,  470,  427,  214,
     42, 1095,   84,  284,  366,  117,  187,  188,   54,  611,  246,
    743,  194,   11,   38,  196, 1368,    4,   21,  442,  169,   22,
    207,  226,  227,  193,  677,  174,  110,  273,   52,  357])

我不明白为什么会出现这种随机行为，以及为什么它不尊重buffersize论点。使用read1给出了预期的字节数：

In [273]: with open('tinytest.dat', 'rb', 16) as f:
     ...:     b = f.read1()
     ...:     print(len(b))
     ...:     print(b)
     ...:
16
b'M\xfb\xea\xc0X\xd4U%3\xad\xc9u\n\x0f8}'

就是这样：在第一个程序段的末尾有一个换行符。

In [274]: with open('tinytest.dat', 'rb', 2048) as f:
     ...:     print(f.readline())
     ...:
b'M\xfb\xea\xc0X\xd4U%3\xad\xc9u\n'

果然，readline被调用来生成文件的每个块，并且它在换行值（对应于10）上跳闸。我通过IOBase定义中的代码行验证了这一阅读：

571    def __next__(self):
572    line = self.readline()
573    if not line:
574        raise StopIteration
575    return line

所以我的问题是：是否还有其他buffersizepythonic方式来实现-尊重允许for ... in ...语法的原始文件行为，而无需子类IOBase或其子类（因此，不属于标准库）？如果不是，这种意外行为是否需要进行PEP？（或者是否值得学习期待这种行为？：）

Questioner

K. Nielson

Viewed

Original

English

>>> from functools import partial >>> def iter_blocks(f, n): ... return iter(partial(f.read, n), b'') ... >>> np.array([len(b) for b in iter_blocks(open('tinytest.dat', 'rb'), 16)]) array([16, 16, 16, ..., 16, 16, 16])

其他-在python原始文件IO中实现一致的块大小

(其他 - Achieving consistent block sizing in python raw file IO)

预先提出问题：

详细说明

热门帖子

热门github