以下にあげるものは、Array#pack、String#unpack のテンプレート文字の一覧です。テンプレート文字は後に「長さ」を表す数字 を続けることができます。「長さ」の代わりに`*'とすることで「残り全て」 を表すこともできます。
長さの意味はテンプレート文字により異なりますが大抵、
"iiii"
のように連続するテンプレート文字は
"i4"
と書き換えることができます。
下記の説明の中で short や long はシステムによらずそれぞれ 2, 4バイトサ イズの数値(32ビットマシンで一般的なshort, longのサイズ)を意味していま す。`s', `S', `l', `L' に対しては直後に `_'または`!'を("s!"のように) 続けることでシステム依存のshort, long のサイズにすることもできます。 *1
`i', `I' (int)のサイズは常にシステム依存であり、`n', `N', `v', `V' のサイズは常にシステム依存ではない(`!'をつけられない)ことに注意してください。
テンプレート文字列中の空白類は無視されます。 ruby 1.7 feature: また、`#' から改行あるいはテンプレート文字列の最後まではコメントとみな され無視されます。
説明中、Array#packとString#unpackで違いのあるものは/で区切って 「Array#packの説明/String#unpackの説明」としています。
a
ASCII文字列(null文字を詰める/後続するnull文字やスペースを残す)
A
ASCII文字列(スペースを詰める/後続するnull文字やスペースを削除)
Z
null終端文字列(a
と同じ / 後続するnull文字を削除)
b
ビットストリング(下位ビットから上位ビット)
B
ビットストリング(上位ビットから下位ビット)
h
16進文字列(下位ニブルが先)
H
16進文字列(上位ニブルが先)
c
char
C
unsigned char
s
short
S
unsigned short
i
int
I
unsigned int
l
long
L
unsigned long
q
ruby 1.7 feature: long long (64 bit 符号付き整数)
Q
ruby 1.7 feature: unsigned long long (64 bit 符号なし整数)
m
base64された文字列。60 オクテットごと(と最後)に改行コードが付加されます。
Base64は、3オクテット(8bits * 3 = 24bits)のバイナリコードをASCII文字の うちの65文字 ([A-Za-z0-9+/]の64文字とpaddingのための'=')だけを使用して 4オクテット(6bits * 4 = 24bits)の印字可能文字列に変換するエンコーディ ング法です。RFC2045で定義されています。
M
quoted-printable encoding された文字列
n
ネットワークバイトオーダー(ビッグエンディアン)のunsigned short
N
ネットワークバイトオーダー(ビッグエンディアン)のunsigned long
v
"VAX"バイトオーダー(リトルエンディアン)のunsigned short
V
"VAX"バイトオーダー(リトルエンディアン)のunsigned long
f
単精度浮動小数点数(機種依存)
d
倍精度浮動小数点数(機種依存)
e
リトルエンディアンの単精度浮動小数点数(機種依存)
E
リトルエンディアンの倍精度浮動小数点数(機種依存)
g
ビッグエンディアンの単精度浮動小数点数(機種依存)
G
ビッグエンディアンの倍精度浮動小数点数(機種依存)
p
ナル終端の文字列へのポインタ
P
構造体(固定長文字列)へのポインタ
u
uuencodeされた文字列
U
utf-8
w
BER圧縮整数
1バイトあたり7ビットを使用して必要最小限のバイト数で任意サイズの 0以上の整数を表す数値表現。各バイトの最上位ビットはデータの最後 を除いて必ず1が立っている(つまり最上位ビットはどこまでデータがあ るかを示している)。
BER は Basic Encoding Rules の略(BER自体 は整数のエンコーディングだ けを表すわけではない。ASN.1 のエンコーディングで使用される)
x
ナルバイト/1バイト読み飛ばす
X
1バイト後退
@
絶対位置への移動
以下、pack/unpack の使用例の一部です。
pack を使用しなくても同じことができる場合はその例も載せています。 pack は暗号になりやすい面があることを考慮し、pack を使いたくない人 に別解を示すためです。
数値(文字コード)の配列を文字列に変換する例
p [82, 117, 98, 121].pack("cccc") => "Ruby" p [82, 117, 98, 121].pack("c4") => "Ruby" p [82, 117, 98, 121].pack("c*") => "Ruby" s = "" [82, 117, 98, 121].each {|c| s << c} p s => "Ruby" p [82, 117, 98, 121].collect {|c| sprintf "%c", c}.join => "Ruby" p [82, 117, 98, 121].inject("") {|s, c| s << c} => "Ruby"
文字列を数値(文字コード)の配列に変換する例
p "Ruby".unpack('C*') => [82, 117, 98, 121] a = [] "Ruby".each_byte {|c| a << c} p a => [82, 117, 98, 121]
"x" でナルバイトを埋めることができる
p [82, 117, 98, 121].pack("ccxxcc") => "Ru\000\000by"
"x" で文字を読み飛ばす事が出来る
p "Ru\0\0by".unpack('ccxxcc') => [82, 117, 98, 121]
Hexダンプを数値の配列に変換する例
p "61 62 63 64 65 66".delete(' ').to_a.pack('H*').unpack('C*') => [97, 98, 99, 100, 101, 102] p "61 62 63 64 65 66".split.collect {|c| c.hex} => [97, 98, 99, 100, 101, 102]
バイナリと16進数のpackでは長さ指定は生成されるバイト数ではなく、 ビットやニブルの個数を表す
p [0b01010010, 0b01110101, 0b01100010, 0b01111001].pack("C4") => "Ruby" p ["01010010011101010110001001111001"].pack("B32") # 8 bits * 4 => "Ruby" p [0x52, 0x75, 0x62, 0x79].pack("C4") => "Ruby" p ["52756279"].pack("H8") # 2 nybbles * 4 => "Ruby"
テンプレート文字'a'の長さ指定は1つの文字列だけに適用される
p ["RUBY", "u", "b", "y"].pack("a4") => "RUBY" p ["RUBY", "u", "b", "y"].pack("aaaa") => "Ruby" p ["RUBY", "u", "b", "y"].pack("a*aaa") => "RUBYuby"
テンプレート文字"a"は、長さが足りない分をヌル文字で補う
p ["Ruby"].pack("a8") => "Ruby\000\000\000\000"
リトルエンディアンとビッグエンディアン
p [1,2].pack("s2") => "\000\001\000\002" # ビッグエンディアンのシステムでの出力 => "\001\000\002\000" # リトルエンディアンのシステムでの出力 p [1,2].pack("n2") => "\000\001\000\002" # システムによらずビッグエンディアン p [1,2].pack("v2") => "\001\000\002\000" # システムによらずリトルエンディアン
ネットワークバイトオーダの signed long
s = "\xff\xff\xff\xfe" n = s.unpack("N")[0] if n[31] == 1 n = -((n ^ 0xffff_ffff) + 1) end p n => -2
ネットワークバイトオーダの signed long(その2)
s = "\xff\xff\xff\xfe" p n = s.unpack("N").pack("l").unpack("l")[0] => -2
IPアドレス
require 'socket' p Socket.gethostbyname("localhost")[3].unpack("C4").join(".") => "127.0.0.1" p "127.0.0.1".split(".").collect {|c| c.to_i}.pack("C4") => "\177\000\000\001"
sockaddr_in 構造体
require 'socket' p [Socket::AF_INET, Socket.getservbyname('echo'), 127, 0, 0, 1].pack("s n C4 x8") => "\002\000\000\a\177\000\000\001\000\000\000\000\000\000\000\000"
ruby 1.7 feature: pack/unpack を使う代わりに Socket.pack_sockaddr_in, Socket.unpack_sockaddr_in メソッドがあります。
'\0'終端文字列のアドレス
テンプレート文字 "p" や "P" は、C 言語レベルのインタフェースのた めにあります(例えば ioctl)。
p ["foo"].pack("p") => "8\266\021\010"
結果の文字列はゴミに見えますが、実際は文字列"foo\0"を指すアドレ ス(のバイナリ表現)です。以下のようにすれば見慣れた表記で見ること が出来ます
printf "%#010x\n", "8\266\021\010".unpack("L")[0] => 0x0811b638
アドレスが指す先のオブジェクト(この例で "foo\0") は、pack の結 果が GC されるまではGCされないことが保証されています。
unpack("p"), unpack("P") は、pack の結果からしか unpack できません。
p ["foo"].pack("p").unpack("p") => ["foo"] p "8\266\021\010".unpack("p") => -:1:in `unpack': no associated pointer (ArgumentError) from -:1
ruby 1.7 feature: "p" や "P" は、nil を特別に扱い NULL ポインタとして解釈します。(以下は、32bitマシンで一般的な結果)
p [nil].pack("p") #=> "\000\000\000\000" p "\0\0\0\0".unpack("p") #=> [nil]
構造体のアドレス
例えば、
struct { int a; short b; long c; } v = {1,2,3};
を表す文字列は
v = [1,2,3].pack("i!s!l!")
です。(byte alignment の問題から実際は適当な padding が必要に なるかもしれません)
この構造体を指すアドレスは
p [v].pack("P") => "\300\265\021\010"
で得られます。
*1 `_' は、Perl の真似だったようですが、Perl が途中で '!' に変えたため
Ruby ではこれら2つが残ったんだそうです
*2あらい: 2001-04-22 もっとちゃんと調べてから書こう。上記は信用
しないように:p 誰か代わりにしっかりしたのを書いてくれても良いです
ちなみに ISO 8825 です