「𩸽」(ほっけ) という文字はUTF-8で4バイトになる

漢字では、𩸽(魚へんに花、「𩸽」Unicode: U+29E3D, JIS X 0213: 2面93区44点)と書く。俗説によれば、鎌倉時代、日蓮宗の日持上人が、蝦夷地を去る礼として、これまでいなかった魚を獲れるようにし、地元の人はその魚を「ホッケ(法華)」と呼び、村落を「トドホッケ(唐渡法華)」と名づけたとなっているが[2]、椴法華村の地名はアイヌ語だというのが通説である。

「𩸽」は、文字コード規格においてはJIS X 0213:2000およびそれに追随したUnicode 3.1(2000)で追加され、JIS第4水準に分類される。

ホッケ - Wikipedia
この𩸽という字、文字コードとしてはJIS第4水準にあり、面区点番号2-93-44です。Unicodeでは、BMPでなく面02にあり、符号位置U+29E3Dです。

この、JISでは第4水準にあり、Unicodeでは面02にあるというのは、私が文字コードの実装をテストするうえでは大変重宝しています。JIS第4水準というのは、EUCの符号化ではSS3という制御文字の対応が必要であり、SJISでは区点番号からの計算式が第3水準までとは別の式を使わないといけないという特徴があります。きちんと第3・第4水準に対応しているかどうかのテストに使えます。また同時に、UnicodeではBMP外だということは、UTF-16ではサロゲート・ペア、UTF-8では4バイトのUTF-8に対応している必要があるので、これもやはりテストに丁度良い。

ホッケという魚と漢字 - yanok.net
MySQLの5.5.3というバージョンではようやく4バイトのUTF-8への対応が図られたようです。5.5.3の変更点を記したページに記されています。

これを使えば、魚の名前の𩸽(ほっけ、U+29E3D)だとか、偏旁の𧾷(足偏、U+27FB7)だとか、あるいは日本の地名として𣖔木作(ほうのきざく、福島県)の「𣖔」(U+23594)や𣗄代(たらのきだい、山形県)の「𣗄」(U+235C4)などといった、JIS X 0213に含まれる漢字がようやく扱えるようになります。一部の人が希望しているであろうIVSや(今後のバージョンのUnicodeに入る予定の)携帯絵文字に対応するにも4バイトのUTF-8は必要です。

ただし、文字コードの指定として、従来の "utf8" とは別に、"utf8mb4" という名前を持つ別の文字コードとして定義されているようなので注意が必要です。

MySQLの"UTF-8"にご用心 - yanok.net

tags: unicode

Posted by NI-Lab. (@nilab)