名前空間
変種
操作

std::mbrtoc32

From cppreference.com
< cpp‎ | string‎ | multibyte
 
 
 
 
ヘッダー <cuchar> で定義
std::size_t mbrtoc32( char32_t* pc32,

                      const char* s,
                      std::size_t n,

                      std::mbstate_t* ps );
(C++11以降)

マルチバイト文字をUTF-32文字表現に変換します。

sがヌルポインタでない場合、マルチバイト文字文字列sの先頭から最大nバイトを調べて、次のマルチバイト文字を完成させるために必要なバイト数(シフトシーケンスを含む)を決定します。関数が、s内の次のマルチバイト文字が完全で有効であると判断した場合、それを対応する32ビット文字に変換し、pc32pc32がヌルでない場合)に格納します。

*s内のマルチバイト文字がマルチchar32_tシーケンスに対応する場合(UTF-32では起こりえない)、この関数の最初の呼び出し後、*psは次のように更新され、後続のmbrtoc32の呼び出しでは*sを考慮せずに、追加のchar32_tを書き出します。

sがヌルポインタの場合、npc32の値は無視され、呼び出しはstd::mbrtoc32(nullptr, "", 1, ps)と同等になります。

生成されるワイド文字がヌル文字の場合、変換状態*psは初期シフト状態を表します。

この関数が使用するマルチバイトエンコーディングは、現在アクティブなCロケールによって指定されます。

目次

[編集] パラメータ

pc32 - 結果の32ビット文字が書き込まれる場所へのポインタ
s - 入力として使用されるマルチバイト文字列へのポインタ
n - 検査できるs内のバイト数の制限
ps - マルチバイト文字列を解釈する際に使用される変換状態オブジェクトへのポインタ

[編集] 戻り値

以下が適用される場合、最初のもの

  • 0 sから変換された文字(非ヌルの場合*pc32に格納)がヌル文字だった場合。
  • sから正常に変換されたマルチバイト文字のバイト数[1...n]
  • -3 マルチchar32_t文字の次のchar32_t*pc32に書き込まれた場合。この場合、入力からのバイトは処理されません。
  • -2 次のnバイトが、これまでのところ有効な、不完全なマルチバイト文字を構成する場合。*pc32には何も書き込まれません。
  • -1 エンコーディングエラーが発生した場合。*pc32には何も書き込まれず、値EILSEQerrnoに格納され、*psの値は未指定です。

[編集]

#include <cassert>
#include <clocale>
#include <cstring>
#include <cuchar>
#include <cwchar>
#include <iomanip>
#include <iostream>
 
int main()
{
    std::setlocale(LC_ALL, "en_US.utf8");
 
    std::string str = "z\u00df\u6c34\U0001F34C"; // or u8"zß水🍌"
 
    std::cout << "Processing " << str.size() << " bytes: [ " << std::showbase;
    for (unsigned char c : str)
        std::cout << std::hex << +c << ' ';
    std::cout << "]\n";
 
    std::mbstate_t state{}; // zero-initialized to initial state
    char32_t c32;
    const char* ptr = str.c_str(), *end = str.c_str() + str.size() + 1;
 
    while (std::size_t rc = std::mbrtoc32(&c32, ptr, end - ptr, &state))
    {
        std::cout << "Next UTF-32 char: " << std::hex
                  << static_cast<int>(c32) << " obtained from ";
        assert(rc != (std::size_t) - 3); // no surrogates in UTF-32
        if (rc == (std::size_t) - 1)
            break;
        if (rc == (std::size_t) - 2)
            break;
        std::cout << std::dec << rc << " bytes [ ";
        for (std::size_t n = 0; n < rc; ++n)
            std::cout << std::hex << +static_cast<unsigned char>(ptr[n]) << ' ';
        std::cout << "]\n";
        ptr += rc;
    }
}

出力

Processing 10 bytes: [ 0x7a 0xc3 0x9f 0xe6 0xb0 0xb4 0xf0 0x9f 0x8d 0x8c ]
Next UTF-32 char: 0x7a obtained from 1 bytes [ 0x7a ]
Next UTF-32 char: 0xdf obtained from 2 bytes [ 0xc3 0x9f ]
Next UTF-32 char: 0x6c34 obtained from 3 bytes [ 0xe6 0xb0 0xb4 ]
Next UTF-32 char: 0x1f34c obtained from 4 bytes [ 0xf0 0x9f 0x8d 0x8c ]

[編集] 関連項目

(C++11)
UTF-32文字をナローマルチバイトエンコーディングに変換する
(関数) [編集]
[virtual]
ファイルからの読み込み時など、ExternT から InternT への文字列を変換します。
(std::codecvt<InternT,ExternT,StateT> の virtual protected メンバ関数) [編集]
English 日本語 中文(简体) 中文(繁體)