std::mbrtoc32

ヘッダー `<cuchar>` で定義
std::size_t mbrtoc32( char32_t* pc32, const char* s, std::size_t n, std::mbstate_t* ps );		(C++11以降)

マルチバイト文字をUTF-32文字表現に変換します。

sがヌルポインタでない場合、マルチバイト文字文字列sの先頭から最大nバイトを調べて、次のマルチバイト文字を完成させるために必要なバイト数（シフトシーケンスを含む）を決定します。関数が、s内の次のマルチバイト文字が完全で有効であると判断した場合、それを対応する32ビット文字に変換し、pc32（pc32がヌルでない場合）に格納します。

*s内のマルチバイト文字がマルチchar32_tシーケンスに対応する場合（UTF-32では起こりえない）、この関数の最初の呼び出し後、*psは次のように更新され、後続のmbrtoc32の呼び出しでは*sを考慮せずに、追加のchar32_tを書き出します。

sがヌルポインタの場合、nとpc32の値は無視され、呼び出しはstd::mbrtoc32(nullptr, "", 1, ps)と同等になります。

生成されるワイド文字がヌル文字の場合、変換状態*psは初期シフト状態を表します。

この関数が使用するマルチバイトエンコーディングは、現在アクティブなCロケールによって指定されます。

pc32	-	結果の32ビット文字が書き込まれる場所へのポインタ
s	-	入力として使用されるマルチバイト文字列へのポインタ
n	-	検査できるs内のバイト数の制限
ps	-	マルチバイト文字列を解釈する際に使用される変換状態オブジェクトへのポインタ

[編集] 戻り値

以下が適用される場合、最初のもの

0 sから変換された文字（非ヌルの場合*pc32に格納）がヌル文字だった場合。
sから正常に変換されたマルチバイト文字のバイト数[1...n]。
-3 マルチchar32_t文字の次のchar32_tが*pc32に書き込まれた場合。この場合、入力からのバイトは処理されません。
-2 次のnバイトが、これまでのところ有効な、不完全なマルチバイト文字を構成する場合。*pc32には何も書き込まれません。
-1 エンコーディングエラーが発生した場合。*pc32には何も書き込まれず、値EILSEQがerrnoに格納され、*psの値は未指定です。

[編集] 例

このコードを実行

#include <cassert>
#include <clocale>
#include <cstring>
#include <cuchar>
#include <cwchar>
#include <iomanip>
#include <iostream>
 
int main()
{
    std::setlocale(LC_ALL, "en_US.utf8");
 
    std::string str = "z\u00df\u6c34\U0001F34C"; // or u8"zß水🍌"
 
    std::cout << "Processing " << str.size() << " bytes: [ " << std::showbase;
    for (unsigned char c : str)
        std::cout << std::hex << +c << ' ';
    std::cout << "]\n";
 
    std::mbstate_t state{}; // zero-initialized to initial state
    char32_t c32;
    const char* ptr = str.c_str(), *end = str.c_str() + str.size() + 1;
 
    while (std::size_t rc = std::mbrtoc32(&c32, ptr, end - ptr, &state))
    {
        std::cout << "Next UTF-32 char: " << std::hex
                  << static_cast<int>(c32) << " obtained from ";
        assert(rc != (std::size_t) - 3); // no surrogates in UTF-32
        if (rc == (std::size_t) - 1)
            break;
        if (rc == (std::size_t) - 2)
            break;
        std::cout << std::dec << rc << " bytes [ ";
        for (std::size_t n = 0; n < rc; ++n)
            std::cout << std::hex << +static_cast<unsigned char>(ptr[n]) << ' ';
        std::cout << "]\n";
        ptr += rc;
    }
}

出力

Processing 10 bytes: [ 0x7a 0xc3 0x9f 0xe6 0xb0 0xb4 0xf0 0x9f 0x8d 0x8c ]
Next UTF-32 char: 0x7a obtained from 1 bytes [ 0x7a ]
Next UTF-32 char: 0xdf obtained from 2 bytes [ 0xc3 0x9f ]
Next UTF-32 char: 0x6c34 obtained from 3 bytes [ 0xe6 0xb0 0xb4 ]
Next UTF-32 char: 0x1f34c obtained from 4 bytes [ 0xf0 0x9f 0x8d 0x8c ]

[編集] 関連項目

c32rtomb (C++11)	UTF-32文字をナローマルチバイトエンコーディングに変換する (関数) [編集]
do_in [virtual]	ファイルからの読み込み時など、`ExternT` から `InternT` への文字列を変換します。 (`std::codecvt<InternT,ExternT,StateT>` の virtual protected メンバ関数) [編集]
C言語のドキュメント `mbrtoc32`

コンパイラサポート
フリースタンディングとホスト
言語
標準ライブラリ
標準ライブラリヘッダー
名前付き要件
機能テストマクロ (C++20)
言語サポートライブラリ
コンセプトライブラリ (C++20)
診断ライブラリ
メモリ管理ライブラリ
メタプログラミングライブラリ (C++11)
汎用ユーティリティライブラリ
コンテナライブラリ
イテレータライブラリ
Rangesライブラリ (C++20)
アルゴリズムライブラリ
文字列ライブラリ
テキスト処理ライブラリ
数値ライブラリ
日付と時刻ライブラリ
入出力ライブラリ
ファイルシステムライブラリ (C++17)
並行サポートライブラリ (C++11)
実行制御ライブラリ (C++26)
Technical specifications (技術仕様)
シンボルインデックス
外部ライブラリ

cppreference.com

名前空間

変種

表示

操作

std::mbrtoc32

目次

[編集] パラメータ

[編集] 戻り値

[編集] 例

[編集] 関連項目

ナビゲーション

ツールボックス