std::mbrtoc16
From cppreference.com
| ヘッダー <cuchar> で定義 |
||
| std::size_t mbrtoc16( char16_t* pc16, const char* s, |
(C++11以降) | |
ナローマルチバイト文字をUTF-16文字表現に変換します。
もし s がヌルポインタでない場合、マルチバイト文字文字列の最大 n バイトを調べます。この調査は、s が指すバイトから開始し、次のマルチバイト文字を完了するために必要なバイト数(シフトシーケンスを含む)を決定します。関数が、s 中の次のマルチバイト文字が完全で有効であると判断した場合、それを対応する16ビット文字に変換し、*pc16(pc16 がヌルでない場合)に格納します。
もし *s のマルチバイト文字がマルチ char16_t シーケンス(例:UTF-16におけるサロゲートペア)に対応する場合、この関数の最初の呼び出しの後、*ps は更新され、次の mbrtoc16 の呼び出しでは、*s を考慮せずに、追加の char16_t が書き出されます。
もし s がヌルポインタである場合、n および pc16 の値は無視され、呼び出しは std::mbrtoc16(nullptr, "", 1, ps) と同等になります。
生成されたワイド文字がヌル文字である場合、変換状態 *ps は初期シフト状態を表します。
この関数が使用するマルチバイトエンコーディングは、現在アクティブなCロケールによって指定されます。
目次 |
[編集] パラメータ
| pc16 | - | 結果の16ビット文字が書き込まれる場所へのポインタ |
| s | - | 入力として使用されるマルチバイト文字列へのポインタ |
| n | - | 検査できるs内のバイト数の制限 |
| ps | - | マルチバイト文字列を解釈する際に使用される変換状態オブジェクトへのポインタ |
[編集] 戻り値
以下が適用される場合、最初のもの
- 0 s から変換された文字(およびヌルでない場合は *pc16 に格納された文字)がヌル文字であった場合。
- sから正常に変換されたマルチバイト文字のバイト数[1...n]。
- -3 マルチ char16_t 文字(例:サロゲートペア)からの次の char16_t が *pc16 に書き込まれた場合。この場合、入力からはバイトは処理されません。
- -2 次の n バイトが、不完全だが今のところ有効なマルチバイト文字を構成する場合。 *pc16 には何も書き込まれません。
- -1 エンコーディングエラーが発生した場合。 *pc16 には何も書き込まれず、値 EILSEQ が errno に格納され、*ps の値は未指定です。
[編集] 例
このコードを実行
#include <clocale> #include <cstring> #include <cuchar> #include <cwchar> #include <iomanip> #include <iostream> int main() { std::setlocale(LC_ALL, "en_US.utf8"); std::string str = "z\u00df\u6c34\U0001F34C"; // or u8"zß水🍌" std::cout << "Processing " << str.size() << " bytes: [ " << std::showbase; for (unsigned char c: str) std::cout << std::hex << +c << ' '; std::cout << "]\n"; std::mbstate_t state{}; // zero-initialized to initial state char16_t c16; const char* ptr = &str[0], *end = &str[0] + str.size(); while (std::size_t rc = std::mbrtoc16(&c16, ptr, end - ptr + 1, &state)) { std::cout << "Next UTF-16 char: " << std::hex << static_cast<int>(c16) << " obtained from "; if (rc == (std::size_t)-3) std::cout << "earlier surrogate pair\n"; else if (rc == (std::size_t) - 2) break; else if (rc == (std::size_t) - 1) break; else { std::cout << std::dec << rc << " bytes [ "; for (std::size_t n = 0; n < rc; ++n) std::cout << std::hex << +static_cast<unsigned char>(ptr[n]) << ' '; std::cout << "]\n"; ptr += rc; } } }
出力
Processing 10 bytes: [ 0x7a 0xc3 0x9f 0xe6 0xb0 0xb4 0xf0 0x9f 0x8d 0x8c ] Next UTF-16 char: 0x7a obtained from 1 bytes [ 0x7a ] Next UTF-16 char: 0xdf obtained from 2 bytes [ 0xc3 0x9f ] Next UTF-16 char: 0x6c34 obtained from 3 bytes [ 0xe6 0xb0 0xb4 ] Next UTF-16 char: 0xd83c obtained from 4 bytes [ 0xf0 0x9f 0x8d 0x8c ] Next UTF-16 char: 0xdf4c obtained from earlier surrogate pair
[編集] 関連
| (C++11) |
UTF-16文字をナローマルチバイトエンコーディングに変換する (関数) |
| (C++20) |
ナローマルチバイト文字をUTF-8エンコーディングに変換する (関数) |
| [virtual] |
ファイルからの読み込み時など、ExternT から InternT への文字列を変換します。( std::codecvt<InternT,ExternT,StateT> の virtual protected メンバ関数) |
| Cドキュメント for mbrtoc16
| |