文字 – PPP共通データ仕様協議会　共通データ仕様公開サイト

文字セット

2023-04-01

　文字セットとは、どの様な文字を使って良いかの規格です。つまり、ひらがなを使って良いのか、漢字はどうなのか。漢字の使用が許されるとすると、日本にある6万字の漢字の内、どこまで使って良いかの約束事です。
　本協議会では、文字セットはUNICODEを使用します。スマートシティのデータ交換の標準となる文字セットはUNICODEです。Windows等の文字セットはUNICODEではありませんが、多くのアプリはUNICODEに対応済みです。NGSI V2はUNICODEが前提です。日本語は、JIS X 0213により文字集合が決められていますが、2002年にUNICODE3.2で吸収されています。GIFの規定では、JIS X 0213の文字集合を使う規定となっていますが、UNICODEを使う事で、GIFの規定にも準拠可能です。

符号化方式

2023-04-01

　UNICODEは前項の文字セットだけでなく、符号化方式も定めています。幾つか種類がありますが、UTF-8を採用します。NGSI V2もUTF-8を前提としています。GIFではUTF-8は明記されていませんが、GIF以外の文書ですが、UTF-8とすべきとの記載があります。また、政府のWebページも確認した限りではUTF-8に統一されています。
　尚、BOMは付加しません。

呼出しインタフェース

2023-04-01

　NGSI V2では呼出しインタフェースとしてWebAPIを採用しています。本規約はデータ仕様に関する規格ではありませんが、データ仕様に対し以下の点で影響があります。

禁則文字(禁止文字): Attribute名などの識別子と呼ばれる名称は、URLのパラメータに表記される可能性があります。従って、使って良い文字が制約されます。エスケープ文字と呼ばれる文字を置き換える方方法や、URLエンコードと呼ばれる方法で回避することは可能ですが、使用しないに越したことはありません。詳細は識別子の項で詳述します。