Column (No. 14)

[付録] 語彙って何?

 データモデルの議論をしていると「語彙」という言葉が使われる事があります。語彙という言葉は色々な意味で使われている様で、語彙という言葉を聞くとちょっと困難しながら意味を考えて解釈する必要があります。ここでは、語彙とは何かについてちょっと調べてみましょう。最初に結論を言ってしまうと、語彙という言葉はバラバラな意味で使われてしまっているという事ではありますが。。。

■日本語辞書の語彙

 国語辞典を調べると、ある範囲で用いられる語の集まりという説明があります。確かに、「彼は語彙が豊富だ」「その単語は江戸時代の語彙ではこういう意味だ」などという場合があるので、なんとなく納得できます。では、コンピューターの世界での語彙とは何でしょうか。

■IMIの共通語彙基盤

 政府の解釈として、IMIの共通語彙基盤の定義を見てみましょう。IMIによると、「「語彙」は、一般には「語」(言葉、単語)の集合を意味しますが、共通語彙基盤における「語彙」とは、単にそのような語を集めたものではなく、ファイルやインターネットなどを介して行われるコンピューター間のデータ通信を円滑かつ確実に行うことを目的として、概念の代表的な表記としての一つの語の意味や構造、そのような語によって表される概念と他の概念の関係などを明確にした概念の集合を指して用います」との事です。つまり、語の集まりではなく、個々の語の中身も定義してあるのが語彙という事になります。因みに、語の中身と言うと意味が通じないので、共通語彙基盤では語とは呼ばず、「クラス用語」と呼んでいます。中身とは何かというと含まれる項目の事です。項目と言うのは項目の名前とその名前に対応する言葉や数値を指しますが、共通語彙基盤では項目の名前を「プロパティー用語」と呼んでいます。例えば”期間”という語(クラス用語)には、”開始日時”と””終了日時”という項目名(プロパティー用語)の項目があるという感じです。ちょっと端折って説明しているので、正確ではありませんので、気になる方はIMIの説明をご覧ください。

 因みに、共通データ仕様の「用語」はクラス用語てもプロパティー用語でもありません。項目の名前に対応する言葉を列挙して定義する事で、データの解釈に”揺らぎ”が発生しない様にするものです。例えば、法人の種類を表す場合は”株式会社”や”合同会社”などと表現しても良いが、”㈱”や”(株)”や”(株)”と書いてはダメというルールです。技術用語では列挙体、列挙型、ENUMなどと呼ばれますが、一般にはなじみが薄いので共通データ仕様では用語と呼んでいます。共通語彙基盤では、この意味での「用語」の定義はありません。

■AIの語彙

 近頃AIの活用が活発ですが、文書を解釈したり生成したりする処理でも「語彙」という呼び方をします。この場合の語彙は日本語辞書の説明に近い意味です。但し、文書中に埋め込まれるタグと呼ばれる印や文字なども語彙に含めたりしますので、ちょっと違います。

■ドメイン語彙作成手順書の語彙

 内閣府ではイノベーションの促進を図るべくSIPという活動を行っていますが、 その活動の中でドメイン語彙作成手順書というものが公開されています。この最初の部分で一般的に語彙と言われているものについて書かれているので、見てみましょう。この資料の中には以下の記述があります。

語彙の種類自体には広く一般に受け入れられている分類はないが、以下のような分類が考えられる。
・用語集:用語を集めたもの
・統制語彙:優先語や同義語や上位語などを定めた用語集または概念の集合
・コードリスト:番号等の識別子を付加した統制語彙
・分類体系(タキソノミー):上位下位関係を整合的に定めた統制語彙
・シソーラス:上位下位関係、関連関係などを定めた統制語彙
・オントロジー:概念や概念間の関係を整合的に定義した概念の体系
・概念スキーマ:概念の実例を記述するときに用いる記述の方法。用いる関係と取りうる値の範囲など。

この手順書の筆者の方々は専門家なので、一般的には色々な意味で語彙と言う言葉を使われているので、ちゃんと定義しなおして執筆しているようですね。

 共通データ仕様の用語の考え方はこれらの語彙の内、「統制語彙」の一部だと考えられます。但し、アプリなどでプルダウンメニューとして使う事を意識しているので、本来の統制語彙とは異なり、構造化はされていません。今後、活用局面が増えてくると統制語彙の考え方を取り入れていく必要は出てくるかもしれません。