これらの電子テキストをどのような形で扱うにせよ、 必ず問題になってくるのは文字コードの問題である。 一般的な計算機環境では サンスクリット語を表記するのに最も一般的であると思われる デーヴァナーガリー文字、あるいはチベット語を表記するための チベット文字に対応していないため、 これらのテキストを扱うためには、何らかの転写方式を 用いるのが一般的である。しかし現在のところ、 すべてのプロジェクトで共通した転写方式というものが存在して おらず、すべての電子テキストを統一的に扱うのは非常に困難な状況にある。
そこで本稿では、世界じゅうで行なわれている サンスクリット語・チベット語関連の電子テキスト構築プロジェクトにおいて、 どのような転写方式が採用されているかについて総括的に述べたのち、 それぞれの転写方式を統一的に扱うために必要となる、それぞれの 転写方式の自動判別および自動推定についての実験をおこなうこととする。

[図1: サンスクリット語における転写方法の一部]
この転写方式の一部を図 1に示す。
しかし一般的な計算機環境では、 ダイアクリティカルマーク付きのアルファベットを表記することが 困難なため、ダイアクリティカルマーク付きアルファベットに対する 再度の代替表記を行なうことが一般的である。

[表1: サンスクリット語における転写方法の一覧(部分)]
表 1 に、本稿で参照した転写方式の
一覧の一部を示す。非ASCII コードも用いる転写方式については、
非ASCIIコードはそのままでは表記できないため、
その文字コードを 16 進数で表現したものを括弧で囲んだ
(b5) のような表記をおこなう。
このそれぞれの方式について、順に簡単な説明をおこなう。

[表2: KH と TS の特徴]
この両者は {\tax ^n/~n } を表記するために
G/J という文字を用いている点に特徴がある。一方で、
これら両者の相違点は {\tax ^s } の表記の違いしかないため、
この両者を区別することは場合によっては非常に困難である。
ITRANS Avinash Chopde 氏ら[6] による転写方式。 文字の下にピリオドが付く子音を大文字で表記する点は KH,TS とほぼ同じであるが、一部の文字に対して 非常に特徴的な表記をおこなっている。 この特徴的な部分について表 3 に示す。

[表3: ITRANS における表記の特徴]
上村, aiba 上村は東大の上村氏が、また aiba は我々が用いている 転写方式である。 母音を重ねることによって長母音を表記する点、また ダイアクリティカルマーク付きの文字を表記する際に 子音のアルファベットの前にピリオドを置くことがある点で、 両方の転写方法は類似している。 しかし両者のあいだには以下のような方針の相違が見られる。
.r/.l/.t/.d/.n/.s と表記されるが、これ以外の
文字については表4のような相違が見られる。

[表4: 上村とaibaの表記の異なる文字の一覧]
ono 広島大学などで用いられている転写方式だが、
一覧表として参照できたのは小野氏[8] によって書かれたもの
だけであったため、ここでは ono と呼んでいる。
この表記方法の特徴であるが
「ダイアクリティカルマーク付き」であることを示す記号として
@ を用いている点である。

[表6: ISCII の文字配列]
ISCII では子音の接続および a 母音つき子音の扱いが 他の方式および一般的なローマナイズで想定されている規則とは 異なっており、たとえば {\tax a.s.ta } を表記する際に、 表5のようなコード配置となる。

[表5: ISCII におけるコード列]
すなわち子音の後に母音 a が付く場合その母音 a は表記せず、また 母音が後続しない子音には「母音がつかないこと」を示す記号 (ここでは便宜的に \( \triangleright \) として表現した) を 付与する、といった内容になっている。これは デーヴァナーガリー文字に規範を取っているのだが、 逆にローマナイズ表記を規範としている他の転写方式との 混在が難しいという問題がある。
normyn,pali96 normyn は Norman氏[9]が、 pali96 は逢坂・山崎氏ら[10]が配布しているフォント およびデータで用いられている文字コードである。 それぞれ特殊文字を示すため 任意の文字コードを使用しており、両者の判別は非常に困難である。 しかし pali96 は表7に示したように 有気音の子音を一語として表記する特徴があり 「pali96 では有気音の直後に h が付かない」という規則が 設定できる。

[表7: pali96 における有気音のコード割当]
CSX Smith 氏[7] らが用いている転写方式。
TITUS Gippert 氏[11] らによる転写方式。
実験内容 テキストとしては{\tax Bhagavadgiitaa }[2]を使用した。 このテキストを 10 行(約5偈)ごとに区切った 261 データを それぞれの転写方式に変換したものを用意し、それに対して 2.2節で述べたような規則・特徴を判別させる プログラムを用いて自動判別させる実験をおこなった。
結果 表8に結果を示す。

[表8: サンスクリットにおける転写方法判別の結果 (1:規則)]
KH,TS の結果をさらに詳しく見てみると、正解に到達できなかった ものに関しては以下のような傾向があることがわかった。
これらのことから、今回の実験ではデータ判別のために与えたデータは 分量としては5偈(10行)程度のものだったわけであるが、判別プログラムに 与えるデータ量を増やすことにより KH/TS および 上村/aiba の判別が つきやすくなることが予想される。
また機械的な判別に必要なデータ量の平均が 1.4-2.6 行となっているが、 このことから、ほぼ1-2偈程度の情報で自動判別が可能であることがわかる。
そこで、サンスクリット語の言語的特徴を抽出し、その言語的特徴を 利用することによって転写方式の推定をおこなうことにしたい。 ただし ISCII に関しては、実験のための用意が十分にできなかったため、 今回は自動判別実験の対象から外した。
サンスクリット語では、単語列としてはこの例の左側のようになる場合に、 文としては右側のように表記されるという特徴がある。 そこで我々はこの特徴を利用する。![]()
文字連接情報の取得 {\tax Mahaabhaarata } を用いたデータ解析をおこない、 文字の連接に関する情報を採取した。電子データは Smith氏らが公開しているもの[4]を用いた。このデータはもともと 京都大学の徳永氏[3]を中心として構築されたもので あり、データ管理の点でもそちらの方が行き届いていることは確かであるが、 徳永氏らのデータは {\tax ^n/~n/n } を同一化するなどの特殊な配慮がなされているため、 今回の我々の目的には合わないと判断した。
具体的の情報の採取であるが、たとえば以下のような文があったとする。
{\tax dharmak.setre kuruk.setre }この文を以下のように区切る。
{\tax dh a r m a k .s e t r e k u r u k .s e t r e }このような区切りをもとにして「dh と a は接続している」 「a と r は接続している」のようなデータを、転写方法ごとに 採取するという単純な方法をとった。 採取した情報の一部を表9に示す。 この例では、連接の組と書式ごとに、出現回数に基づいた ポイントをつけてある。

[表9: サンスクリット語における接続テーブルの一部]
今回の実験では、このような文字の組合せが 3262 組取得できた。
方法 まず具体的な推定の方法について簡単に説明する。 以下のようなTS 形式の入力があったとする。
kSetreこの文を以下のように区切る。
k S e t r eそして、それぞれの連接部分、たとえば k と S、S と e .. といった 全部の組合せの連接ポイントを書式ごとに合計していく。 表9を用いて k S e 部分の ポイントの計算をしてみると、 k S 部分は KH と TS の両方で 20 点、 S e 部分は KH と TS の両方で 3 点となり、 KH と TS の両方が合計 23 点(他の書式は 0 点)となる。 このようにして、どの書式が最もそれらしいかを数値的に 表現し判断する。
結果 2.3節でおこなった実験と同じ条件での実験を おこなった。推定の内容であるが、ある特定の転写方式における ポイントの合計が、他のすべての転写方式でのポイントの合計よりも 与えられた閾値(具体的には20点)以上大きくなったときに 転写方法の推定が終わる、という簡単なものである。

[表10: サンスクリットにおける転写方法判別の結果 (2:推定)]
こうして行なった実験の結果を表10 に示す。この実験では2.3節で用いた規則による判別は 行なわず、 文字ポイントによる推論のみによる判別をおこなっている。

[表11: サンスクリットにおける転写方法判別の結果 (3:規則・推定)]
2.3節で用いた判別と、 本節で用いた文字ポイントによる推定の両方を組み合わせた方法による 判別実験の結果を表11に示す。 この表から、両方の判別方法を組み合わせることによって 効率・精度の両方に効果があることがわかる。

[図2: チベット語における Das の転写方法の一部]
これらの転写方式うち、Chandra Das が用いている転写方法の 一部を図2に示す。

[表12: チベット文字転写方法の一覧(部分)]
転写方法が異なる箇所を中心にした転写方式の一覧を 表12に示す。 この表にあげられている、それぞれの転写方式およびその特徴について 簡単に述べる。
TS Tokyo Standard 方式の略称。 これはアメリカ議会図書館で用いられている表記を、 サンスクリット語の TS と同じように再転写したものである。
E-Wylie
Wylie 氏ら[13]によって提案された転写方式。
小文字の ng/ny/zh の使いかたが特徴的と思われる。
ACIP
Asian Classics Input Project (ACIP)[14] で用いられている
転写方式。
主に大文字を使用する点に特徴がある。基本的には E-Wylie の書式を
大文字化したものとも見ることができるが、TZ および
TS と
いった転写方法に特徴がある。
aiba
Chandra Das の辞書[12]、また「東北目録」で用いられている表記
を再転写したもので、サンスクリット語の場合と同様に
我々が用いている方式である。
この方式は .h という記号を使うところに特徴がある。
また {\tax ^n/~n } などの表記も独特であるが、
これはサンスクリット語における転写方式と同様に
「ダイアクリティカルマークと比較的類似した記号をアルファベット
の前に置く」という方針を取った結果である。

[表13: チベット語における転写方法判別の結果]
結果 表13に結果を示す。 表12で示した相違箇所が 出現したところで、 ほぼ確実に書式の判別が可能であることがわかる。
また非ASCII コードも用いた転写方式の自動判別についてであるが、 サンスクリット語の言語的特徴を利用することにより、 かなり高精度の判別ができることが明らかとなった。
チベット語の自動判別についてであるが、 現在まで我々が蒐集した転写方式の数がそれほど多くないこともあり、 かなり容易に判別が可能であることが判明した。
今後の課題について述べる。 我々が本稿で取り上げた転写方式以外にも、 まだ多くの変換方式が世間には存在していると考えられる。 それゆえ、今後さらに多くの転写方式を蒐集し、それらの 自動判別に関する調査および実験を行なっていくことが 我々にとっての最大の課題である。
また我々が今回おこなった転写方式の判別実験の成果を取り入れた ソフトウェアの開発および配布についても今後検討していくことには 意義があると考えている。
kd0095e.inc in ACIP release 2.