サンスクリット・チベット語の電子テキストの転写について
On the Transliteration of E-Texts in Sanskrit and Tibetan

(version Nov 25, 1998)
[Menu]

  1. 1 はじめに
  2. 2 サンスクリット語
    1. 2.1 はじめに
    2. 2.2 転写方法について
      1. 2.2.1 ASCIIコードのみを用いる方法
      2. 2.2.2 非ASCIIコードを利用したもの
    3. 2.3 規則を用いた転写方式の自動判別
    4. 2.4 言語的特徴を利用した転写方式の推定
      1. 2.4.1 サンスクリット語の言語的特徴の抽出
      2. 2.4.2 転写方法の推定による自動判別の実験
  3. 3 チベット語
    1. 3.1 はじめに
    2. 3.2 転写方法について
    3. 3.3 機械的な転写方式の判別
  4. 4 考察
  5. 5 おわりに
  6. 参考文献

1 はじめに

サンスクリット語・チベット語などで書かれたテキストを 電子データとして入力・公開することが盛んに行われている。 この傾向は今後さらに強まることが予想され、また、 このような形で公開されている電子テキストを研究に取り入れることが 今後広く行なわれるようになることは想像に難くない。

これらの電子テキストをどのような形で扱うにせよ、 必ず問題になってくるのは文字コードの問題である。 一般的な計算機環境では サンスクリット語を表記するのに最も一般的であると思われる デーヴァナーガリー文字、あるいはチベット語を表記するための チベット文字に対応していないため、 これらのテキストを扱うためには、何らかの転写方式を 用いるのが一般的である。しかし現在のところ、 すべてのプロジェクトで共通した転写方式というものが存在して おらず、すべての電子テキストを統一的に扱うのは非常に困難な状況にある。

そこで本稿では、世界じゅうで行なわれている サンスクリット語・チベット語関連の電子テキスト構築プロジェクトにおいて、 どのような転写方式が採用されているかについて総括的に述べたのち、 それぞれの転写方式を統一的に扱うために必要となる、それぞれの 転写方式の自動判別および自動推定についての実験をおこなうこととする。


2 サンスクリット語

2.1 はじめに

古典サンスクリット語については、 ほぼ業界標準と呼んでよい ダイアクリティカルマーク付きアルファベットへの転写表記方法が 存在している。


[図1: サンスクリット語における転写方法の一部]

この転写方式の一部を図 1に示す。

しかし一般的な計算機環境では、 ダイアクリティカルマーク付きのアルファベットを表記することが 困難なため、ダイアクリティカルマーク付きアルファベットに対する 再度の代替表記を行なうことが一般的である。

2.2 転写方法について

代替表記として ASCII コード(7ビットコード)のみを用いるものと、 非 ASCII コードも使った表記をおこなうものとで、 全体を大きく2つのグループに分けることができる。また、 それぞれのグループの中で、さらに細かな分類が可能である。


[表1: サンスクリット語における転写方法の一覧(部分)]

表 1 に、本稿で参照した転写方式の 一覧の一部を示す。非ASCII コードも用いる転写方式については、 非ASCIIコードはそのままでは表記できないため、 その文字コードを 16 進数で表現したものを括弧で囲んだ (b5) のような表記をおこなう。

このそれぞれの方式について、順に簡単な説明をおこなう。

2.2.1 ASCIIコードのみを用いる方法

KH,TS KH は Kyoto-Harvard 方式、また TS は Tokyo Standard 方式の 略称である。 両者とも文字の下にピリオドが付く子音は大文字で表記する。 また、それ以外のダイアクリティカルマーク付きの文字についても、 適当にアルファベットの大文字を割り当てている。 これらの転写方式の特徴を表 2 に示す。


[表2: KH と TS の特徴]

この両者は {\tax ^n/~n } を表記するために G/J という文字を用いている点に特徴がある。一方で、 これら両者の相違点は {\tax ^s } の表記の違いしかないため、 この両者を区別することは場合によっては非常に困難である。

ITRANS Avinash Chopde 氏ら[6] による転写方式。 文字の下にピリオドが付く子音を大文字で表記する点は KH,TS とほぼ同じであるが、一部の文字に対して 非常に特徴的な表記をおこなっている。 この特徴的な部分について表 3 に示す。


[表3: ITRANS における表記の特徴]

上村, aiba 上村は東大の上村氏が、また aiba は我々が用いている 転写方式である。 母音を重ねることによって長母音を表記する点、また ダイアクリティカルマーク付きの文字を表記する際に 子音のアルファベットの前にピリオドを置くことがある点で、 両方の転写方法は類似している。 しかし両者のあいだには以下のような方針の相違が見られる。

これゆえ、両者ともに {\tax .r/.l/.t/.d/.n/.s } という文字はそれぞれ .r/.l/.t/.d/.n/.s と表記されるが、これ以外の 文字については表4のような相違が見られる。


[表4: 上村とaibaの表記の異なる文字の一覧]

ono 広島大学などで用いられている転写方式だが、 一覧表として参照できたのは小野氏[8] によって書かれたもの だけであったため、ここでは ono と呼んでいる。 この表記方法の特徴であるが 「ダイアクリティカルマーク付き」であることを示す記号として @ を用いている点である。

2.2.2 非ASCIIコードを利用したもの

ISCII ISCII はインドにおける国内標準規格であるらしく、インド国内では 最も一般的な表記方法のようである。 ISCII における、おもな文字種の配列を表6に示す。


[表6: ISCII の文字配列]

ISCII では子音の接続および a 母音つき子音の扱いが 他の方式および一般的なローマナイズで想定されている規則とは 異なっており、たとえば {\tax a.s.ta } を表記する際に、 表5のようなコード配置となる。


[表5: ISCII におけるコード列]

すなわち子音の後に母音 a が付く場合その母音 a は表記せず、また 母音が後続しない子音には「母音がつかないこと」を示す記号 (ここでは便宜的に \( \triangleright \) として表現した) を 付与する、といった内容になっている。これは デーヴァナーガリー文字に規範を取っているのだが、 逆にローマナイズ表記を規範としている他の転写方式との 混在が難しいという問題がある。

normyn,pali96 normyn は Norman氏[9]が、 pali96 は逢坂・山崎氏ら[10]が配布しているフォント およびデータで用いられている文字コードである。 それぞれ特殊文字を示すため 任意の文字コードを使用しており、両者の判別は非常に困難である。 しかし pali96 は表7に示したように 有気音の子音を一語として表記する特徴があり 「pali96 では有気音の直後に h が付かない」という規則が 設定できる。


[表7: pali96 における有気音のコード割当]

CSX Smith 氏[7] らが用いている転写方式。

TITUS Gippert 氏[11] らによる転写方式。

2.3 規則を用いた転写方式の自動判別

すでに2.2節でも触れたように、 それぞれの転写方式にはそれぞれ独自の規則・特徴がある。 その規則・特徴を利用することによって、 機械的な転写方式の判別がどの程度可能であるかの 実験をおこなった。なお非ASCIIコードを用いた方式については 判別のメドが立っていないため、ここでは実験対象としない。

実験内容 テキストとしては{\tax Bhagavadgiitaa }[2]を使用した。 このテキストを 10 行(約5偈)ごとに区切った 261 データを それぞれの転写方式に変換したものを用意し、それに対して 2.2節で述べたような規則・特徴を判別させる プログラムを用いて自動判別させる実験をおこなった。

結果 表8に結果を示す。


[表8: サンスクリットにおける転写方法判別の結果 (1:規則)]

KH,TS の結果をさらに詳しく見てみると、正解に到達できなかった ものに関しては以下のような傾向があることがわかった。

また 上村,aiba の結果に関しても同様に「上村か aiba のどちらか 決めかねる」という状態のままだったのが 8 例(3.1%)あることが判明した。

これらのことから、今回の実験ではデータ判別のために与えたデータは 分量としては5偈(10行)程度のものだったわけであるが、判別プログラムに 与えるデータ量を増やすことにより KH/TS および 上村/aiba の判別が つきやすくなることが予想される。

また機械的な判別に必要なデータ量の平均が 1.4-2.6 行となっているが、 このことから、ほぼ1-2偈程度の情報で自動判別が可能であることがわかる。

2.4 言語的特徴を利用した転写方式の推定

前節ではそれぞれの転写規則を利用した自動判別の実験をおこなった。 その結果、ASCIIコードのみを 使用したものについては、KH/TS のような非常に類似した事例を除けば、 かなりの確率で自動判別が可能であることがわかった。 しかし 非ASCIIコードも使うものについては、 この方法では対応できないことが問題となった。

そこで、サンスクリット語の言語的特徴を抽出し、その言語的特徴を 利用することによって転写方式の推定をおこなうことにしたい。 ただし ISCII に関しては、実験のための用意が十分にできなかったため、 今回は自動判別実験の対象から外した。

2.4.1 サンスクリット語の言語的特徴の抽出

我々の目的は転写方式の判別に必要な言語的情報の抽出である。 そのために必要な言語的情報ということで、 我々は以下のような情報を抽出することにした。 このような言語的情報は一般的にはあまり役に立つものではないが、 サンスクリット語には {\tax sa.mdhi } (連声) という 規則があるため、このような情報が役に立つ可能性がある。 辻[1] に上げられている連声の例をいくつか紹介する。(辻[1], pp.19,21.)
サンスクリット語では、単語列としてはこの例の左側のようになる場合に、 文としては右側のように表記されるという特徴がある。 そこで我々はこの特徴を利用する。

文字連接情報の取得 {\tax Mahaabhaarata } を用いたデータ解析をおこない、 文字の連接に関する情報を採取した。電子データは Smith氏らが公開しているもの[4]を用いた。このデータはもともと 京都大学の徳永氏[3]を中心として構築されたもので あり、データ管理の点でもそちらの方が行き届いていることは確かであるが、 徳永氏らのデータは {\tax ^n/~n/n } を同一化するなどの特殊な配慮がなされているため、 今回の我々の目的には合わないと判断した。

具体的の情報の採取であるが、たとえば以下のような文があったとする。

{\tax dharmak.setre kuruk.setre }
この文を以下のように区切る。
{\tax dh a r m a k .s e t r e k u r u k .s e t r e }
このような区切りをもとにして「dh と a は接続している」 「a と r は接続している」のようなデータを、転写方法ごとに 採取するという単純な方法をとった。 採取した情報の一部を表9に示す。 この例では、連接の組と書式ごとに、出現回数に基づいた ポイントをつけてある。


[表9: サンスクリット語における接続テーブルの一部]

今回の実験では、このような文字の組合せが 3262 組取得できた。

2.4.2 転写方法の推定による自動判別の実験

前節で述べた方法で抽出した情報を用いて、 電子テキストの転写方法の推定に関する実験をおこなった。

方法 まず具体的な推定の方法について簡単に説明する。 以下のようなTS 形式の入力があったとする。

kSetre
この文を以下のように区切る。
k S e t r e
そして、それぞれの連接部分、たとえば k と S、S と e .. といった 全部の組合せの連接ポイントを書式ごとに合計していく。 表9を用いて k S e 部分の ポイントの計算をしてみると、 k S 部分は KH と TS の両方で 20 点、 S e 部分は KH と TS の両方で 3 点となり、 KH と TS の両方が合計 23 点(他の書式は 0 点)となる。 このようにして、どの書式が最もそれらしいかを数値的に 表現し判断する。

結果 2.3節でおこなった実験と同じ条件での実験を おこなった。推定の内容であるが、ある特定の転写方式における ポイントの合計が、他のすべての転写方式でのポイントの合計よりも 与えられた閾値(具体的には20点)以上大きくなったときに 転写方法の推定が終わる、という簡単なものである。


[表10: サンスクリットにおける転写方法判別の結果 (2:推定)]

こうして行なった実験の結果を表10 に示す。この実験では2.3節で用いた規則による判別は 行なわず、 文字ポイントによる推論のみによる判別をおこなっている。


[表11: サンスクリットにおける転写方法判別の結果 (3:規則・推定)]

2.3節で用いた判別と、 本節で用いた文字ポイントによる推定の両方を組み合わせた方法による 判別実験の結果を表11に示す。 この表から、両方の判別方法を組み合わせることによって 効率・精度の両方に効果があることがわかる。


3 チベット語

3.1 はじめに

チベット語は、サンスクリット語の場合とは異なり、 ダイアクリティカルマーク付きのアルファベット表記に転写する際に、 業界で統一的となっているような方法が存在していない。 主な転写方法としては、以下のようなものがあげられる。


[図2: チベット語における Das の転写方法の一部]

これらの転写方式うち、Chandra Das が用いている転写方法の 一部を図2に示す。

3.2 転写方法について


[表12: チベット文字転写方法の一覧(部分)]

転写方法が異なる箇所を中心にした転写方式の一覧を 表12に示す。 この表にあげられている、それぞれの転写方式およびその特徴について 簡単に述べる。

TS Tokyo Standard 方式の略称。 これはアメリカ議会図書館で用いられている表記を、 サンスクリット語の TS と同じように再転写したものである。

E-Wylie Wylie 氏ら[13]によって提案された転写方式。 小文字の ng/ny/zh の使いかたが特徴的と思われる。

ACIP Asian Classics Input Project (ACIP)[14] で用いられている 転写方式。 主に大文字を使用する点に特徴がある。基本的には E-Wylie の書式を 大文字化したものとも見ることができるが、TZ および TS と いった転写方法に特徴がある。

aiba Chandra Das の辞書[12]、また「東北目録」で用いられている表記 を再転写したもので、サンスクリット語の場合と同様に 我々が用いている方式である。 この方式は .h という記号を使うところに特徴がある。 また {\tax ^n/~n } などの表記も独特であるが、 これはサンスクリット語における転写方式と同様に 「ダイアクリティカルマークと比較的類似した記号をアルファベット の前に置く」という方針を取った結果である。

3.3 機械的な転写方式の判別

表12に示した各転写方式の特徴に基づく自動判別を試してみる。 テキストとしては ACIP の Lalitavistara[5]を用いた。このテキストを それぞれの書式に変換したものを用意し、それぞれのテキストを どの程度判別できるかに関する実験をおこなう。


[表13: チベット語における転写方法判別の結果]

結果 表13に結果を示す。 表12で示した相違箇所が 出現したところで、 ほぼ確実に書式の判別が可能であることがわかる。


4 考察

まずサンスクリット語の自動判別について述べる。 これは十分実用的な精度を出しているといえる。 今回の実験では KH/TS の判別の精度が 90% 程度で、また aiba も 96% 程度の認識精度になってしまったが、 判別に与えるデータの量を増やすことによって KH/TS では 95% 程度、また aiba もほぼ 100% の認識精度を出すことが 見込まれる。また KH/TS については {\tax ^s } の転写方法が 異なるのみであるため、現在の段階ですでに実用上は問題にならない 精度になっているといえる。

また非ASCII コードも用いた転写方式の自動判別についてであるが、 サンスクリット語の言語的特徴を利用することにより、 かなり高精度の判別ができることが明らかとなった。

チベット語の自動判別についてであるが、 現在まで我々が蒐集した転写方式の数がそれほど多くないこともあり、 かなり容易に判別が可能であることが判明した。


5 おわりに

我々は本稿で述べた、諸々の転写方式を蒐集して整理した一覧表を ネットワーク経由で公開している[15]。この一覧表が、 インド学仏教学の世界における電子テキストの学術利用の促進に 役立つことがあれば幸いである。

今後の課題について述べる。 我々が本稿で取り上げた転写方式以外にも、 まだ多くの変換方式が世間には存在していると考えられる。 それゆえ、今後さらに多くの転写方式を蒐集し、それらの 自動判別に関する調査および実験を行なっていくことが 我々にとっての最大の課題である。

また我々が今回おこなった転写方式の判別実験の成果を取り入れた ソフトウェアの開発および配布についても今後検討していくことには 意義があると考えている。


参考文献

[1] 辻直四郎, 『サンスクリット文法』,岩波書店(岩波全書 280),1974.

[2] Bhagavadgiitaa, URL: ftp://ftp.ucl.ac.uk/pub/users/ucgadkw/indology/texts/bhagavadgita.zip

[3] Muneo Tokunaga, ``The digitalized texts of Mahaabhaarata'', 1996. URL: ftp://ccftp.kyoto-su.ac.jp/pub/doc/sanskrit/mahabharata/

[4] John D. Smith, ``The digitalized texts of Mahaabhaarata'' (based on the versions typed up by Prof. Tokunaga), 1996. URL: ftp://bombay.oriental.cam.ac.uk/pub/john/text/mahabharata/

[5] Lalitavistara, kd0095e.inc in ACIP release 2.

[6] Avinash Chopde, ITRANS , URL: http://www.aczone.com/itrans/;
``ITRANS transliteration map'', 1991-4. URL: http://reality.sgi.com/atul/sanskrit/dict/itrans.html

[7] John D. Smith, URL: ftp://bombay.oriental.cam.ac.uk/pub/john/software/fonts/csx+/CSX+.def

[8] Motoi ONO, ``Explanatory Remarks'', 1997. URL: http://www.logos.tsukuba.ac.jp/~nagasaki/dharmakirti/hpvorwor.html

[9] ``the final versions of Professor Norman's fonts'', URL: ftp://ftp.cac.psu.edu/pub/jbe/fonts/NORMAN/

[10] Yumi OUSAKA and Moriichi YAMAZAKI, ``RESEARCH PROJECT : Personal Computer Analysis of Middle Indo-Aryan, Production by Computer of Indexes to Pali Tipitaka Texts'', 1997, URL: http://www.sendai-ct.ac.jp/~ousaka/

[11] ``Thesaurus Indogermanischer Text- und Sprachmaterialien Zubeh\"{o}r (Software etc.)'', URL: http://titus.uni-frankfurt.de/software/fonts/titidgft.htm

[12] Chandra Das, ``Tibetan-English Dictionary'', Calcutta, 1902.

[13] Yoichi Fukuda, The Toyo Bunko, ``Extended Wylie Method of the transcription of Tibetan characters'', URL: http://www.toyo-bunko.or.jp/Tibetan/EWylie1.html

[14] The Asian Classics Input Project, URL: http://acip.princeton.edu/

[15] 相場徹, 「サンスクリット・チベット語などにおける 転写方法/文字コード割り当て の一覧」, 1998. URL: http://www.vacia.is.tohoku.ac.jp/member/aiba/indo/codes.html

AIBA Tooru <aiba@vacia.is.tohoku.ac.jp>