東アジアの過去・現在・未来へ KU-ORCASキックオフシンポジウム

デジタルアーカイブが開く 東アジア文化研究の新しい地平

2018年2月17日(土)・18日(日) 関西大学千里山キャンパス 以文館4階

登壇者

安岡 孝一

京都大学 人文科学研究所附属東アジア人文情報学研究センター 教授
1965年生。1990年京都大学大学院修士課程修了。京都大学博士(工学)。1990年京都大学大型計算機センター助手。1997年同准教授。2000年京都大学人文科学研究所附属漢字情報研究センター助教授。2009年同所附属東アジア人文情報学研究センター准教授。2015年同教授。人文科学と情報科学の橋渡しをすべく、人文情報学の研究に従事。

東アジア人文情報学研究の現在

――漢字処理から漢文処理へ――

「Mecab」を使用した古典中国語の形態素解析

古典中国語(漢文)のコンピュータ処理に際し、テキストの自然言語解析という側面から報告をします。古典漢文のような単語間に切れ目のない書写言語の解析では、単語を認識した上で単語間の関係について解析しなければならず、テキストの形態素解析を行った上で、係り受け解析を行うというやり方が必要です。そうしたなか、京都大学人文科学研究所共同研究班「東アジア古典文献コーパスの実証研究」では、古典漢文に対する係り受け解析の研究に取り組んでおり、今回は、古典中国語に対する形態素解析と、言語横断的な依存構造記述としての「Universal Dependencies (以下UD)2.0」 の適用について報告しました。

UD2.0の適用と今後の課題

同研究班では、漢文の形態素解析について4 階層の品詞体系を独自に定義し、約46,000 文のMeCab漢文コーパスと、約6,000 語のMeCab 漢文辞書を製作しています。これにより、一般的な漢文(散文)は高精度での形態素解析が可能となりました。また、UD2.0 のUD 品詞の漢文への適用については、MeCab 漢文形態素解析で用いる品詞体系から、14 種類のUD 品詞への自動変換を可能としています。UD 依存構造については、Pulleyblank の古典中国語文法書の各例文について、手作業でUD 依存構造を決定することで、32 種類のUD 依存構造タグが漢文の構造記述に必要となることを明らかにしました。しかしながら、UD 形態素属性については、MeCab 漢文形態素解析との齟齬が大きい上に、屈折語の文法的機能を表すものが多く、孤立語である古典中国語には使えません。その一方でUD形態素属性は、各言語での提案が可能なため、今後はMeCab漢文形態素解析で使用している意味素性・小素性を、UD 形態素属性に含めていく方策を模索していくことになります。