【研究テーマ】
デジタル・ヒューマニティーズの現況をリサーチし、応用することを推し進める
2025年2月22日 KU-ORCAS第14回研究例会
概要 主幹 二階堂 善弘
DHR班第4回研究集会は、漢字文献情報処理研究会第26回大会と共催として開催された。本研究会は「学術ツール・リソースレビュー特集」と題され、4名の報告者が各々の研究分野で用いられるツール、それを使用したDH研究の現状を報告した。その内、DHR班からは二階堂主幹、師研究員、小島研究員が報告した。
二階堂主幹は、オンデマンドでの報告となった。報告は、古典漢文の形態素解析や古典籍LLMについて白文に句点を切ることや、古典を翻訳する方法について実践を交え紹介した。また、宮内庁書陵部収蔵漢籍集覧にて宮内庁書陵部蔵『正統道藏』のデジタル画像が新規追加されたことで、他の道教関連データと合わせ、今後の道教研究の発展の可能性について言及した。
師研究員は、国立国会図書館が公開している古典籍OCRを使い、実際に読み込んだ資料を使いながら、古典籍OCRは用途によって出力の際に複数のファイル形式が選択できること、特定の文字の認識が未だ不正確であることなど、その特徴と問題点について紹介した。
小島研究員は、台湾漢学研究中心専題資料庫および中国国家図書館古典籍データの紹介をおこなった。国家図書館古典籍データは、国家図書館だけでなく、外部図書館とも提携し資料の閲覧ができること、また善本が広く公開されたことを『唐会要』を例に、従来のテキストでは読解が不可能であった部分と公開されたデータを対比させることで読解が可能となり、新たな研究の進展やテキスト研究の発展の可能性について紹介した。
千田氏は、Wikimedia Commons、上海戸籍出版社尚古匯典古籍整理文献数拠庫、CNKIの三つをテーマに各データベースの特徴や問題点について紹介した。特にWikimedia Commonsで公開される画像データは既存の有償データベースでも使用されており、その背景や使用上の注意点について言及した
今回の報告は、すでにDH研究に習熟している研究者だけでなく、不案内な者にとっても、その特徴と利用場面を理解するのに良い機会となった。
形態素解析とAI、道教関連リソース 二階堂 善弘
当日は大学院の業務と重なったため、オンデマンドによる発表となった。まず発表者が加わっている京都大学の安岡孝一氏の研究班で行われている『日本書紀』の形態素解析の事例について報告し、次に中国の「Siku-BERT」について述べた。AIについては中国の「太炎AI」について、実際の動作を含めて紹介した。次に道教関連のリソースについて紹介を行った。特に、宮内庁書陵部が所蔵する『正統道蔵』のデータが公開されたことは重要であると述べた。さらに、「宗教書籍規範索引」や、香港中文大学「道教經典文庫」などについて紹介を行った。
漢學研究中心專題資料庫、中国国家図書館の古典籍データ : 歴史学における旧鈔本の利用価値 小島 浩之
『デジタル時代の中国学リファレンスマニュアル』(好文出版, 2021年)において未紹介であった漢学研究中心のサイトと、同書刊行後、仕様に変化のあった中国国家図書館の古典籍データについて紹介し、これらのデータベース類が中国史研究に与えた影響などについて言及した。前者については、明人の文集の篇目(目次)索引を検索・一覧できる機能を評価した。一般的なデータベース類が目次を割愛することが多いものの、目次は文集の全体像を把握でき、全文検索より早く情報にたどり着ける場合もあること、目次は文章の分類にもあたるためには、そこには編纂者や当時の価値観を見いだせる可能性、さらには書誌学的な比較の根拠ともなる、といったような目次データベースの有用性について述べた。また、後者については、明清の旧鈔本の公開により、通行の校訂本や影印本の誤りが正せる例を複数挙げ、古典籍の画像データの歴史研究やテキスト研究における存在意義について述べた。
2024年9月21日 KU-ORCAS第6回研究例会
概要 主幹 二階堂 善弘
まず、二階堂善弘DHR研究班主幹から「初心者から見た自然言語処理」とのタイトルで、ここ数年の自然言語処理技術の発展についての発表があった。2018年にGoogle社がBERTを公開して以降、自然言語処理は大きく進展した。その後、多くのBERTからの派生ツールが作られた。その傾向と課題について紹介を行った。続いて、関西大学外国語学部教授の山崎直樹氏から、「多言語景観のデジタルアーカイブ化:情報保障の一手段として」とのタイトルで発表が行われた。まず多言語景観(Linguistic Landscape)についての説明があり、そのアーカイブ化について提案が行われた。多言語景観は、今後の重要な課題であると思われるが、多くの問題を抱えている。休憩をはさんで総合討論が行われた。オンライン参加者も討論に積極的に参加し、議論はかなり盛りあがった。会場よりも、オンラインの参加者が多かった。
初心者から見た自然言語処理 二階堂 善弘
自然言語処理については、発表者は初心者の域を出ないが、ここ数年の自然言語処理(NLP)の進歩は大きく、またアジア研究の分野にも関わることになっているので、いくつか紹介したいと思う。2018年にGoogle社がBERTを公開して以来、自然言語処理の現場は大きく変わった。さらに、RoBERTaやDeBERTaなどの派生モデルも登場した。ほかにも、書写文字資料を中心に多くの言語を分析するUD(Universal Dependencies)もある。中国では、「四庫全書コーパス」を応用したSikuBERTとSikuRoBERTaなどが開発されている。これらの自然言語処理技術は、AIの開発とも密接な関連を有している。
2024年3月2日 KU-ORCAS第2回研究集会
AIを用いた「再現」の問題点 師 茂樹
近年、AIを用いた過去表象(歴史実践)が広がっている。そのなかには、故人との「再会」を目的としてAIで「復元」しようとするもののほか、日本赤十字社・関東大震災100年プロジェクト「100年前の100人の新証言 ~データとAIで紐解く、あの日に起きたこと。」のように、ある種の展示としてAIを用いるものや、AIを用いた白黒写真のカラー化など、デジタルアーカイブの文脈で行われている例もある。AIにデータ(文献など)を学習させ、何らかの解釈の可能性を提示させる研究も、広義の過去表象といえるだろう。こういった実践や研究の一部に対しては、「死者への冒涜だ」だといった批判、違和感が表明されている。3DCGなどによるAIを用いない「再現」を含め、これまで人間が行ってきた過去表象とAIによる過去表象は何が異なるのか。問題提起とともに検討する。
2024年1月27日 KU-ORCAS第1回研究集会
概要 主幹 二階堂 善弘
まず、二階堂善弘主幹が「KU-ORCAS所蔵漢籍データベースの現状と活用」とのタイトルで、発表を行った。KU-ORCASに所蔵される漢籍データベースについては、サーバ運用からクラウドによるアクセスに変更された。その利用法と新たに生じた問題などについて話した。次に、二ノ宮聡研究員が、「KU-ORCAS所蔵データベースの外部アクセス利用」とのタイトルで、報告を行った。KU-ORCAS所蔵の漢籍データベースは、VPNによる利用で、外部からのアクセスが可能になる。その方法と問題点について解説した。休憩を挟んで、DHR班全員(二階堂善弘、師茂樹、佐藤仁史、永崎研宣、小島浩之、田邉鉄、二ノ宮聡各研究員)による座談会「アジア研究データベースの活用」が行われた。東方書店の提供により、トライアルで『経典古籍庫』などの漢籍データベースが一箇月使用可能となったので、その利用と将来的な可能性について討論を行った。各研究員から多くの貴重な意見をいただけた。
KU-ORCAS所蔵漢籍データベースの現状と活用 二階堂 善弘
KU-ORCASに所蔵される漢籍データベースについては、愛如生の『中国基本古籍庫』、『方志庫』、『申報』や、凱希メディアサービスの『道蔵』『六国史』などのデータベースが使用可能となっている。いずれも、サーバ運用からクラウドの使用になったため、格段に使いやすくなった。特に、『基本古籍庫』は、画像とデータが連動するようになり、元データの確認が容易になった。また、検索精度も上がっている。しかし、院生などが利用する場合、訓点を施すことなくそのまま論文に引用することが多くなってきたため、自動標点を施すサイトの利用も促すべきではないかと提言を行った。同時に、ひとつの機関だけで運用することの難しさについても、問題提起を行った。
KU-ORCAS所蔵データベースの外部アクセス 二ノ宮 聡
本報告は、KU-ORCASが所蔵するデータベースに関して、学外ネットワークからVPNを使用し接続した際の状況について「KU-ORCAS所蔵データベースの外部アクセス利用」と題して報告した。データベースは、主に中国の愛如生社の中国基本古籍庫を使用した。これらデータベースは、大学のIPアドレスによる自動認証のためVPNを使う必要がある。まずVPN接続については、関西大学ITセンターの利用マニュアルに従い接続を試した。接続方法は有線、無線、Windows、Macをそれぞれ組み合わせ複数の接続をした。マニュアルの手順に従い接続を試み、いずれの方法も問題なく接続できた。一方で、有線と無線の接続では接続速度に顕著な違いが見られた。これは接続場所や時間も影響するだろうが、発表者が接続を試みた限り、有線接続が安定していた。VPN等を利用した外部からのアクセスはすでに一般的になっている。一方で、こうした情報をしらない人もまだまだ多い。今後は、こうした利用法の周知を如何にしていくかが、課題の一つであろう。