韓国語の学習者コーパス「KC Corpus」について
2022.02.25
▼KC Corpus
https://w.atwiki.jp/kccorpus/
「韓国語学習者作文コーパス(Korean L2 Learners’ written Composition Corpus:以下、KC Corpus)」は、日本の大学で韓国語を学習する日本人母語話者の韓国語作文コーパスです。KC Corpusは、大きく1)学習者の韓国語作文、2)学習者自身による母語訳(日本語対訳)、3)学習歴などの(学習者の)属性情報の三つのデータベースで構成されています。
KC Corpus構築にあたっては、複数の言語情報 (形態素情報、誤用タグ、添削情報)を付与することで、 誤用分析に適したコーパスの開発、また、研究・教育者の様々な利用目的に応じた情報抽出が可能で、Webブラウザ上での検索環境を提供するといったユーザフレンドリーな検索環境を目指しました。さらに、KC Corpusのデータにおいては「集めたけど公開できない」という事態を避けるため、データ収集時に著作権処理も同時に行うことで、著作権問題においてもクリアしています。
現在、日本の大学で韓国語を学習する日本語母語話者152人の韓国語作文データが検索利用できます。なお、本コーパスの総語節数(語節のトークン頻度)は20,905語節、一人当たりが算出した平均は137.5語節です。
【本システムを使用した研究を行う場合のお願い】
本システムを利用した研究成果を発表する際は、以下の文言を謝辞に追加してください。
本研究では、Korean Studies Grant 2008(課題番号:AKS-2008-R15)の成果物である「KC Corpus(https://w.atwiki.jp/kccorpus/)を利用した。
また、「KC Corpus」の詳細について引用する必要がある場合は、次のいずれかの論文を参考文献として掲載してください。
- ・林 炫情,李 在鎬,曹 美庚,淺尾 仁彦(2008)「韓国語学習者コーパスの構築: 韓国語学習者作文コーパスにおける検索ツールの開発(言語と学習)」「電子情報通信学会技術研究報告」108(297)pp.21-26
- ・李在鎬・林炫情・曺美庚・浅尾仁彦(2010)「韓国語学習者コーパス(KC Corpus)について」『朝鮮語教育-理論と実践』5, 134-137.
- ・林 炫情, 李 在鎬, 黄 晸煖, 浅尾 仁彦(2011)「韓国語学習者作文コーパス(KC Corpus)と韓国語教育への活用」『山口県立大学学術情報』5, 43-51.
本プロジェクトメンバー(所属は開発当時のもの)
林 炫情(研究代表者・⼭⼝県⽴⼤学)
李 在鎬(国際交流基⾦)
淺尾仁彦(京都⼤学[院] )
曺 美庚(九州⼤学⼤学院)
謝辞
本プロジェクトは下記の補助を受けています。
・Korean Studies Grant 2008(AKS-2008-R15):2008年度
課題題目:「韓国語教育支援共有資源化のためのコーパス構築:日本語母語話者の作文データベース化を中心に」
・山口県立大学学内研究助成金(基盤研究(A)):2009年度
課題題目:「韓国語学習者作文コーパス(KC Corpus)と韓国語教育への活用」