林 炫情 研究室 : 山口県立大学 国際文化学部

韓国語の学習者コーパス「KC Corpus」について

2022.02.25

▼KC Corpus
https://w.atwiki.jp/kccorpus/

「韓国語学習者作文コーパス（Korean L2 Learners’ written Composition Corpus：以下、KC Corpus）」は、日本の大学で韓国語を学習する日本人母語話者の韓国語作文コーパスです。KC Corpusは、大きく1)学習者の韓国語作文、2)学習者自身による母語訳（日本語対訳）、3)学習歴などの(学習者の)属性情報の三つのデータベースで構成されています。
KC Corpus構築にあたっては、複数の言語情報（形態素情報、誤用タグ、添削情報）を付与することで、誤用分析に適したコーパスの開発、また、研究・教育者の様々な利用目的に応じた情報抽出が可能で、Webブラウザ上での検索環境を提供するといったユーザフレンドリーな検索環境を目指しました。さらに、KC Corpusのデータにおいては「集めたけど公開できない」という事態を避けるため、データ収集時に著作権処理も同時に行うことで、著作権問題においてもクリアしています。
現在、日本の大学で韓国語を学習する日本語母語話者152人の韓国語作文データが検索利用できます。なお、本コーパスの総語節数（語節のトークン頻度）は20,905語節、一人当たりが算出した平均は137.5語節です。

【本システムを使用した研究を行う場合のお願い】
本システムを利用した研究成果を発表する際は、以下の文言を謝辞に追加してください。

本研究では、Korean Studies Grant 2008(課題番号：AKS-2008-R15)の成果物である「KC Corpus（https://w.atwiki.jp/kccorpus /)を利用した。

また、「KC Corpus」の詳細について引用する必要がある場合は、次のいずれかの論文を参考文献として掲載してください。

・林炫情,李在鎬,曹美庚,淺尾仁彦(2008)「韓国語学習者コーパスの構築: 韓国語学習者作文コーパスにおける検索ツールの開発(言語と学習)」「電子情報通信学会技術研究報告」108(297)pp.21-26
・李在鎬・林炫情・曺美庚・浅尾仁彦(2010)「韓国語学習者コーパス（KC Corpus）について」『朝鮮語教育－理論と実践』5, 134-137.
・林炫情, 李在鎬, 黄晸煖, 浅尾仁彦(2011)「韓国語学習者作文コーパス（KC Corpus）と韓国語教育への活用」『山口県立大学学術情報』5, 43-51.

本プロジェクトメンバー（所属は開発当時のもの）
林炫情（研究代表者・⼭⼝県⽴⼤学）
李在鎬（国際交流基⾦）
淺尾仁彦（京都⼤学[院] ）
曺美庚（九州⼤学⼤学院）

謝辞
本プロジェクトは下記の補助を受けています。
・Korean Studies Grant 2008(AKS-2008-R15)：2008年度
課題題目：「韓国語教育支援共有資源化のためのコーパス構築：日本語母語話者の作文データベース化を中心に」
・山口県立大学学内研究助成金（基盤研究（A））：2009年度
課題題目：「韓国語学習者作文コーパス（KC Corpus）と韓国語教育への活用」