TOP

2024/05/25 最終更新

・このページでは,テクスト言語学の研究方法分析ツールの紹介を含み,ソフトウェアのダウンロードとインストールの方法を別ページで簡単に解説してあります)と文献調査の方法を解説してあります。

・学部および大学院で野村の開講科目を受講するときは,このページを参照しておいて下さい。情報は随時更新します。

・ソフトウェア(言語分析ツール)の紹介は,OS として Windows を使用していることを前提にしています。

・野村が使用している主なソフトウェアは,次のとおりです。KWIC Finder,KH Coder,AntConc,ELAN,および,秀丸エディタ,一太郎。


研究方法

 日本語のテクストを研究対象とするときに求められる方法,機材,ソフトウェア(言語分析ツール)などを解説・紹介します。

キーワード:テクスト(文章・談話,マルチモーダル・テクスト)/スタイル(文体)/表現類型/コミュニケーション/システム/関係性/多重性/構造/メゾスコピック/人称

・テクスト(文章・談話,マルチモーダル・テクスト)をシステムとして理解し,そこに現れる具体的な現象と表現類型を研究対象とします。

・テクストとは,人のおこなう言語活動において,あるまとまりをもった表現の具体相をさします。広義には,言語表現のみならず,動作,音楽,絵画,建築,都市など人間の表現活動の所産すべてを含み,それらの複合したものもテクスト(マルチモーダル・テクスト)です。

・システムとは,複数の関係性によって構成され,かつ総体として一つのふるまいを示すまとまりを意味します。

・スタイリスティックス(文体論)とは,テクストの表層の要因をてがかりとしながら,テクストの個別性や類型性をとりだすことで展開する領域をさします。

(1) テクスト言語学におけるメゾのレベルにおける方法(メゾスコピックな言語学の構築)

a テクスト(文章・談話,マルチモーダル・テクスト)における一定の言語的なできごと,すなわち表現類型を認定する。

b その表現類型の理解を制約することが予測されるテクスト内,テクスト間,あるいはテクスト外の必要かつ十分な標識を選択的に認定する。

c (b)で選択された標識をパラメーターとして,着目した表現類型とのあいだで,関係・効果・様相を特定する。

d その表現類型がテクストにおいてどのように作動しているかを記述し理解する。

e (d)にもとづいて,テクストまたは部分テクストにおいてまとまりを認定する。あるいは任意に理解されるまとまりの仕組みを明らかにする。   
 (以上 野村眞木夫 2000 『日本語のテクスト −関係・効果・様相−』ひつじ書房 第3章参照)

(2) テクスト・部分テクストのジャンル・タイプを認定する。

(3) 文・発話の関係の範疇化(定義と標識・境界条件の認定)と記述を帰納的におこない,テクストにおけるそれらの相互関係・相互規定,表現類型の創出過程を解明する。

(4) 部分テクストの関係および構造の範疇化(定義と標識・境界条件の認定)と記述をおこない,テクストにおけるそれらの相互関係・相互規定,表現類型の創出過程を解明する。

(5) テクストにおける同位態の認定と記述をおこなう。

(6) テクストにおいて言及されるメディアを対象化し,その脱分節化の過程と様相を記述する。

(7) 言語思想の形成に関わるテクストを分析し,それらの間テクスト性を記述する。

(8) ソフトウェア(言語分析ツール)について,Windowsを前提に解説する。ダウンロードとインストールの方法(←ここをクリックして参照。最小の注記も記載。)は,OSやブラウザによって異なることがあるので各マニュアルを参照。

a) 文章資料および文字化された談話資料について。
 
 編集ソフトとしてワープロよりもテキストエディタ(正規表現と grep の使用環境のため,秀丸エディタ [シェアウェア,Windows10まで対応] またはサクラエディタ[フリーウェア,Windows10まで対応,なお左のリンクから入るサイトではセキュリティソフトとの関係でうまくダウンロードできないことがあるらしい。そのときはサクラエディタの左下にある英語のサイトからのダウンロードを試みる。それでもうまくいかないばあいは,ここにリンクしてあるサイトからダウンロードを試みる。],Mery[フリーウェア,Windows10まで対応,「MeryWiki」,または「Vector」「窓の杜」のページからダウンロード],K2Editor [フリーウェア,Vista以降への対応は保証されていないが作動するようである]を推奨)が機動力に富む。コンコーダンサと連繋させるときは,エディタの使用が必須。他に,xyzzy 等がフリーウェアとして開発されているが,先に挙げた4種類のエディタ以外は筆者が使用したことがないので使い勝手など不明。

 正規表現の使い方については,書籍では,佐良木昌・新田義彦(2003)『正規表現とテキスト・マイニング』(明石書房),荻野綱男・田野村忠温(2011)『講座ITと日本語研究 3 アプリケーションソフトの応用』明治書院,サイトでは, 睡人亭 (山田崇仁氏),Zaco's Page (Zaco氏)を参照。ただし,正規表現にはエディタ間で方言と呼ばれる異なりがあるので注意。このサイトの「セミナーとメモ」のページにも簡単な事例を示してある。

 日本語に対応したKWIC関係のコンコーダンサとして以下のものが代表的である。いずれも正規表現の初歩的な知識があると有効に活用できる。

 コンコーダンサは,初期設定のままではうまく作動しなかったり,前処理を怠ると誤った結果が導かれたりする。それぞれ,添付されているマニュアルやチュートリアルを参照し,特性を理解して使用すること。

 ・KWIC Finder:EBシリーズ。Windowsに対応。軽快に動き,検索一致ビューに対応する本文が同一ウィンドの下部に表示される。フォルダ全体を対象とすることができるので,品詞性や形態素の別を配慮せず大量のデータを検索するときに便利。Windows10では,うまく作動しないという報告があり,そのばあいは一般的なテキストエディタで grep を活用して代行させるしかないだろう。Kwic Finder のイメージはここをクリック
【Kwic Finderは,2018年11月に "Kwic Finder 4" のリリースが行われ,無条件でシェアウェアとなり,フリーライセンスの属性がなくなった。】

 ・KH Coder(Chasenを含む,有償でOSX対応):立命館大学 樋口耕一氏。KWICコンコーダンサを含む計量テキスト分析・テキストマイニングのためのソフトウェア。Windows以外にも対応,詳細はマニュアル参照。正確な分析を行うために,プロジェクト毎に必ず前処理を実行する。これによってテクスト内の語をどのように認識させるかが決まる。半自動で計量テキスト分析が可能。また,計量的な処理を行うためには,多変量解析の知識が必要である。専門的な訓練が前提とされるので,自動的に解析された結果を読み取る技術等を習得した上で,適切に使用すること。

 ・AntConc:早稲田大学 Anthony, L. 氏。KWIC,テキストにおける単語の分布など。Windows以外にも対応,詳細はマニュアル参照。ソフトのダウンロードとインストールは容易。日本語および中国語を扱うためには,SegmentAnt によってテキストを分かち書きにしておく必要がある。ただし,分かち書きが文脈によって不整になる可能性があるため,注意が必要である。SegmentAntは,事前にテキストのコードを,UTF-8 に変換してから適用する(秀丸などはデフォルトがShift_JIS,miはデフォルトがUTF-8)。AntConc,SegmentAnt ともにヘルプを参照されたい。日本語で書かれたガイド(分析対象は英語だが,日本語のテキストも分かち書きしてあるので,同様に考えて良い)も,同サイト内 AntConc のページからリンクされている。Concordance Plot Tool は,テクスト(間)における単語の分布を,横長のバーに縦線によりプロットするもので,テクスト構造の一端を直観的に掌握しやすい。

 ・日本語KWIC索引生成ソフトウェア KWIC大阪大学田野村忠温氏のサイトに接続し,そのページからダウンロード・インストールする。説明にしたがえば問題なく進めることができる。検索対象は,青空文庫の一部をプレーンテキストとしたコーパスが,”corpora”にある。これを C:\corpora に置くものとして運用されている。”corpora”には,任意のテキストファイルのデータを自分で追加することができる。検索結果は,インストール先のフォルダに保存される。詳細はマニュアルを参照。このコンコーダンサは,Windows10でも正常に作動する。また正規表現(または疑似正規表現:マニュアルを参照)も使用できる。ソフトを追加して,検索した該当箇所を含む文脈を広く示すこともできるが,秀丸(シェアウェア)のインストールが必須とされている。

 ・『ひまわり』 :国立国語研究所(XML文書を対象とした検索システム)

 形態素解析システム 茶筌,awkなどのスクリプト言語があると,作業の効率をあげることができる。KH Coderには茶筌が組み込まれている。
 形態素解析を web 上で実行するためには,国立国語研究所で公開されている「形態素解析ツール Web茶まめ」を活用することが推奨される。MeCabによる形態素解析ができる。

 国立国語研究所のサイト内では,データベースのページを参照する。また,特定領域研究「日本語コーパス」日本語学班のサイトにアクセスしガイドブック等を参照する。

 以下のサイトは,リンク集(「電子コーパス」の項)からもアクセス可能。それぞれ注意事項や条件を参照して使用する。
 ・コーパス開発センター
 ・NINJAL-LWP for BCCWJ (内容語の共起関係や文法的振る舞いの表示,TWCもリンク)
 ・日本語話し言葉コーパス(CSJ)

 Mac OSXについて付記しておく。筆者が使用する環境にないので,作動等は保障できない。情報のみ掲載しておく。
 テキストエディタで日本語を扱うことができるものとして,mi が開発されている。正規表現にも対応しているとのこと。
 KWICコンコーダンサとしては,Simple KWIC Lister (『日本研究センター教育研究年報』第1号(2012)からリンク)が開発されている。大学院生からの情報では,使い勝手は良いらしい。

b) 談話資料は,書き言葉と異なる方式で文字化されている場合がある。また,研究者が自分で文字化するとしても,談話資料特有のコード化の方法がある。既存のソフトウェアは,書き言葉の分析のみを前提にしているので,談話資料には,ただちに適用できないことが多い。文法・語彙分析用のソフトウェアを使用する際,談話資料独自の表記方法は,あらかじめ書き言葉の表記方法に標準化しておくか,何らかの方法で登録しておく必要がある。

 文字化作業のツールとして,フリーのテープ起こしソフト「おこしやす,Okoshiyasu2」がある。再生等のキー割り当てや自動巻き戻し時間の設定ができる。フットスイッチは任意に使用できる。ほかに,「テープ起こしプレーヤー」(株式会社アスカ21)が無償で公開されている。

c) ビデオ(動画)資料は,例えば次のようなソフトウェアを使用すると,解析の準備段階に至ることができる。動画・音声データに多様な注釈を書き込む欄を設定し,そこに情報を記入して各種の分析を実行するためのツール。動画・音声データによるマルチモーダルな談話分析を行いたいときに有効。Windows,Macintosh ともに使用できるフリーウェア。

 ・ELAN(EUDICO Linguistic Annotator) (The Language Archiving Technology (LAT)) (* European Distributed Corpora Project)。
 動画と音声波形が同期して表示され,動画の時間進行が音声波形表示部分にカーソルで表示されるので,言語情報と非言語情報とを関係づけて観察したいときに便利である。トランスクリプションその他を注釈層に記入することで,統合的にデータを表示することができる。

 日本語版が用意されたフリーソフトであり,下記のサイトに日本語の解説がある。ELAN のサイトには Support のページがある。ELANはしばしばバージョンアップされ,機能が追加されるので,常に更新しておくことが望ましい。画面のイメージはキャプチャのとおりである。ビデオビューアーには,イラストを用いてある。

 会話・ジェスチャー分析研究者のためのELAN即席入門 (滋賀県立大学 細馬宏通氏
 ELANによる動画解析の手順 (早稲田大学 菊池英明研究室 宮澤幸希氏)

 注釈層の情報は,時間情報とともにテキストファイルに書き出すことができるので,そのままトランスクリプションのデータに転用可能である。ターンごとに改行した形式で書き出され,同時発話がなければ,ポーズの時間も自動的に算出される。

 ビデオを収録するとき,録音レベルが低いと音声認識が弱くなり,波形が明確に表示されない可能性がある。ビデオカメラの内蔵マイクでは,弱いことがある。周辺の雑音等にも注意する必要がある。ただし,右クリックメニューのズームで表示を見やすくすることができる。

 ステレオの音声波形は2つのチャンネルに分離して表示される。ステレオで収録できる場合は,(8) 機材の項目にあげたプラグアダプターとタイピン型マイクやヘッドセットマイクを併用して左右の音声を相対的に分離しておくと視覚的に鮮明になるだろう。

 このシステムの運用のためには,動画ファイルと音声ファイルの準備が前提となる。そこで,最初に収録したビデオデータ(*.wmvなど)から動画ファイルと音声ファイルとを分離しておく必要がある。動画ファイルは *.mpg や *.mov 等,音声ファイルは *.wav の形式で準備する。環境に応じて,例えば次のようなソフトウェアを別途インストールしておくことが求められる。

 1) ムービーメーカー (ムービー編集ソフト,通常は Windows マシンにインストール済み)
 2) Audio Encode & Decode TooL(えこでこツール) (MPEG動画から音声ファイルを分離する。「出力」のメニューで「wav」形式を指定。)
 3) Pazera Free Audio Extractor (各種動画ファイルから音声ファイルを抽出する)
 4) TMPGEnc (MPEG動画から音声ファイルを分離する)
 5) MPx2WAV32G (Vector 内。音声ファイルのMP2,MP3ファイルをWAVEファイルに変換する)

  音声ファイル形式の変換は,任意のICレコーダーに付属のパソコン連繋のソフトウェア(たとえばソニーの Digital Voice Editor)に組み込まれた機能で実行できるばあいがある。

 ELANも,音声学を含む言語学のみならず,社会学,相互行為分析,心理学,認知科学等の基礎的な訓練を受けた上で使用することが望ましい。

 談話の内容的な記述と分析,音声的な解析や動画の処理を独立に行うのであれば,それぞれの目的に沿った専用のソフトウェアの方がシンプルで扱いが容易であり,機能的にもすぐれていることが多い。

・DVDに保存した動画をELANで分析する手順を示しておく。ELANで読み込む前に,動画ファイルのMPGと音声ファイルのWAVを準備する。
 ファイルがDVDに保存されているものとする。まず,DVDのファイルをコンピュータにコピーする必要がある。そのアプリケーションとして,ImgBurn (DVD Decrypter の後継アプリケーション)などを使用する。アプリケーションが不要のばあいもある。この操作により,VOBファイルなどができる。その拡張子を書き換えるだけで,MPGファイルが得られる。
 MPGファイルから,Pazera Free Audio Extractorなどを使用して,音声ファイルとしてWAVファイルを抽出する。
 ELANで,このMPGファイルとWAVファイルを読み込み,分析作業をすすめることができる。

d) ミーティングレコーダー(MR360)は,事務機器として販売されている。たとえば,4人の座談であればテーブルの中央にレコーダーを置き,参加者をそれぞれカメラの正面数10センチ程度の距離に位置させて収録する。そのファイルをパソコンに取り込み,メディアプレーヤーなどで再生すると,画面が4分割され,各象限に1人ずつの上半身を映し出すことが可能である。精度の高い分析や高度な処理には不向きだが,ひととおり音声言語,身振り,視線などを観察・記述することができる。外光を遮り,明るい室内照明のみで収録することが望ましい。必要に応じてICレコーダーなどを併用する。

 下の図は,ミーティングレコーダー(MR)収録時における参加者の位置関係(左図)とディスプレイ上での4分割モードによる表示(右図)の対応例。
                       
 Sさん     Hさん
MR
 Oさん     Kさん
                                   
 
 Sさん Hさん
 Kさん Oさん

 音声言語・身振り・視線のマルチモーダルな様相を記述するとき,ELANなどを使用するのが標準的な方法である。しかし,特に初等中等教育の現場などで,とりあえず記述することだけを想定したばあい,入力時の言わば労力対効果において現実性がないかもしれない。筆者の研究室では現職教員たちのアドバイスにより,ミーティングレコーダーで収録したデータを,国立国語研究所(1987)『談話行動の諸相』p.225fで示されているフォーマットにもとづいて,一次的に5ミリ方眼ノートに鉛筆の手書きで記述してみた。公表するときは,ワープロやエディタで部分的に入力する。あるいは,必要な箇所のみ抽出してELANやSpeech Analyzerによって精度の高い分析を行えばよい。研究や分析の目的に応じて手段を使い分ける必要があろう。


文献調査の方法

(1) 文献調査のための基本図書・雑誌

 ・『国語年鑑』(刊行図書一覧,雑誌文献一覧)秀英出版/大日本図書:書籍体の発行は2008年版まで。ただし,動向と文献の2009年版は,国立国語研究所の旧サイトからダウンロードできる。
 ・『国文学年鑑』至文堂 (2009年4月以降は,ぎょうせいが販売)
 ・『日本語学』明治書院(新刊情報)
 ・『月刊 言語』(言語圏)大修館書店 (2009年12月号で休刊)
 ・『日本語の研究』/『国語学』 (新刊書目)日本語学会/国語学会
 ・『表現研究』(表現関係文献目録,会員の業績のみ)表現学会
 ・『国文学 解釈と教材の研究』(学界教育界の動向)学燈社 (2009年7月号で休刊)
 ・『国語と国文学』(雑誌要目)至文堂 (2009年4月以降は,ぎょうせいが販売,さらに2011年11月号から明治書院が刊行。)
 ・『国語学研究文献索引・国語史』(国語学会・国立国語研究所編)秀英出版
 ・『国語学研究文献索引・音韻編』(国語学会・国立国語研究所編)秀英出版
 ・『国語国文学資料索引総覧』(国立国語研究所図書館編)笠間書院
 ・日本文体論学会 2005 『文体論研究書誌 ―日本文体論学会創立40周年記念―』(『文体論研究』特別号)

(2) 研究動向に関する展望記事など

 日本語・言語研究の最近の動向や傾向を展望し,論評をくわえた記事が,学会誌・商業誌に掲載されている。
  『日本語の研究』/『国語学』は2年目ごと,『文学・語学』は毎年,展望記事が掲載される。
  『表現研究』は会員の業績の一部が毎号掲載される。
  『海外言語学情報』は,1998年分まで刊行されている。
 学会誌・商業誌の書評欄も参照。

 ・『日本語の研究』/『国語学』 (展望,新刊紹介)日本語学会/国語学会
 ・『文学・語学』(展望)全国大学国語国文学会
 ・『表現研究』(表現研究関係文献紹介,会員の業績のみ)表現学会
 ・『月刊 言語』(言語圏)大修館書店(2009年12月号で休刊)
 ・『国文学 解釈と教材の研究』(学界時評)学燈社(2009年7月号で休刊)
 ・『海外言語学情報』大修館書店
 ・『国語学の五十年』武蔵野書院

(3) 論説資料などの資料集

 ・『日本語学論説資料』/『国語学論説資料』,『英語学論説資料』論説資料保存会
 ・『日本語研究資料集』ひつじ書房
 ・『論集日本語研究』有精堂
 ・『日本の言語学』大修館書店
 ・『国語学大系』国書刊行会

(4) 文献調査のサイト,データベース

 ・国立国語研究所(トップページから「データベース集」や「刊行物」の任意の項目を開き適宜検索をする。)のサイトで国立国語研究所報告などがPDF化されていてダウンロードできる。ただし,画像情報なので,読み取りにくい箇所がある。

 ・
日本語研究・日本語教育文献DB (国立国語研究所)は,CiNiiよりも限定されるので,便利。

 ・国文学研究資料館(「電子資料館」→「国文学論文目録」を開く。文体や表現に関する文献は,このサイトを利用する必要がある。その他のデータベースも利用。)

 ・国立国会図書館(「NDL-OPAC 」などのメニューを開く。)

 ・国立情報学研究所CiNii を開く )論文情報検索にあわせて,論文の全文または抄録のダウンロードができる。

 ・検索エンジンの Google Scholar は,学術資料を対象としている。領域を横断して検索するので,ランダムに結果がでる可能性がある。

 ・古典籍については,『国書総目録』・『古典籍総合目録』岩波書店を参照。両書の著作情報のみ,国文学研究資料館のHP(電子資料館)にある。

TOP