[連載]フリーソフトによるデータ解析・マイニング第56回

統計的テキスト解析(1)~統計的データ解析とは?~

1.統計的テキスト解析とは

 データ解析やデータマイニングは定型化したデータを対象としている。データの定型化とは、研究対象の特徴を項目(変数)ごとに分け、表形式(あるいは配列形式)にまとめたものを指す。しかし、われわれの周辺の多くのデータは定型化されていない。
 定型化されていないデータの最も典型的な例は、文章(あるいは文書)である。文章とは、何らかの文字列が一定の文法規則に基づいた文の集合体を指す。従って、日記、小説、新聞記事、メール、ブログ文、演説文などは文章と呼ぶが、メーリングリストのログ、遺伝子やウイルスの情報を記号列で表記したものを文章と呼ぶには違和感を持つ方も少なくないようである。そこで、本稿では、記号列が何らかの規則に従って並べられた集合体をテキストと呼ぶことにする。 情報システムの普及とあいまって、テキストデータが急速に増加している。対象を絞っても一つ一つ目を通して分析するのは時間と労力がかかり、効率的に活用することが困難である。また、人によっては認識や解釈などが異なることもあり、テキストを定量的に解析することが求められている。
 定型化されていないテキストは単語やフレーズ、何らかの単位に分割し、それらの出現頻度や共起関係(同時出現)などを抽出し、データ解析やデータマイニングの手法で定量的に解析することができる。その分野を計算的テキスト解析(computational text analysis)、あるいは統計的テキスト解析(statistical text analysis)を呼ぶが、情報処理やビジネス分野では、テキストマイニング(text mining)と呼ばれている。
 近年このようなアプローチが市民権を得つつある。その例として、NHKで放映された平成19年10月1日夜のニュース番組の内容を紹介する。 衆知のように、平成19年9月12日、所信表明のわずか2日後に安部総理が突然辞任を表明し、安倍政権は1年足らずで幕を降ろした。1ヶ月足らずの時間を経て、福田康夫衆議院議員が内閣総理大臣に任命され、平成19年10月1日に所信表明演説を行った。当日夜のNHKのニュース番組では、安倍元総理の所信表明演説(平成18年9月29日)と福田総理の所信表明演説(平成19年10月1日)に用いられた3つの単語(改革、安定、安心)の頻度を用いて、分析・評論を行った。そのデータを表1に示す。

表1 安倍元総理と福田総理の語彙比較
安部 語彙 福田
16 革命 19
5 安定 11
2 安心 12

 表の真ん中の列が取り上げた単語であり、左の列が安倍元総理の所信表明演説で用いられた頻度(回数)であり、右の列が福田総理の所信表明演説で用いられた頻度である。
 取り上げた「安定」「安心」は明らかに、福田総理が安倍元総理より多く使用しているので、福田総理は「安心」「安定」を重視しているとニュースでは説明・評論した。このようなテキストに使用された項目を定量的に分析する手法が、まさに統計的テキスト解析である。
 ニュース番組で、テキストからデータを定型化して解析することは大いに評価する。しかし、ここでは幾つかの疑問点が残る。例えば、なぜこの3つの単語であるのか、2人の所信表明演説の長さは異なるのに、何回使用したかで解析するだけでよいのかなどである。これらに関しては、本連載において適切なところで説明することにする。

2.統計的テキスト解析の小史

 テキストを統計的に分析する分野として、計量文体学がある。計量文体分析の分野では100年前から、文章を構成する要素の特徴を定量的に分析する方法で文章の執筆者の推定などを行った。
 例えば、アメリカオハイオ州立大学の地球物理学者メンデンホール(Mendenhall)は,1887年に、光学におけるスペクトル(spectrum)分析方法を単語に適応し、単語のスペクトル(単語の長さの分布)分析による著者の識別に関する論文を『サイエンス』誌に発表した(Mendenhall, 1887)。
 単語のスペクトルとは、テキストに使用された単語が何文字により構成されているかについて、それぞれ1文字の単語、2文字の単語、3文字の単語…がどれぐらいあるかを集計したデータのことである。
 メンデンホールは、書き手によって好んで用いる単語の長さが異なることを実例で示した。
 またメンデンホールは,ボストンの慈善家の資金援助を受け,後ほど述べるシェークスピア(William Shakespeare)作の戯曲とベーコン(Francis Bacon)の作品についても分析を行った。
 当然ながら、その当時には電子計算機がなかったので集計する項目を目で確認しながらカウントする原始的な手法による集計分析であるので、今日のような膨大なデータを瞬時に処理することができなかったことは容易に想像できるであろう。しかし、定型化されていないテキストデータから何らかの単位でテキストを構成する要素を定型化して分析する今日の計量的テキスト解析の基本的なアイディアは同じである。
 昨今テキストマイニングという言葉をよく耳にするが、テキストマイニングは、従来の計量的文体分析の手法にコンピュータを有効に活用した自然言語処理の理論と技術を適応し、その応用範囲を広げた産物だと考えてもよいであろう。
 テキストマイニングはデータマイニングの派生語であり、1990年代の後半に用いられた新しい用語である。90年代の中頃まではテキスト解析、ドキュメント解析などと呼ばれたが、90年代の後半にはテキストデータマイニング(text data mining)、ドキュメントマイニング(document mining)と呼ばれることになり、現在はテキストマイニング(text mining)と呼ぶのが一般的になっている。
 テキストマイニングとは、膨大に蓄積されたテキストデータを何らかの単位(文字、単語、フレーズ)に分解し、これらの関係を定量的に分析することである。しかし、テキストを構成する要素を定量的に分析する手法は、テキストマイニングという用語が使われる、はるか前から計量文体分析のような分野で用いられてきた。

3.統計的テキスト解析の諸分野

 既に述べたように、文学作品のような文章に限らず、記号列が何らかの規則に基づいて並べられた集合体をテキストと見なし、次の項目に分けて、その主な分野について簡潔に述べる。

3.1 計量文体学

 文学作品の文体研究では、文章を構成する要素(文字、単語、文節、文、段落など)について統計的に集計分析を行い、文章のジャンルの特徴や個別作家の文体特徴などについて研究が行われてきた。比較的よく知られているのは、シェークスピアの作品の計量分析であろう。
 メンデンホールは、シェークスピア作の戯曲に用いられている単語40万語とベーコンの著作に用いられた20万語が何文字で構成されているかに関する単語の長さの分布について比較分析を行った。その結果、シェークスピア作の戯曲では4文字の単語が最も多く使用されているのに対し、ベーコンの作品では3文字の単語が最も多く使用されていることから、シェークスピアという人物は歴史上存在せず、ベーコンが圧政抗議のため一連の風刺劇を書いたという一部の人によって信じられていた説を否定した。その結果は、1901年に月刊誌『ポピュラー・サイエンス』に発表された(Mendenhall, 1901)。
 単語の長さの分布に安定した書き手の特徴が明確に現れるか否かは別とし、メンデンホールが計量的文体研究に与えた影響は非常に大きい。メンデンホールの計量的な研究から今日に至る一世紀の間に多くの研究が行われてきた。
 単語の長さに続いて、文体の計量に用いられるようになったのは単語の長さのアイディアを文に適応した文の長さの分布に関する計量的研究である(Yule, G. U. , 1938)。
 1940年代後半になると、因子分析などの多変量データ解析手法で、文章に用いられた単語や品詞などの情報に基づいた文章の性格や書き手の同定に関する研究が行われた。
 日本では1950年代の後半から、安本は源氏物語の宇治十帖の著者について、文章における心理描写の数、文の長さ、品詞の数、文章の長さの度合(長編度)、和歌、直喩、声喩、色彩語、名詞、用言、助詞、助動詞のそれぞれの使用度(12項目)を調べ、源氏物語の前44巻と後10巻(宇治十帖)について、心理文章学の視点で計量的に比較分析を行った(安本,1958,1974)。
 このような研究は、一般人が書いた短い文章の書き手の同定・推定に関する研究の分野も進んでおり、日記のような短い文章でも高い確率で書き手が同定できることが明らかにされた(金1997,金・村上2003)。近年、このような計量文体学の研究成果が匿名の手紙や脅迫文の書き手の同定、スパムメールの識別、ブログの分類のような分野にも応用されている。
 計量文体分析に関して比較的に早期の参考書としては波多野(1965)、安本(1974)、樺島,寿岳(1965)などがあり、文体・文献の計量に関しては、村上(1994),安本(1995), 村上(2002)、金・村上・他(2003),村上(2004)などがある。

3.2 計量言語学とコーパス言語学

 計量言語学は、言語現象を定量的に分析する分野である。日本では1957年に計量国語学会が設立され、世界で最も古い計量的に言語を扱う学会になっている。書き言葉であるテキストは言語現象の大きな部分であるので、広い意味では計量文体学も計量言語学に属する。また後述の計量的コーパス言語学も計量言語学として考えてもよいであろう。
 コーパス(corpus)とは、言語を分析のために集めた言語資料のことである。コンピュータという道具が広く普及していない時代のコーパスは、言語学者が集めた印刷物や写し物だったが、現在では電子化されたテキストファイル、あるいはデータベースを指すのが一般的である。以下、電子コーパスを略してコーパスと呼ぶことにする。
 コーパス言語学の応用の例として、2003年4月に放送を始めたNHKテレビの英語の番組「100語でスタート!英会話」がある。
 この番組では、BNC(British National Corpus)コーパスから、もっともよく使う表現を定量的に分析し、それを使う順に勉強するように工夫された番組である。
BNCは世界最大の英語コーパスで、書き言葉9千万語、話し言葉1千万語により構成されている。話し言葉1千万語のコーパスで用いられた頻出の上位の単語が全体に占める割合を表2に示す。

表2 基本語が占める割合
(出処: http://www.eigokyoikunews.com/eigokyoiku/essay/200310/index.shtml)
基本語ランク 全体に占める割合
1~100位 67.2%
1~500位 83.5%
1~1000位 89.0%
1~3000位 95.9%

 表の中の67.2%は、出現頻度が高い順の上位100語が全体に占める割合が67.2%であることを意味する。このような結果を用いると、語学教育を効率よく行うことが可能である。
 コーパスの中で早期のものとして広く知られているのは、1961年に公開されたアメリカ英語コーパス"Brown Corpus"とイギリスのコーパス"LOB Corpus"である。
 コーパス"Brown Corpus"は、Brown大学のW. N. FrancisとHenry Kuceraによって1961年から1964年にかけて作られた。これは、アメリカ英語100万語から構成されている。
 コーパス"LOB Corpus"(Lancaster-Oslo/ Bergen Corpus)は、"Brown Corpus"に相当するイギリス英語版のコーパスである。1970年Geoffrey Leechにより始められ、1978年Stig JohanssonとJostein Hauge, Knut Hofland の協力で完成された。Brown Corpusと同様、100万語のコーパスにより構成されている。これらのコーパスは、1961年に刊行された本、新聞、雑誌などから抜粋されたものである。
 日本における本格的な大コーパスは国立国語研究所が作成した「太陽コーパス」である。「太陽コーパス」は,現代語の書き言葉が確立する20世紀初期にもっともよく読まれた総合雑誌『太陽』(博文館,895~1928)から5年間を対象として1450万字のテキストに言語研究に有用な情報を埋め込んだものである。太陽コーパスの詳細に関しては検索エンジンでキーワード「太陽コーパス」によって検索できる。
 「太陽コーパス」の全文検索ツールとしては、国立国語研究所が公開している全文検索システム「ひまわり」がある。
 また国立国語研究所では、言語コーパス「KOTOHANA」の構築が始まり、2006年度から5年間で、最低でも5000万語分を作成して公開する予定である。
 コーパスは書き言葉コーパス,話し言葉コーパス,学習者コーパス,多言語コーパス,Webコーパス,漢文コーパス、古典語コーパスなど多様な内容・形態において作成されている。自然言語処理の分野では、品詞情報、文節の係り受け情報を付け加えたコーパス(例えば、京大コパース)、概念体系や構文木に関する情報を備えたコーパス(例えば、EDRコーパス)などが作成されている。
 計量言語学に関する入門書としては、伊藤(2002)、コーパスの技術的入門書としては、中尾・他(2002)、赤瀬川・中尾(2004),コーパスの計量および応用に関しては、斉藤・他(2005)などがある。

3.3 情報・知識の抽出

 情報処理の分野でのテキストの計量的な分析は、テキストマイニングと呼ばれ、広い分野で応用されている。

(1) お客様の声を分析

 企業ではサービスの一環としてコールセンターを設けて顧客への対応を行うと同時に、お客様の声を分析するため、それを記録として残す。また、インターネットの普及に伴い、インターネットのウエブページや電子メールなどを介し、電子化された顧客の意見やアンケート調査を行うことも急速に増えている。このような膨大なテキストデータに隠されたお客様の声から抽出した情報・知識をマーケティング戦略に生かして効果を得たという報告も少なくない。

(2) テキストマネジメントと情報・知識の抽出

 ITの普及のおかげで、企業内では営業日報、医療分野では医者・看護士・薬剤師の所見、知的所有権の分野では特許、メディア関係では新聞などのデータベース、一般社会ではインターネットウェブページにおけるテキストが急速に増え続けている。
 これらの膨大なテキストを何らかの特徴別に分類したり、ピックを抽出したりする計量的研究が急速に進んでいる。
 テキストマイニングに関しては、幾つかの商業ソフトが開発販売されている。しかし、その値段はデータ解析のソフトよりはるかに高額になっているのが現状である。比較的に機能がシンプルな商業ソフトもあるが、それにしても個人が簡単に買える値段ではない。
 テキストマイニングの社会的ニーズにより数冊の本が出版されている。フリーの形態素解析ソフトによる解析結果をExcelに読み込み解析を行う林(2002)、テキストマイニング商業ソフトを前提とした概念、技術、事例に重みをおいた石井(2002)、上田・他(2005)、那須川(2006)、三室・他(2007)などがある。また、福祉・心理・看護の立場からのテキストマイニングに関する藤井・他(2005)がある。

3.4 ゲノム学

 ゲノム(genome)とは、生物のもつ遺伝情報の全体を指す。地球上のほぼ全ての生物において、遺伝情報を担う物質はデオキシリボ核酸(略してDNA:deoxyribonucleic acid)であり、デオキシリボース(糖)とリン酸、塩基から構成される。その構造は2本の長い鎖に4つの核酸塩基が一定のルールに基づいて橋渡しのようにお互いに絡みあった2重螺旋状になっている。その4つの核酸塩基はアデニン、シトシン、グアニン、チミンであり、それぞれ文字列A, C, G, Tで表記して用いる。従って、DNAの情報を記録したものはこれらの文字列により構成されるテキストと見なすことができる。
 また、生体内でタンパク質の合成や遺伝情報の伝達に重要な役割を果たすリボ核酸(略してRNA:ribonucleic acid)がある。RNAの核酸塩基は基本的にアデニン、グアニン、シトシン、ウラシルの4種で構成され、それぞれ文字A, G, C, Uで表記して用いる。従って、RNAを表記したものもテキストと見なすことができる。
 近年、テキスト解析のアプローチでゲノムデータの解析が行われている。テキスト解析のアプローチによるゲノムの解析に関する本としてはSoumya Raychaudhuri(2006)がある。
 このように、われわれの周りには様々な形態のテキストデータがあり、テキストに関する研究は多岐にわたる。
 テキストデータから科学的に情報・知識を抽出するためには、一定の基礎知識やツールが必要であるが、現時点ではそれぞれ異なる分野で研究が行われており、共通する基礎知識、実践方法、手軽なツールに関して紹介した資料があまり見当たらない。
 そこで、本稿では数回に分けて、テキストの統計的解析に関する基礎知識を述べながら、手軽に実践できるフリーツールや使用方法などについて紹介する。

参考文献
[1]Mendenhall, T. C. (1887): The Characteristics Curves of Composition, Science, Ⅸ, 237-249
[2]Mendenhall, T. C. (1901): A Mechanical Solution of a Literary problem, Popular Science Monthly, 60, 97-105.
[3]Soumya Raychaudhuri(2006): Computational Text Analysis for Functional Genomics and Bioinformatics, Oxford Univ. Pr.
[4]Yule, G. U. (1938): On Sentence Length as a Statistical Characteristic of Style in Pros with Application to Two Cases of Disputed Authorship, Biometrika, 30, 363-390,
[5]伊藤雅光(2002): 計量言語学入門, 大修館書店
[6]上田隆穂, 戸谷圭子, 黒岩祥太, 豊田裕貴(2005): テキストマイニングによるマーケティング調査, 講談社
[7]樺島忠夫, 寿岳章子(1965): 文体の科学, 綜芸舎
[8]金明哲(1997): 助詞分布に基づいた日記の書き手の認識, 計量国語学, 20巻8号, 357-367.
[9]金明哲・村上征勝・他(2003): 言語と心理の統計, 岩波書店
[10]斉藤俊雄, 赤野一郎, 中村純作(2005): 英語コーパス言語学―基礎と実践, 研究社出版
[11]石井哲(2002): テキストマイニング活用法―顧客志向経営を実現する, リックテレコム
[12]赤瀬川史朗, 中尾浩(2004): コーパス言語学の技法〈2〉言語データの収集とコーパスの構築(単行本)夏目書房
[13]村上征勝(1994): 真贋の科学-計量文献学入門-, 朝倉書店
[14]村上征勝(2002): 文化を計る-文化計量学序説-, 朝倉書店
[15]村上征勝(2004): シェ-クスピアは誰ですか?, 文春新書
[16]中尾浩, 宮川進悟, 赤瀬川史朗(2002): コーパス言語学の技法〈1〉テキスト処理入門, 夏目書房
[17]那須川哲哉(2006): テキストマイニングを使う技術/作る技術―基礎技, 東京電機大学出版局
[18]三室 克哉, 鈴村 賢治, 神田 晴彦(2007): 顧客の声マネジメント―テキストマイニングで本音を「見る」, オーム社
[19]波多野完治(1965): 文章の心理学<新稿>、大日本図書
[20]林俊克(2002): Excelで学ぶテキストマイニング入門林俊克,オーム社
[21]藤井 美和, 李 政元, 小杉 考司(2005) : 福祉・心理・看護のテキストマイニング入門, 中央法規出版
[22]安本美典(1958): 文体統計による筆者推定-源氏物語,宇治十帖の作者について-心理学評論, 2, 147-156
[23]安本美典(1974):文章の心理学入門, 誠信書房
[24]安本美典(1995): 言語の科学日本語の起源をたずねる, 朝倉書店