March 18, 2008

言語処理学会第14回年次大会(NLP2008)

行ってきました

言語処理学会第14回年次大会(NLP2008) というのに行ってきました。
なかなかおもしろいですね、こういうの。
何がおもしろいって、質疑応答の時のあの微妙な緊張感。
建設的な質問もあれば、細かいところに突っ込みを入れたがるというか重箱の隅をつつきたがるような感じの質問も。
まあ、いろんな視点があるというのを知れて良いですね。

Web 上のデータから

Web 上のデータからどのように意味のある情報を抽出するか、というような話題が結構多かったように思います。
総じてどの研究も大した成果は出せてない印象を受けました。
というか、まだまだ全然模索段階なんですよね、こういう分野って。
結果の数値を見ても「はあ、そうですか」みたいな、それが何を意味するのか理解しにくいものが多い。
例えば、この理論を応用してこういうことをしてみたらなんと!こんな結果が出ましたー!!、みたいな感じだとわかりやすくて良いんだけどなぁ。
それは期待しすぎか。

ケーススタディとして

それぞれの研究は、結果はともかく、ケーススタディとして非常に価値があると思います。
例えば、機械学習をやろうとしたとき、そのために必要な学習データは人間が作るわけなんですが、その際にもいろんな問題が発生するそうです。
作成する学習データの質に個人間でばらつきが出たりとか、そもそもデータとしてどういうものが正しいのかがよくわからないケースがあったりだとか。
そういう問題って、実際にやってみないとわからないことが多々あると思うんですよね。

評判分析の手法とか

Web 上のデータ、特に CGM と呼ばれるようなコンテンツのデータを用いた評判分析の手法とかをいろいろ考えてる人がいるみたいですけど、あれは相当難しいですよ。
今の技術じゃまともな解析結果・意味のある解析結果なんてほとんど出せないと思います。
あと、これが一番重要なことだと思うんですけど、もし仮に Web 上のデータから意図した情報・意味のある情報を取り出すことに成功したとしても、それを用いて有用なアプリケーションが作れるとは限らないと思います。
つまり二段階の難しさがあるわけです。
で、現状、一段階目でかなり豪快につまづいているように見えます。

つーか、こういう Web マイニング的な分野の研究って混沌としてるなぁ。
何がしたいのかよくわからないものが多い。
意図がよくわからなくてもおもしろいものはおもしろいんだけど、おもしろければいいってもんでもないしなぁ。

形態素解析とか

形態素解析とかの話の方が研究としては純粋な感じで良い印象を受けた。
みんな本当に頭を使って研究しているなぁ、と感じた。
純粋に理論で勝負しないといけない世界だからなぁ。
知らない単語がたくさん出てきた。

本当は

ていうか、言語を理解する・文章の意味がわかるというのはどういうことなのか、というような話を本当は聞きたいんですけど、そういうのはやってないですね。

あさっても行きまーす。

September 22, 2007

読書: ことばはどこで育つか

ことばはどこで育つか ことばはどこで育つか
藤永 保

大修館書店 2001-02
売り上げランキング : 296135

Amazonで詳しく見る by G-Tools

かなり面白かった。
あとで書く。

August 7, 2007

もしかすると、実際の文法の「ルール体系」って一つだけじゃないんじゃないでしょうか

できれば毎日更新したいなぁと常々思っているんですが、みんさんいかがおすごしでしょうか。
認知意味論って知ってますか?
今こういう本読んでるんです。

認知意味論のしくみ (シリーズ・日本語のしくみを探る) 認知意味論のしくみ (シリーズ・日本語のしくみを探る)
籾山 洋介 町田 健

研究社 2002-01
売り上げランキング : 168105

Amazonで詳しく見る by G-Tools

この本の初めのほうを読む限りだと、認知意味論ってめちゃくちゃつまんないですね。
言葉で言葉を説明しようとして、自らすすんで罠にはまってるような印象を受けます。
気付いたらどうでもいいようなことばかり喋ってる、というような。

ま、でも文章は読みやすいですけどね。

しかし、「意味」って難しいですね。
いや、難しいなんてもんじゃないですね。
意味わかんないですね。
「なぜ意味が生まれるのか」というのも難しい問題ですが、「なぜそれがそういう意味をもつのか」というのもかなり難しい問題です。

話は変わります。
文法の話。

文法についてはいろんな理論があるようです。
いろいろありすぎて、わけがわかりません。
本を読んでもほとんどが意味不明です。
実際のところ、「理屈としてはわからなくもないけど本当にそうなのかはわからない」というような理論だらけなんじゃないでしょうか。
いろんな人がいろんな理論を組み立ててますが、いったいどれが正しいんでしょうか。

ふと思ったのですが、もしかすると、実際の文法の「ルール体系」って一つだけじゃないんじゃないでしょうか。
つまり、複数の「ルール体系」が並存しうるんじゃないかと。
例えば、それぞれの脳によって採用されている「ルール体系」が違ったりするんです。
グループ間や世代間で違ったりするわけです。
時間が経つにつれ、その「ルール体系」が変化し、それによって新しい表現が生まれたりするんじゃないでしょうか。
「ら抜き言葉」とかも、そういうことなのかも。

あー、ていうか、この程度のことなら他にも同じこと考えてる人がいるだろうな。

July 8, 2007

認知言語学と生成言語学

認知言語学 - Wikipedia

生成言語学において、ある言語現象が文法的であるか非文法的であるかという予測可能性が重視されるのに対し、認知言語学では、ある言語現象が解釈可能になるのはなぜか(あるいはなぜそのような解釈になるのか)という点を重視している
[略]
この両派の論争の背後には、言語学を近代科学として捉えるのか、或いは現代哲学の下に捕捉しようとするのか、の態度の違いがあり、必ずしも決定的な差異となっていないと思われる。

多分、それぞれ別のものについて論じているんだろうな。
生成文法のアプローチは「文の意味とは何か」という問いには何も答えない。
ていうか、生成文法とか、何が楽しいんだろう?とか思う。
結局、どんなに突き詰めていっても、文の構造規則についてわかるだけだし。
しかも、どうせ、文法規則に則ってないような文を解釈する必要に迫られた時に、例外的な理論をあれこれ考えたりとか不毛なことをするはめになるだろうし。

なぜその文の意味が「かくかくしかじか」であると解釈できるのか?

「言語ゲーム」の理論からすると、実はこういう問いはナンセンス。
そういう取り決め(あるいは規則、またはルール)になっているから、としか答えられない。

これって、「なぜ犬を犬と呼ぶのか」という質問と本質的には同じなんじゃないかな。
ただ「犬を犬と呼ぶ」というルールに従って「犬」という言葉が運用されているだけ。
それがなぜなのかは知らない。
「誰かが昔、それを犬と呼ぶことにしたから」というのは本質的な答えになってない。

ウィトゲンシュタインはこんなこと言った。

語りえぬものについては、沈黙せねばならない。

つまり上の問いは、この「語りえぬもの」に言及しようとしている点でナンセンスなんですよ。

でもこの言葉、深い意味が込められてはいるんだけど、抽象的すぎてあまり良くない気がする。
なぜなら、人によっていろんな解釈ができてしまうから。
これが例えば詩とかだったらいいですよ。
いろんな解釈ができて。
でも、哲学においてはそれじゃまずいでしょと。
ていうか、この言葉だけが一人歩きしている状況がいけないんだな。

形式意味論批判

形式意味論 - Wikipedia

形式意味論(formal semantics)は自然言語意味論の一つであり、自然言語を一種の形式的体系と捉え、文の意味はその構成要素から一定の手順に従って構成的に決定されると考える立場である。
[略]
形式意味論は、言語と外界との直接の結びつきを仮定し、実際に言語を用いる人間の認知活動を捨象しているため、主に認知意味論の研究者からの強い批判もある。

前から言ってますが、文の意味をその文のみから導き出そうとするのには無理がありますよ。
その文が出現したコンテキストとかパースペクティブみたいなものこそがアレなんですよ。
えーと…

July 5, 2007

読書: 日本語に主語はいらない

これ読んだんですけど、面白かったですよ。

日本語に主語はいらない―百年の誤謬を正す 日本語に主語はいらない―百年の誤謬を正す
金谷 武洋

講談社 2002-01
売り上げランキング : 58236

Amazonで詳しく見る by G-Tools

実はまだ最後まで読んでなかったりするんですが。
残り40ページほど。
今まで文法についてなんてそんな深く考えたこと無かったんですよねぇ。
「助詞」とか言われてもピンとこなかったり。
でもこの本読んで、文法やその考え方についてだいぶ深く理解できた気がします。

ちなみに、日本語に主語がいらないというのは、文法を構文的な側面から見た時の話です。

ていうか、syntax と semantic をごっちゃに扱ってる人が多い気がする。
semantic として「主語」と「述語」が絶対に必要で、そのことから syntax にもそれに対応する形で「主語」と「述語」が無ければならない、とか考えてそう。

あ、いいこと思いついた。
「セマンティック・ウェブ」とか言うのやめて「シンタックス・ウェブ」って言ったらどうだろう。
セマンティックとか言っちゃってるけど、あんなの嘘っぱちだからね。
結局あれで定義できるのって構文(シンタックス)にすぎない。
機械が処理できるのはしょせん構文(シンタックス)まで。
最終的にそこから意味(セマンティック)を見出すのは結局のところ人間なわけで。

なんか違う話になってるけど。

追記:
この本、かなりおもしろくて良い刺激をたくさん得られたんだけど、そのことがこの記事では全然伝えられていない。
ので、あとで書く。