2009-08-02[n年前へ]
■質問・回答サイト・データの解析タスク
「質問・回答サイト・データの解析をしてみよう」という「タスク参加者募集:NTCIR-8 コミュニティQA・パイロットタスク」を知った。これは、とても面白そうだ。
今回、幸いにも、Yahoo! Japan社から、大規模なYahoo!知恵袋コーパス ver.2 *を提供いただける運びとなり、それを用いたパイロットタスクを以下のように企画しています。
1.タスク:
A. メインタスク: ベストアンサーの推定
B. サブタスク: 質問タイプ分類
* Yahoo! 知恵袋*コーパス ver.2**。約1億件。約2600万質問とそれについての回答データ7600万件、合計およそ100GB。言語は日本語。
質問・回答サイトは数多くある。しかし、質問者の「問い」に対して、質問者の聞きたいことを質問者のレベルに合わせて説明している回答はあまりないのが実情であるように思う。そしてまた、それらの質問・回答を「質問・回答サイト運営者」が有効に再利用できているかというと、もう少し言い換えれば、(サイト運営者が利益を得る顧客となりうる)「第三者」が有効に再利用することが容易な形の「知識」という形に(それらの質問・回答が)変換されているかというと・・・残念ながら未だそういうレベルには消化されていないように思われる。
しかし、そんな風に眺めているだけではつまらない。今回のような「パイロットタスク」が与えられたなら、きっと上手い「知識生成ツール」を作り出そうと思い立つ人が多くいるに違いない。もちろん、そこからは、「知識生成ツール」が実際に作りだされるに違いない、と思う。