2006年07月03日
コンテンツとデータにおける質
コンテンツとデータの違い.
まず例から入りますと,アナウンサーが喋った綺麗な音声だけを「データ」として集めても,音声認識は出来ません.男性の音声だけを集めても女性の声は認識できません.大人の声だけを集めても子供の声は認識できません.魅力的な文書だけを分析しても魅力的な文書は書けません.ヒットした曲だけを分析してもヒット曲は作れません.
つまり,「データ」は何を知りたいかに応じて,できる限り全てに近い量を集める必要があります.上の例で言えば,文書という文書をプロが書いたものから素人が書いたものまで全て集めることによって,魅力的な文書と魅力的でない文書の違いというのが始めて見えてくるのです.(全て,と言っても注意が必要で,例えば対象を小説に限るのであれば小説だけ集めてくればいいし,そうでなくても日本語の文書を対象にしているのであれば英語の文書を集める必要は無いということです.)データにおける”質”というのは,ターゲットとする特徴を際立たせるのに十分な量をもつかどうかということにかかっていると思います.
一方,「コンテンツ」の質は,ひとえにそのもの自体に魅力があるかどうかにかかっているのではないかと思います.
我々のようにパターン認識などを対象としてる研究においても,データの収集は非常に大切ですが,データとコンテンツにおける「質」の違いを履き違えて,コンテンツにおける「質」の高いデータ(いわゆる"綺麗な"データ)ばかりを集めて満足してしまう人がたまにいるので気をつけていただきたいものです.
- by fujie
- at 02:36
comments