ことえりライミング

どこの家にも紙くずの数百万倍溜まり放置されているメールから、その中に渦巻くリアルな心のうたを集め、このSPAMロメールにも心を認めてくれるのかいノーアイ、とメールフォルダを横破りにして登場した真の21世紀型ストリート感覚機械詩人、ことえりさん。新型OS発表の大波に流されず黙々と屑メールを拾う様を「なんか遅い」と酷評された日もあったが、そのナイフのように心をえぐるライミングは、心あるブロガーの多大なリスペクトを受けている(id:backbeat:20050430:p2)。
酒も飲まずに「ストリート機械詩人」だの「リスペクト」だのとキーボードで打ち込む33才の身にもなってください、ノーアイ(気に入っている)。さて、こんな「バカ見立て」に「これだけでいいからTigerほしい」「最高っつーか最強」「フロアはヒートアップ」などなど更にバカな(褒めてます)コメントが入る度、ああまだヒップホップは商業化なんてしていない、こんなに良いリスナー(笑)の土壌があるじゃないかとニヤニヤしたりゲラゲラ笑ったりしておりましたら、なんとことえりさんの作者らしき方からトラックバックがありました。

Tigerことえりは自分でせっせと賢くなるようにしたのだけれど:
こんな笑える機能だったとは。
思わず沈黙を破ってしまった。

この才能の前に黙殺はありえますまい(笑)。いや、そういう才能は想定外だと言ってるんですよ。すいません。
それで、あの辞書の語句と抽出についても少し紹介してくださいました。

品詞のところに「普通名詞」とあるのはフォールバックのデフォルト。自動学習辞書の内部ではもっと複雑な品詞が使われています(数百品詞くらいね + 意味ラベルとかいろいろ)。ことえりの辞書のダンプ形式は JIS X 4062 に倣っているのだけれど、そんな複雑な品詞や属性を表すことができないので、「普通名詞」なんてデフォルトになっちゃう。

なるほど。どうも普通に形態素解析しただけのようには見えないし、でもいい加減に切り出したにしてはかなりよく抽出できている部分もありました。ほとんどが「普通名詞」になっているから、あの時はうまく読み取れないのは全部「誤抽出」なんだろうと言ってしまいましたけども、誤解でした。訂正します。
どなたかチャレンジしてましたが、フリーの良質な形態素解析ソフトを使って同様にやってみても、ことえりさんの才能(笑)にはなかなか及びません。詳しくはないんですが、普通は「夏子の幕間」とは抽出しないで「夏子」「の」「幕間」と3つ抽出するはずで、でもこれだと単語だけ並んだリストができちゃって、あの生々しいライムにならない。いや、ならんでいい。ことえりだってなりたいわけじゃないだろう。
更に上記のページには「テキストに落とすと品詞情報が落ちるので、自動学習辞書をテキストにしたものを読み戻したりしないように」と注意があります。ハードコアなことえりライミングファンはご注意を。ノーアイ。