Bayesian filter for MT + MeCab

ベイジアンフィルターを使って、コメントやトラックバックのスパムをチェックするBayesian filter for MTはそのままでは英単語にしか対応していません(なので、日本語のスパムに対しては無力)。LunaTearさんの所のMT用ベイズ系フィルタではKakasiをつかって日本語対応されてますが、MeCabを使って対応させる方法を書いておきます。

Continue reading

Blog reader + Bayesian Filter = good?

たくさんのBlogを読むためには使いやすいBlog readerが必要になると思うのだけれど、使いやすいと思う一つの指標として興味のある記事を優先してピックアップしてくるというのがあげられると思う。そして、そのようにするために、興味ある記事か無い記事かを判断するのにBayesian Filterが使えないだろうか。

Bayesian FilterはSpamをフィルタリングするのに使われています。Bayesian FilterにSpamに特徴的な単語を教えておいて、メールを受信したときにその特徴的な単語がある程度含まれていたらSpamと判定すると言った具合です。詳しくはベイジアンフィルタの改善をみてください。

さて、そこで思いついたのは、Bayesian FilterでSpamが検出できるなら、逆に興味あることだけを検出できるのではないかと思ったのです。実際やってみないと何とも言えないのですが、ホントに興味あることだけしか引っかからずに、いろんな情報を仕入れることが出来なくなったりして…。でも、表示順位の重み付けぐらいにしておけば問題ないのかな。

このようなことをしている人がいたり、そんなことをしているソフトがあったらぜひ教えてください。

Blogの概要を書くときのtips

Blogの記事の編集画面の一番下の欄には概要欄があるのだけれど、毎回その欄に記事の概要を書くのは面倒くさい。そういったときに便利なtips。Mac限定ですが。

OSXには要約サービスという便利な機能があります(OS9とかにもあるらしいですが使ったこと無いので分かりません)。これはその名の通り適当な文章を渡すと、大事そうな文章を選んで要約してくれるものです。しかもなかなか精度がいい。
使い方は簡単で、要約したい文章を選択した後で「メニューバーのアプリケーション名 > サービス > 要約する」と選ぶだけ。後は要約文のサイズをスライダーで調整して、いい長さになったら概要欄に貼り付けるだけ。とっても簡単。

編集画面の要約の欄はRSSを配信するときに使われて、何も入力されていないと本文(body)がそのまま使われてしまいます(英語だと最初の20単語だけを切り出してくれるらしいのですが、日本語はダメみたい)。あまり長いとBlog readerなんかで読むときに大変なので、なるべく概要欄には概要を入れておくといいです。

要約サービスは外部から呼び出して使うことも出来るので、WCAN RNAアンテナで配信する前に各Blogの本文を要約して配信するのもありかなと思ってます。となるとRNAをOSX環境で動かして要約サービスと繋ぐプログラムを作らないと行けないんだけどね。でもそういうことやってる人(RSS の description の自然言語要約を AppleScript に任せた)もいるみたいなので何とか出来るんじゃないかな。

Continue reading

RSSベースのアンテナ「RNA」

rna – RSSベースのアンテナ「RNA」というのを見つけました。
これは Blog reader + アンテナ みたいなCGIで、Blogサイトなどで公開されているRSSを使って更新情報を取得してくるものです。よくあるアンテナページのようにただ単に更新日時とサイトへのリンクだけを一覧表示するのではなく、各Blogの記事を切り出してくることも出来ます。(いまwcanBlog Antennaで使っているlinkAroでも切り出しとかはできるみたいですが、HTMLベースで処理を行っているようなので、せっかくあるRSSを生かせないような気がしてます)
プラグインで機能拡張も出来たり、表示のさせ方もMovable Typeのようにテンプレートでカスタマイズできるので、wcanBlog Antennaとして使うとおもしろいと思ってます。

Continue reading