livedoorブログ検索が新技術を開発、スパムの約9割が表示されなくなった?
2008-10-10、livedoorブログ検索がスパムブログを表示しない新技術を搭載したらしい。
- livedoor ブログ検索
- 増え続けるスパムブログの現状は ライブドアが検索に新技術、9割排除 – ITmedia News
livedoorブログ検索のスパム排除を確認してみると…
まず、上記記事の引用から、スパムブログの定義は、
増え続けるスパムブログの現状は ライブドアが検索に新技術、9割排除 – ITmedia News
スパムブログとは、アフィリエイト収入を得たり、特定のサイトへ誘導することを目的に、専用ツールを使って自動生成された、内容の伴わないブログ。
別のブログやニュースサイトの記事をそのままコピーしたものや、アフィリエイトリンクを大量に掲載しているもののほか、流行のキーワードや芸能人の名前など、検索されやすい言葉を並べ、意味の通らないでたらめの文章「ワードサラダ」を自動生成し、投稿しているものもある。
ということだが、まぁ間違いはないだろう。
そこで、検索してみる。
livedoorブログ検索には、更新時間順と検索スコア順を選ぶことができる。
- livedoor ブログ検索:「リンク」更新時間順
- livedoor ブログ検索:「リンク」検索スコア順
うーん、どこがスパムを排除しているのだろうか?
- livedoor ブログ検索:「ガンダム」更新時間順
- livedoor ブログ検索:「ガンダム」検索スコア順
上記は、Google 急上昇ワードの過去1週間と過去1ヶ月から、選んでみた。
新たに、スパムブログを自動判定する新技術を、社内の共通スパムフィルター「スパムちゃんぷるー」に搭載し、ブログ検索に実装した。
新技術は、10種類ほどのフィルタリングシステムを組み合わせている。詳細は非公開だが、まずはクローラーで収集したブログ記事の中にブラックリ ストに登録されたブログの記事がないかをチェックし、その後フィルタにかける。スパムブログが見つかれば、検索対象から除外する。
まず、検索スコア順の方はひどい、大々的に謳うわりには、超古典的なキーワード詰め込みが上位表示されている。
これに反して更新時間順の方は、検索エンジンのキモである「関連性」が感じられる検索結果とはなっていない。
このように、関連性もなくキーワード詰め込みなどが検索上位となるlivedoorブログ検索は、使い物になるとは思えないのだが、いかがだろうか?
- ライブドア「スパムちゃんぷるー」、ブログ検索結果をキレイに:ニュース – CNET Japan
ちなみにGoogleの「ガンダム」のブログ検索。
- ガンダム – Google ブログ検索 日付順
- ガンダム – Google ブログ検索 関連性の高い順