livedoorブログ検索が新技術を開発、スパムの約9割が表示されなくなった?

2008-10-10、livedoorブログ検索がスパムブログを表示しない新技術を搭載したらしい。

  • livedoor ブログ検索
    • 増え続けるスパムブログの現状は ライブドアが検索に新技術、9割排除 – ITmedia News

livedoorブログ検索のスパム排除を確認してみると…

まず、上記記事の引用から、スパムブログの定義は、

増え続けるスパムブログの現状は ライブドアが検索に新技術、9割排除 – ITmedia News

スパムブログとは、アフィリエイト収入を得たり、特定のサイトへ誘導することを目的に、専用ツールを使って自動生成された、内容の伴わないブログ。

別のブログやニュースサイトの記事をそのままコピーしたものや、アフィリエイトリンクを大量に掲載しているもののほか、流行のキーワードや芸能人の名前など、検索されやすい言葉を並べ、意味の通らないでたらめの文章「ワードサラダ」を自動生成し、投稿しているものもある。

ということだが、まぁ間違いはないだろう。

そこで、検索してみる。

livedoorブログ検索には、更新時間順と検索スコア順を選ぶことができる。

  • livedoor ブログ検索:「リンク」更新時間順
  • livedoor ブログ検索:「リンク」検索スコア順

うーん、どこがスパムを排除しているのだろうか?

  • livedoor ブログ検索:「ガンダム」更新時間順
  • livedoor ブログ検索:「ガンダム」検索スコア順

上記は、Google 急上昇ワードの過去1週間と過去1ヶ月から、選んでみた。

新たに、スパムブログを自動判定する新技術を、社内の共通スパムフィルター「スパムちゃんぷるー」に搭載し、ブログ検索に実装した。

新技術は、10種類ほどのフィルタリングシステムを組み合わせている。詳細は非公開だが、まずはクローラーで収集したブログ記事の中にブラックリ ストに登録されたブログの記事がないかをチェックし、その後フィルタにかける。スパムブログが見つかれば、検索対象から除外する。

まず、検索スコア順の方はひどい、大々的に謳うわりには、超古典的なキーワード詰め込みが上位表示されている。

これに反して更新時間順の方は、検索エンジンのキモである「関連性」が感じられる検索結果とはなっていない。

このように、関連性もなくキーワード詰め込みなどが検索上位となるlivedoorブログ検索は、使い物になるとは思えないのだが、いかがだろうか?

  • ライブドア「スパムちゃんぷるー」、ブログ検索結果をキレイに:ニュース – CNET Japan

ちなみにGoogleの「ガンダム」のブログ検索。

  • ガンダム – Google ブログ検索 日付順
  • ガンダム – Google ブログ検索 関連性の高い順
«
»