2005.02.27

ランキングの内容を調整する

「アクセスの多いページ」「このページのリンク元」に表示される内容をカスタマイズすることができます。 ログイン後の設定ページ中の「統計設定」画面にて行います。

この機能は自由度を上げるために「正規表現」を用いてカスタマイズできるようになっていますが、正規表現をうまく使うには知識とコツが必要ですので、ここで典型的な使い方に関して記します。

基本的な考え方は、「統計設定」画面にて設定した「パターン」が、URL に「マッチ」した場合に除外や書き換えが行われる、というものです。つまり「パターン」には検索条件を入力することになります。


「リンク元表示を除外するパターン」の設定方法

まず、リンク元表示の除外設定についてです。 この機能はごく簡潔にいうと、入力されたキーワードを含む URL は「このページのリンク元」に表示しない、というものです。webmail の URL など、リストアップされても意味がない、あるいはリストアップされると困るようなプライベートな URL はここに記述することでリスティングされなくなります。

この欄には URL の一部を記入すれば大抵はうまくいきますが、正規表現ということで、いくつかの記号には単純な文字とは異なる意味があります。

. は "." ではなく任意の一文字という意味になります

任意の一文字には "." という文字自身も含まれるので問題になることは少ないですが、記述が短すぎる場合には意図しない URL が除外対象と判断される可能性もあります。もし、明示的に"."という文字と合致するようにしたい場合は、\. と記述します。

例:http://www\.sk-jp\.com/

この機能を利用すると、除外対象の URL が固定的でない場合にも対応できるようになります。

例:livedoor の webmail ページからのリンクを除外する方法(*)。

http://wm-..\.livedoor\.com/webapp/view

livedoor-webmail の場合、wm-"数字二桁".livedoor.com という URL になりますので、"数字二桁"の部分を ".." と表記することで任意の文字にマッチすることになります。さらに厳密に判定するには [0-9][0-9] のように記述することができます。興味ある方は正規表現そのものについて調べてみてください。

*:livedoor を含むある程度の webmail の URL はデフォルトで除外するようになっています。

通常と異なる意味を持つ他の文字

前述の . 以外ではそれほど使用する可能性のある文字はありませんが、少しだけ記載しておきます。以下にリストアップした文字をそのまま検索対象とするには、文字の手前に \ を記述する必要があります。

\
続く文字をそのままマッチ対象とするための文字。この文字自体をマッチさせるには \\ と記述しなければなりません。
[]
囲まれた中に記載された任意の一文字という意味になります。
()
囲った範囲をグルーピングします。詳細説明は省略します。
+
手前の文字の1回以上の繰り返しという意味になります。
*
手前の文字の0回以上の繰り返しという意味になります。
?
手前の文字が存在する場合としない場合の両方にマッチします。index.html? のように書けば、"index.htm" と "index.html" のいずれにもマッチします。
^
URL の先頭という意味になります。^http:// のように書けば、「"http://" で始まる」という意味です。
$
URL の末尾という意味になります。index.html$ のように書けば、「"index.html" で終わる」という意味です。

「自サイトで同一視/無視する URL のパターン」の設定方法

こちらはリンク元表示よりややこしい設定になります。 「アクセスの多いページ」に表示される内容について、ほとんどの場合トップページが先頭になるのが嫌という場合や、同じページを表す URL が複数あるためにランキング中に複数個表示されたり、アクセス数が少なく表示されることを防ぎたい場合に用います。

具体的には、例えばココログなどが典型的なのですが、http://shin.txt-nifty.com/ と http://shin.txt-nifty.com/philosophical/ は同じページになるのに、それぞれへのアクセスが個別に集計されてしまいます。このような場合には、以下のように記述します。

例:http://shin.txt-nifty.com/ を http://shin.txt-nifty.com/philosophical/ とみなす。

s|http://shin.txt-nifty.com/$|http://shin.txt-nifty.com/philosophical/|

(s|置換元|置換後| となるようにしてください。記述ミスの行は無視されます)
(追記)$ は、上に記したとおり、URL の末尾という意味です。これがないと、http://shin.txt-nifty.com/ を含む全てが http://shin.txt-nifty.com/philosophical/ に置き換わってしまいます。3/24 まで上記サンプルでも $ を付け忘れてしまっていました。申し訳ありません_o_。

index.html または index.htm の有無を無視して同一ページと解釈させるには次のようにします。

s|/index.html?$|/|

置換後の文字列部分を空にすることで、その URL を集計から除外できます。

例:トップページをカウント対象外とする。

s|http://shin.txt-nifty.com/$||
s|http://shin.txt-nifty.com/philosophical/$||

(s|無視するURL|| となるようにしてください。記述ミスの行は無視されます)

2005.02.27 15:02 [ちょっとしたコツ] | PermaLink

トラックバック

この記事のトラックバックURL: