bh2.mgzl.jpを仮リリースしました。

Better Hotentry

やっとのことで仮リリースまでこぎつけました。そのうちbh.mgzl.jpの方と入れ替える予定ですが、しばらくはこのままです。

主に増えた機能は

  • ブコメ取得時にスターも取得して、ブックマークページと同じようにスターで並び替え
  • 正規表現可のURLフィルタリングとカテゴリのフィルタリング、またその逆の必ず表示する機能
  • 30分あたりのブコメ数の小さいグラフと大きなグラフ(小さいグラフをクリックすると大きなグラフが見られます)
  • 30分あたりのブクマ数が上昇中のものに「🔥」マークがつく機能(炎上じゃなくてHotの意)

このぐらいでしょうか。あとはユーザースコア・記事スコアの算出式の調整はしています。

設定画面や画面の見方などの説明・ヘルプ系を含め、TODOはまだ残っていますが、一応実用段階になったので公開です。 あと、faviconも作りました。

続きを読む

bh.mgzl.jpの全面改修のお知らせ

現行のPHPベースのコードだと改修にそろそろ限界がきて、全面的にnodejsに移行することにしました。

新規評価アルゴリズムもうまくいくかわからないので、当面はベータ版として現行版とも並行して運用するつもりです。

UIはあまり変えるつもりは無いですが、設定画面だけ別にちゃんと作ります。

メモ的に主な変更点など

  • node+mongo環境に移行
  • フロントエンドはVue.jsに移行(Vueをちゃんと使ってみたかっただけ)
  • 評価アルゴリズムの調整
  • フィルタされた状態でのRSS配信(ユーザーカスタムのフィルタに対応するかは未定)

以下感想など

PHP+MySQLでWebAPI叩きまくるバッチ処理とか辛さしかないのでやめましょう。
あと、はてなAPIで微妙に困ることがある。特にブコメ非公開のページをはてブAPIで取ろうとすると403出すのやめて欲しい。

俺はインターネットにある「面白い」記事を読みたいだけなんだよぉぉぉ

読んで思ったことをせっかくなので書いておく。 tmura.hatenablog.com

以下「記事」と言う言葉を連呼するが、はてブに上がってくるコンテンツ全てを指していて、新聞記事やブログのエントリー、SNSの投稿、増田など全てを含んでいる。

What is "面白い".

日本語で「面白い」という言葉は、interestingとかfunnyとかの意味を含むが、ここではfunnyについては忘れて欲しい。 つまりスラドで言う「面白おかしい」ではなく「興味深い」の話。個人的には「おもおか」についてははてブ以外で満たされている。

面白い記事とは自分の知らなかった事が書いてある記事、この言葉に集約される。別に技術的な話でも、宇宙的な話でも、DPZ的な事でも、アニメの解釈でも、芸能人のスキャンダルでも、肉でも基本的になんでも良い。多分これは全ての情報に対する面白さの最小公倍数だと思う。

ではその面白さを定量的に評価できるかっていうと、不可能でしょ。皆が知らないことはディープラーニングでも学べない。たぶん現代のテクノロジーでは不可能。そこではてブ含めどのSNSでもなんとか間接的に評価して、玉石混交ですくいあげている。その「なんとか間接的に評価する」のところがとても厄介で、はてブであればブクマ数(と運営の加味する幾つかのパラメータ)が基準となっている。ただ、ブクマというのは本来面白いものを評価する仕組みじゃない。ブクマはブクマ以上の何物でもなさ気であるのが問題。

What is "はてブ".

面白い事を面白いと評価するサービスじゃねぇんだよ。運営はそこに早く気がつけよ。いい加減にしろ。ユーザーもいい加減にしろ。そう言うサービスじゃないし、今の運営に求めてもそう言うサービスにはなれねんだよ。

諦めよう

みんなはてブに、運営に期待するのはやめよう。はてブをベースにしたサードパーティのサービスを使おう。

bh.mgzl.jpの今後の更新予定

いろいろネタが溜まってきたので一旦まとめておきます。

  1. (強力な)既読管理
  2. カルマ確認機能
  3. カルマ計算式の調整
  4. 記事スコアの調整
  5. フィルタリング機能の調整

1. (強力な)既読管理

同じ記事が別サイトから配信された場合(Yahooニュースと新聞社サイトなど)、まとめて表示したい。(やる)
できればキワード抽出とかをしたい。(仮実装して良さそうだったらやる)

2.カルマ確認機能

なんとなくユーザーのカルマを確認したい時があるのでWeb上でインターフェースを用意する。(やる、けど隠し機能にするかも)

3.カルマ計算式の調整

根本的にちょっと変えたい。もっとマイナスにさせたい(仮実装して良さそうだったらやる)

4.記事スコアの調整

パラメーターを微調整

5.フィルタリング機能の調整

パラメーターを微調整

bh.mgzl.jpがv4.3.1になりました

更新内容

  • 記事スコアに非公開ブックマーク数の割合での補正を追加
  • アンカーリンクが含まれるURLのはてブページへのリンクがおかしかったのを修正
  • 内部的な調整・バグ修正

非公開ブックマーク数の割合での補正

ちょっと思いついたので入れてみた。全体的に以前より記事スコアは低くなるはずです。
導入理由は1つは非公開ブクマはスパム的な記事で割合が多い(気がする)からです。もう1つは「いい記事ならきっと公開でブクマしたいはず。」という理由です。

近いアイディアとして、ブコメの有り無しを記事スコアに影響させるのは見送りました。コメントの有り無しはどちらかと言うとユーザーのカルマに影響させるべき値と思っていて、それを実装するのは処理量的にしんどいからです。

「痛いニュース」は異常

anond.hatelabo.jp

こんな増田があったので、書きかけだった記事を仕上げてみる。

痛いニュースはかつて「これは痛いニュースに載る」なんて言い回しもあったくらいに、一番古い記事は2005年12月で10年以上運営されている老舗のまとめブログだ。2chの運営との癒着やらバックマージンの噂もあるがその辺はよく知らないので特に言及しない。

下記挙げる数字は2016/6/15 14時頃の集計。なお、この統計はプログラムのバグ等によって実際とは全く違ったものである可能性もあるので、内容を一切保証するものではない。

というか、自分がそう思えるくらい驚いた。

直近5739記事中で10記事以上ホットエントリ入りしたサイト

blog.livedoor.jpのみ下位ディレクトリを含めてある。

URL ホットエントリ入した数
anond.hatelabo.jp 614
togetter.com 295
www.asahi.com 232
www3.nhk.or.jp 222
blog.livedoor.jp/dqnplus(痛いニュース 151
headlines.yahoo.co.jp 134
gigazine.net 109
www.itmedia.co.jp 101
d.hatena.ne.jp 73
toyokeizai.net 63
bylines.news.yahoo.co.jp 62
mainichi.jp 57
qiita.com 57
www.sankei.com 56
www.hahalife0.com 47
kabumatome.doorblog.jp(全力2階建) 44
nlab.itmedia.co.jp 43
twitter.com 41
japanese.engadget.com 40
speakerdeck.com 33
www.buzzfeed.com 31
www.publickey1.jp 31
www.nikkei.com 31
b.hatena.ne.jp 29
www.slideshare.net 27
this.kiji.is 26
portal.nifty.com 26
zasshi.news.yahoo.co.jp 26
jp.techcrunch.com 26
www.kandosaori.com 25
www.gizmodo.jp 25
www.lifehacker.jp 24
business.nikkeibp.co.jp 24
enter101.hatenablog.com 24
delete-all.hatenablog.com 24
coliss.com 23
alfalfalfa.com(アルファルファモザイク 23
hitamu.hatenablog.com 22
wired.jp 22
www.yomiuri.co.jp 22
hrktksm.hatenablog.com 21
www.mikinote.com 21
dabunmaker.hatenablog.com 21
www.in-activism.com 20
gendai.ismedia.jp 19
www.huffingtonpost.jp 19
potatostudio.hatenablog.com 18
news.yahoo.co.jp 18
postd.cc 18
www.afpbb.com 18
www.anizm.xyz 18
karapaia.livedoor.biz 17
www.youtube.com 17
note.mu 15
pc.watch.impress.co.jp 15
next.rikunabi.com 15
ameblo.jp 14
blog.livedoor.jp/itsoku(IT速報) 14
p-shirokuma.hatenadiary.com 14
www.zenmashiniki.com 14
diamond.jp 14
www.cloudsalon.net 14
www.nikkansports.com 14
lineblog.me 14
azanaerunawano5to4.hatenablog.com 13
dev.classmethod.jp 13
matome.naver.jp 13
www.yutorism.jp 13
omocoro.jp 13
www.pojihiguma.com 13
www.dokusyo-geek-ki.com 12
www.forest.impress.co.jp 12
www.newsweekjapan.jp 12
www.akisane.com 12
www.4gamer.net 12
watto.hatenablog.com 11
dokushohon.hatenablog.com 11
ascii.jp 11
natalie.mu 11
blog.livedoor.jp/nwknews(nwk) 11
biz-journal.jp 11
www.outward-matrix.com 11
developer.hatenastaff.com 11
withnews.jp 11
r.gnavi.co.jp 11
www.ituore.com 11

まとめブログだけまとめると

  • 痛いニュース 151
  • 全力2階建て 44
  • アルファモザイク 23
  • IT速報 14
  • 哲学ニュースnwk 11

となる。

痛いニュースの異常さがお分かりいただけたと思う。あと、はてブのメインコンテンツは増田。

かつてはハム速なども比較的よくホットエントリ入りしていたが、2chから転載禁止を言い渡された結果、「自分のブログのコメントを自分でまとめる」という悲しさがハンパないサイトに変貌し全く見かけなくなった。

この2chからの転載禁止騒動の時、他にやらおん・はちま・刃・ニュー速VIPに対しても転載が禁止され、主語は大きいが「2chまとめブログってクソだな」というのが皆の共通認識だと思ってた。

考えうる理由

b.hatena.ne.jp

ブックマークを見ると色んな意見がある。

実は単に上がるだけでなく、bh.mgzl.jpでの記事スコアもそこそこある。これは、それなりに読者数の多いユーザーが素早く多くブクマしているということに他ならない。主観だが、中堅ユーザーが非常に多いように感じる。上位カルマ保持者がブクマしているのはあまり見ない。

これは、”はてブ民”が実際のはてブユーザーとは剥離乖離しているだけだと思っている。特に普段ブコメをつけないはてブユーザーは少なくない。要するに主語がでけぇってことなのだが、この剥離乖離は大きいと思う。

スパム説も捨てがたいが、何かデータを取ったわけではないので、なんとも言えない。確かに無言ブクマは多いが、ホットエントリ入りする記事としてはそこまで偏った割合ではないと思う。

つまり俺にはよく分からん。

痛いニュースはマジで異常

2chまとめブログ死すべし、慈悲はない」派も「別に面白かったらブクマするよ」派もその他の考えも別に構わないが、痛いニュースは異常と言っていいほどホットエントリーに入っている。

これは単に痛いニュースが良いサイトだからなのか、何か闇の力が働いているのかは先にも述べたが俺には分からない。

兎も角まとめブログ群の中でもホットエントリ入りする記事の中でも、痛いニュースは特異な存在ということだけは伝えておきたかった。