末端検索エンジニアとして生活しているが、日々の業務で「自分の好きなものをちゃんと理解して、対象のデータセットの性質を理解して、検索の方法を理解して、検索ができるユーザーはそうそういないな」という気持ちがあり、そろそろ推薦も本腰入れて学び始めてみるかと思って読んだ。
全体としてとても学びがある内容だった。読書メモは本のコピペ並に書いてしまったので割愛。
自分自身、情報検索を多少+機械学習をうっすら勉強していたので、聞いたこと・見たことののある内容もそこそこあった。
個人的にとても嬉しかったのが以下の点 (内容)
「推薦アルゴリズムの詳細」にある「各アルゴリズムの比較」の表
前に 推薦システム: 統計的機械学習の理論と実践 に手を伸ばしたときは「実際に実務ではどれがよく使われているんだ…?」「もう今は全部機械学習で置き換えられていたりしないのかな..?」と気になってしまった (まだ完読できていない…)
この本では各アルゴリズムの強み・弱みや、実務で使う場合どのように取り組んでいくべきかという話に触れられており、実体感を持って読みやすかった。
この本を読んだ後なら推薦システム: 統計的機械学習の理論と実践も完読できる…かもしれない
「推薦システムの評価」
検索システム周りでも触れられる指標や評価方法が多くあり、自分にとっての真新しさがとてもあったわけではないが※、きれいに整理されているため都度見直したいを思える章だった。
※知識としては知っていても実務に導入できていないので頑張っていきたい…
「発展的なトピック」
特に良かったのが「バイアス」「相互推薦システム」「Uplift Modeling」
バイアスについては「言われてみるとそうだよね」というものではあるが、実際に名前がついて明示されると明確に意識が向いて良いと感じた。おそらくはここに載っているもの以外にも多数のバイアスがあると思われるので、自分でも調べて見る必要がありそう。
全体を通して、更に詳しく知りたい人への本の推薦があること
「実践入門」とタイトルにあるだけあって、実務で推薦システムを実装するに当たり必要な部分に広く触れていただいている印象があった。一方で「もっと詳しく知りたい方は~」のように他の本への参照が多数あるのが嬉しい。実務で困ったり、もっと知識を得たいと感じたときの道筋を教えてもらえるのは非常に助かると感じた。
総合して非常に良い本だった。
まだMovieLensのデータセットを使った例も試せていないので少しずつ試していきつつ、自分の業務に適用できる範囲はどこかを考えていきたい。
2023-05 追記
「5章 推薦アルゴリズムの詳細」の写経が終わった。
当初は本で定義されているBaseRecommenderを利用して一気に書く→実行の流れで写経しようと思ったものの、データの理解が追いつかない部分が出てきたため、Jupyter Notebookで逐一データの中身を確認しながらやるようにした。
写経をやる前と比べて当然理解は深まったものの、実務において悩む部分がまだ残る。 特に、似たような特性を持つアルゴリズムはどれから試すべきか、という点が気になっている。 また、実際に推薦機能を導入するときのオフライン評価の基準もどうしたもんかな、とも思ったが、人気度順や過去見た動画とのmore like thisでの評価値を基準に置くのがやりやすそうな気がした。
このあたりは機械学習の推薦系コンペなどで素振りしていると肌感覚が身につく気もしているので、いくつか過去問をやってみるのもいいのかもしれない。