【本書の概要】
本書はKaggleのコンペでメダル(銀メダル以上)を獲得したい方に向けて、モデルの構築における実験管理方法、生成AIを利用した情報管理方法などを解説した書籍です。
ツールとしてWandBを利用した実験管理手法を、NotionやChatGPTを利用した情報管理手法を紹介します。
最終章ではKaggle Competitions Grandmaster/Master(8名)が実践する実験管理の秘訣をインタビュー形式で60ページ以上にわたり紹介します。
【利用するツール】
・WandB
・Notion
・ChatGPT
【主な実験管理手法】
・ディレクトリ構造の設計
・ハイパーパラメータ管理
・ログ管理
【対象読者】
・データサイエンティスト
・機械学習エンジニア
・Kaggler
【目次】
CH0 初学者がKaggleを始めてメダルを取るまでの取り組み方の推移
CH1 実験管理とは
CH2 実験管理のためのツール
CH3 生成AIの活用
CH4 過去コンペを題材とした実戦ハンズオン
CH5 チームでの実験管理
CH6 Kagglerインタビュー
【著者プロフィール】
髙橋 正憲(たかはし・まさのり)
大学院卒業後、通信系企業にてコンピュータビジョンの研究開発に従事。2023年に広告会社へ中途入社し、TVの視聴率予測、バナー画像のクリック率予測等のアルゴリズムを開発。Kaggle Competitions Expert。
篠田 裕之(しのだ・ひろゆき)
大学院卒業後、広告会社にて、データ・テクノロジーを活用したマーケティング戦略立案、メディア・コンテンツ開発、ソリューション開発に従事。データを用いたTV番組企画立案・制作、レシピデータ分析に基づいた食品開発、GPS 位置情報データを用いた観光マーケティングなどに従事。Kaggle Competitions Expert。
【協力者プロフィール】
坂本 龍士郎(さかもと・りゅうしろう)
大学院卒業後、広告会社にて、バナー広告のクリック率予測や広告効果シミュレーター作成、大学との共同研究などの業務に従事。Kaggleではテーブルデータや信号処理のコンペなど様々なジャンルに挑戦し金メダルを獲得。Kaggle Competitions Master。
CHAPTER 0 初学者がKaggleを始めてメダルを獲るまでの取り組み方の推移
0.1 機械学習初学者の頃のKaggleの取り組み
0.2 実験管理方法の推移
0.3 Kaggleコンペ参加のハードル
0.4 チームでの実験管理
0.5 Kaggleを通して学んだ実験管理の重要性
0.6 Kaggleにおける実験管理の全体像
0.7 本書の構成と活用の仕方
CHAPTER 1 実験管理とは
1.1 実験管理の重要性
1.2 コードの再現性を高めるためのディレクトリ構造
Gitで管理
1実験1Notebook
1実験1ディレクトリ
1.3 実験結果の管理と出力ディレクトリの設計
出力ディレクトリの構成例
Kaggle Datasetへのアップロード例
1.4 実験結果の整理と考察
実験IDとNotebook名の対応
実験の派生元の記録
CVとLBの記録と可視化
考察と仮説の構築
整理と考察の習慣化
1.5 ハイパーパラメータの記録
1. ハードコーディング(非推奨)
2. CFGクラスを用いたハイパーパラメータの管理
3. argparseを使用したハイパーパラメータの管理
4. YAMLファイルの利用
5. argparseとYAMLの併用によるハイパーパラメータ管理
1.6 実験の再現性を高めるためのシード固定の重要性
シード固定の重要性
シードを固定しない場合と固定した場合の違い
まとめ
CHAPTER 2 実験管理のためのツール
2.1 実験ごとの履歴の保持
2.2 WandB:学習、モデル管理、パラメータ、lossトラッキング
WandBの始め方
ローカル環境での始め方
Kaggleでの始め方
LightGBMでのWandBの使い方
PyTorch(Deep Learning)でのWandBの使い方
WandBのインテグレーション機能の紹介
WandBの便利機能
2.3 Notion:アイデア整理、実験管理、TODO管理
ボードビューを用いたTODO管理
テーブルビューを用いた実験記録の整理
ドキュメントの整理
テンプレート機能を用いたコンペ専用ページの作成
テンプレートの使用
2.4 その他ツールについて
まとめ
CHAPTER 3 生成AIの活用
3.1 ChatGPTの活用
ChatGPTの始め方
3.2 Kaggleが初学者にとって難しい理由
3.3 コンペの概要サマリーの抽出
コンペの概要
データセットの理解
ドメイン知識の理解
3.4 ベースラインの理解
3.5 Discussionの要約
3.6 改善案のブレスト
3.7 コーディングのサポート
まとめ
CHAPTER 4 過去コンペを題材とした実戦ハンズオン
4.1 基本的なテーブルデータの場合
Notionページの作成
生成AIを活用したコンペ概要理解
ベースラインの作成
WandBで実験結果の確認
TODO管理
ベースラインの改善
実験結果の整理
4.2 画像コンペの場合
ベースラインの理解
テーブル機能を活用した画像データからの考察
4.3 コンペ終了後に取り組むべきこと
上位解法の確認と復習
コンペで得た知見やコードの整理
まとめ
CHAPTER 5 チームでの実験管理
5.1 チームでの実験管理の課題
実験方法の統一
アンサンブルやスタッキングにおける課題
サブミッション数の制限
5.2 チームマージ後にまずすること
コミュニケーションツールの活用
過去の実験結果の共有
CVの統一
まとめ
CHAPTER 6 Kagglerインタビュー
6.1 小林 秀 / すぐー Kobayashi Suguru
6.2 penguin46
6.3 tk
6.4 荻野 聖也 / Masaya Ogino Masaya
6.5 青田 雅輝 / Masaki AOTA Aota Masaki
6.6 村田 秀樹 / カレーちゃん Murata Hideki
6.7 中 真人 / chumajin Naka Masato
6.8 村上 直輝 / kami Murakami Naoki
内容についてのお問い合わせは、正誤表、追加情報をご確認後に、お送りいただくようお願いいたします。
正誤表、追加情報に掲載されていない書籍内容へのお問い合わせや
その他書籍に関するお問い合わせは、書籍のお問い合わせフォームからお送りください。
本書の書影(表紙画像)をご利用になりたい場合は書影許諾申請フォームから申請をお願いいたします。
書影(表紙画像)以外のご利用については、こちらからお問い合わせください。