Python2年生 データ分析のしくみ 体験してわかる!会話でまなべる!(森 巧尚)|翔泳社の本
  1. ホーム >
  2. 書籍 >
  3. Python2年生 データ分析のしくみ 体験してわかる!会話でまなべる!

Python2年生 データ分析のしくみ 体験してわかる!会話でまなべる!


形式:
書籍
発売日:
ISBN:
9784798164960
定価:
2,420(本体2,200円+税10%)
仕様:
B5変・200ページ
カテゴリ:
プログラミング・開発
キーワード:
#プログラミング,#開発環境,#開発手法,#Web・アプリ開発
紙の書籍
本書籍には新版があります
Python2年生 データ分析のしくみ 第2版 体験してわかる!会話でまなべる!

Pythonでデータ分析を体験してみよう!

【データ分析を一緒に体験しよう】
スクレイピングなどで集めた大量のデータ。
どうやって分析してたらよいか、困っていませんか?
「数式があって難しそう」
「プログラムも大変そう」
と思っている方も多いはず。
本書は、そうした方に向けて、サンプルを元にやさしく
データ分析の方法を解説しています。

【Python2年生について】
「Python2年生」は、「Python1年生」を読み終えた方を対象とした入門書です。
ある程度、技術的なことを盛り込み、本書で扱う技術について身に着けてもらいます。
『Python2年生 スクレイピングのしくみ』(ISBN:9784798161914)も刊行されています。

【対象読者】
・データの分析方法を知りたい初心者

【本書のポイント】
ヤギ博士&フタバちゃんと一緒に、データ分析の考え方から丁寧に解説。
データを分析する時に必要な前処理の方法や、データの集まりの見方、
データを見やすいグラフにする方法、データの分布の見方、予測の立て方を
解説する書籍です。

【著者プロフィール】
森 巧尚(もり・よしなお)
アプリの開発や、技術書や電子工作マガジンなどでの執筆活動。関西学院大学非常勤講師、
関西学院高等部非常勤講師、成安造形大学非常勤講師、プログラミングスクールコプリ講師など、
プログラミングに関する幅広い活動を行っている。
近著に『Python1年生』、『Python2年生 スクレイピングのしくみ』、
『Java1年生』、『動かして学ぶ!Vue.js開発入門』(いずれも翔泳社)、
『楽しく学ぶ アルゴリズムとプログラミングの図鑑』(マイナビ出版)などがある。

Pythonでデータ分析を体験してみよう!

Pythonでデータ分析を体験してみよう!

【データ分析を一緒に体験しよう】

スクレイピングなどで集めた大量のデータ。どうやって分析してたらよいか、困っていませんか? 「数式があって難しそう」 「プログラムも大変そう」 と思っている方も多いはず。 本書は、そうした方に向けて、サンプルを元にやさしくデータ分析の方法を解説しています。


【Python2年生について】

「Python2年生」は、「Python1年生」を読み終えた方を対象とした入門書です。ある程度、技術的なことを盛り込み、本書で扱う技術について身に着けてもらいます。『Python2年生 スクレイピングのしくみ』(ISBN:9784798161914)も刊行されています。


【対象読者】

データの分析方法を知りたい初心者


【本書のポイント】

ヤギ博士&フタバちゃんと一緒に、データ分析の考え方から丁寧に解説。データを分析する時に必要な前処理の方法や、データの集まりの見方、データを見やすいグラフにする方法、データの分布の見方、予測の立て方を解説する書籍です。


第1章 データ分析って何?
LESSON 01 データ分析って何
LESSON 02 データ分析の手順:PPDACサイクル
LESSON 03 Jupyter Notebookをインストールしよう
LESSON 04 Jupyter Notebookの使い方

第2章 集めたデータは前処理が必要
LESSON 05 表データを読み込もう
LESSON 06 データをざっくりと眺める
LESSON 07 データのどこを使う?
LESSON 08 データのミスをチェックする

第3章 データの集まりをひとことでいうと?:代表値
LESSON 09 データを平らに均(なら)す
LESSON 10 平均値を代表といっていいの?
LESSON 11 平均値が同じなら、同じといっていいの?

第4章 図で特徴をイメージしよう:グラフ
LESSON 12 データのばらつきがわかる
LESSON 13 基本的なグラフを作ろう
LESSON 14 ばらつきのわかるグラフ
LESSON 15 グラフをわかりやすく調整する

第5章 これって普通なこと?珍しいこと?:正規分布
LESSON 16 データのばらつきを数値で表す
LESSON 17 自然なばらつき
LESSON 18 この値は普通なこと?珍しいこと?
LESSON 19 このデータは自然なばらつき?
LESSON 20 違うばらつきのデータでの比較ができる

第6章 関係から予測しよう:回帰分析
LESSON 21 2種類のデータの関係性の強さ:相関係数
LESSON 22 散布図の上に線を引いて予測
LESSON 23 総当たりで表示させる散布図
LESSON 24 アヤメのデータを見てみよう

付属データはこちら

会員特典はこちら

お問い合わせ

内容についてのお問い合わせは、正誤表、追加情報をご確認後に、お送りいただくようお願いいたします。

正誤表、追加情報に掲載されていない書籍内容へのお問い合わせや
その他書籍に関するお問い合わせは、書籍のお問い合わせフォームからお送りください。

利用許諾に関するお問い合わせ

本書の書影(表紙画像)をご利用になりたい場合は書影許諾申請フォームから申請をお願いいたします。
書影(表紙画像)以外のご利用については、こちらからお問い合わせください。

追加情報はありません。
  • よくある質問

    Q:リスト6.12でエラーがでる
    A:本書刊行時はpandas 1.0.1を利用していますが、それからpandas 2.2.0になり、ライブラリに仕様変更があったようです。本書で解説している「df.corr()」は、これまでは「文字列などの非数値型のデータを含む列は、自動的に除外して計算する」という便利な設定でエラーが出なかったのですが、最近のバージョンでは「文字列などの非数値型のデータを含む列は、自動的には除外されない」という仕様に変わったようです。

    直前のプログラムで実行したように、「df.head()」を実行すると、以下のようにデータ内容を確認することができます。

    sepal_length sepal_width petal_length petal_width species
    0 5.1 3.5 1.4 0.2 setosa
    1 4.9 3.0 1.4 0.2 setosa
    2 4.7 3.2 1.3 0.2 setosa
    3 4.6 3.1 1.5 0.2 setosa

    species列のデータは文字列で、このためエラーが発生するようになりました。以前は、自動的にこの列を除外してくれていたのですが、これからは「A.手動で除外する」か、「B.数値以外を自動で除外する指定をする」必要があります。

    Bのほうが簡単に対処できます。

    df.corr()

    の命令文を

    df.corr(numeric_only=True)

    に変更して実行してください。

    -----------------------------
    Q:P.161~162ページでリスト5.18や、5.19を実行すると警告がでます。
    A:最新版の環境では、リスト5.18や、5.19を実行すると「FutureWarning(将来的な警告)」が出るようになりました。これはseabornに仕様変更があり「distplot」が将来的になくなるためです。しばらくは警告が出るだけで問題なく動きますが、将来的に「distplot」の表示はできなくなる可能性があります。初心者にはとても便利な命令だっただけに残念です。
    (2022/09/28更新)

ご購入いただいた書籍の種類を選択してください。

書籍の刷数を選択してください。

刷数は奥付(書籍の最終ページ)に記載されています。

現在表示されている正誤表の対象書籍

書籍の種類:

書籍の刷数:

本書に誤りまたは不十分な記述がありました。下記のとおり訂正し、お詫び申し上げます。

対象の書籍は正誤表がありません。

最終更新日:2024年01月11日
発生刷 ページ数 書籍改訂刷 電子書籍訂正 内容 登録日
1刷 033
「5.seaborn(シーボーン)をインストールします。」の本文
seabornをインストールするとscipyも自動的にインストールされる場合があります。「scipy」にチェックが付いてなければチェックを付けて、[Apply]ボタンをクリックしましす。・・・
同じように、検索窓で「seaborn」と入力して、「seaborn」にチェックを付けて、[Apply]ボタンをクリックしてインストールします。・・・
2024.01.11
1刷 037
吹き出し内 3行目
4刷
もできちゃう!
もできちゃう!
2021.08.30
1刷 047
1行目(書式のキャプション)
2刷
書式:データから、データフレームを作る
書式:データから、データフレームを作る
2020.08.07
1刷 063
書式 行データを追加する(※pandas 2.0以降をお使いの場合)
データフレーム = データフレーム.append(行データ)
データフレーム = pd.concat([データフレーム, pd.DataFrame(行データ).T])
2023.10.11
1刷 063
リスト2.21(※pandas 2.0以降をお使いの場合)
dfB = dfB.append(dfA.iloc[0])
dfB = pd.concat([dfB, pd.DataFrame(dfA.iloc[0]).T])
2023.10.11
1刷 076
書式:カンマ付き文字列の列データのカンマを削除する
5刷
データフレーム["列名"] = データフレーム["列名"].str.replace(",",""))
データフレーム["列名"] = データフレーム["列名"].str.replace(",","")

末尾の「)」を1つ削除します。
2022.07.04
1刷 083
表のAクラスの0行目の値
3刷
28
82
2021.01.07
1刷 122
箱ひげ図の下から3つ目の第3四分位数(75%ライン)の部分は第1四分位数(25% ライン)になる
2刷
>
2020.08.31
1刷 130
リスト4.26、4行目と8行目のXを小文字、5行目と9行目のYを小文字にする
3刷
df.plot.scatter(x="身長", y="体重", c="b", figsize=(12,8)) plt.title("私はどこにいるか") X=df.iloc[3]["身長"] Y=df.iloc[3]["体重"] plt.plot(x, y, c="r", marker="X", markersize=15) plt.axvline(x=X, c="r", linestyle="--") plt.axhline(y=Y, c="r", linestyle="--") plt.show()
df.plot.scatter(x="身長", y="体重", c="b", figsize=(12,8)) plt.title("私はどこにいるか") x=df.iloc[3]["身長"] y=df.iloc[3]["体重"] plt.plot(x, y, c="r", marker="X", markersize=15) plt.axvline(x=x, c="r", linestyle="--") plt.axhline(y=y, c="r", linestyle="--") plt.show()
2020.09.04
1刷 165
本文、下から1~3行目
4刷
 逆に、上から何%に入るには何点必要かも、「norm.ppf」で調べることができます。  上から、15.86%、2.275%、0.134%に入るには何点必要か調べてみましょう(リスト5.21)。
 逆に、上から何%に入るのに必要な偏差値は、「norm.ppf」で調べることができます。  上から、15.86%、2.275%、0.134%に入るのに必要な偏差値を調べてみましょう(リスト5.21)。

「点」ではなく「偏差値」になります。
2021.03.24
1刷 166
リスト5.21と出力結果
4刷
perlist = [0.1586, 0.02275, 0.00134] for per in perlist: ppf = norm.ppf(q=(1-per), loc=50, scale=10) print("上から", per * 100, "%以上に入るには、",ppf,"点が必要") 【出力結果】 上から 15.86 %以上に入るには、 60.002283757327085 が必要 上から 2.275 %以上に入るには、 70.00002443899604 が必要 上から 0.134 %以上に入るには、 80.02240904267309 が必要
perlist = [0.1586, 0.02275, 0.00134] for per in perlist: ppf = norm.ppf(q=(1-per), loc=50, scale=10) print("上から", per * 100, "%以上に入るには、偏差値",ppf,"以上が必要") 【出力結果】 上から 15.86 %以上に入るには、偏差値 60.002283757327085 以上が必要 上から 2.275 %以上に入るには、偏差値 70.00002443899604 以上が必要 上から 0.134 %以上に入るには、偏差値 80.02240904267309 以上が必要

「点」ではなく「偏差値」になります。
2021.03.24
2刷 129
リスト4.25 上から6行目
3刷
plt.plot(X, Y, c="r", marker="X", markersize=15)
plt.plot(x, y, c="r", marker="X", markersize=15)
2021.01.15

感想・レビュー

アルエ さん

2021-03-07

データ分析を勉強したくて読む 統計学に必要な基礎が中心 データ分析は、人間では限界がある ⇒「統計学」:「大量のデータから傾向を見つけ出して、法則を発見するための技術」

Fumie Togo さん

2021-02-14

kaggleをはじめたい私の機械学習導入本一冊目、ようやく欲しい本にたどり着いた…! 本書の内容は環境の構築~回帰曲線の目的と描写までです。必修のscikit-learnまでは本書ではフォローしていません。