【Jupyter Notebook】Matplotlibで２次元グラフを描こう【その４：ヒストグラム応用編】

カテゴリ	タイ

それでは、今回は「【Jupyter Notebook】Matplotlibで２次元グラフを描こう【その３：ヒストグラム基礎編】」の続編として【その４：ヒストグラム応用編】として複数のグループの値を一つのヒストグラムに表示する方法と、近似曲線をヒストグラムに追加する方法を説明します。

Matplotlibの初心者の方は、Matplotlibで２次元グラフを描こう【その３：ヒストグラム基礎編】とこの記事にあるリンク先の記事に目を通していただけると、理解が早くできると思います。

複数のグループの値をヒストグラムに表示する。

histogram_05

それでは、有名なsklearnのトイデータセットであるアヤメの花のサイズに関するデータセットを使って、ヒストグラムに複数のグループを表示する方法を説明していきます。複数グループの表示方法は、半透明にして重ねる方法、横に並べる方法、上に積み上げる方法の３つの方法を説明します。

sklearnのトイデータセットについては、ぼくの別記事、Python sklearnのデータセット【datasets】について（その１：トイデータセット）を参照してください。

まずは、アヤメの花のサイズに関するデータセットを使って、花の萼片（がくへん）(sepal)の長さに関するヒストグラムを作成します。取り敢えずは、アヤメの品種に関しては区別せず、150個のサンプル全てに関するヒストグラムの描写を復習を兼ねて行います。

histgram_a_01

histgram_a_02

それでは簡単に上記のコードを説明します。基本的にはヒストグラムの基礎編で説明した内容を理解されていれば、問題ないはずですが、一つだけ、pandasというライブラリーからDataFrameという機能を新しく使っています。このpandasについては、まだぼくのブログでは解説していないので、ネットで調べていただきたいのですが、（すいません。）この機能は、pandasというよりは、Pythonの機能としてかなり重要ですので、ゆくゆくは記事にしたいと思っています。これでは、以下でここのコードを解説します。

ライン１：matplotlib.pyplotをpltとして呼び込む。ライン２：マジックコマンドにてコードの後にブラフを表示させる。ライン３：グラフのスタイルを指定。（目盛線を書かせる。）ライン５：アヤメのデータセットを読み込む。ライン６：読み込んだデータセットを"s_l"に代入。ライン８：pandasをpdとして呼び込む。ライン９：pd.DataFrameクラスを使ってiris.dataをiris_dfに代入。ライン１０：iris.dfから”sepal length (cm)"だけを取り出し、s_lに代入。

これ以降は、ヒストグラムの基礎編で解説した通りに単純にヒストグラムを描いているだけです。いかがでしょうか。それとライン１５の縦線は、カーソルが写っているだけですので、無視して下さい。（ごめんなさい。）

複数のグループの値を重ねて表示する

それでは、本題の複数のグループの値を重ねて表示する方法の説明に入ります。

histgram_a_03

histgram_a_04

コードの解説は以下の通りです。

ライン１：numpyをnpとして読み込む。ライン２〜11：上記の復習コードと同じ。ライン13：iris.dataをリストに変換しlist_typeに代入。ライン15：list_typeの0, 1, 2を本来のアヤメの品種名に置換。ライン17：ライン15で作ったlist_typeを”type”という（列の）名前をつけて列としてiris_dfに追加。ライン19：iris_dfの"type"列のユニークをtypesに代入。（[1, 2, 3, 1, 5, 2, 3]のユニーク値は[1, 2, 3, 5]) ライン22,23：上記の復習コードと同じ。ライン25：ヒストグラムの表示位置を指定。（英語のarrangeではなくarangeなのでスペル注意。）ライン27：tの値をアヤメの品種に変えながら３回まわす。ライン28：tと同じ品種のみのヒストグラくを描写。ライン29：ヒストグラムを描く位置（x値）指定。ライン30：ヒストグラムの幅指定。ライン31：ヒストグラムの透明度指定。（重ねても、下のヒストグラムが見えるように。）ライン32：変数labelにtを代入。ライン34：凡例を表示。ライン35：横軸のラベルを指定。ライン36：縦軸のラベルを指定。ライン38：表を表示。

複数のグループの値を並べて表示する

複数のグループの値を横に並べて表示する方法をご説明いたします。