AIプログラミング

sikit-learnのnumpyのデータをpandasに変換する

投稿日:

sikit-learnのnumpyのデータをpandasに変換する

numpyとはプログラミング言語Pythonにおいて数値計算を効率的に行うためのライブラリで、pandasとはデータ解析を支援する機能を提供するライブラリです。
pandasを使用することでnumpyのデータが視覚的に見えるようになります。

ここでは具体的にsikit-learnにて提供されているデータ(ボストン市の住宅価格)をベースにnumpyのデータをpandasの形式に変換してみます。

ソースコード

必要なライブラリをインポートします。今回はnumpyとpandasを用いるためそれぞれインポートしています。また図の描画としてmatplotlibのライブラリもインポートしています。
sikit-learnよりボストン市の住宅価格のデータをインポートします。合わせてデータの説明の表示を行っています。

説明文として14つの要素が存在し、その中の一つの要素(MEDV)が一般的に正解ラベルに使用されるということが記載されています。また、それぞれのデータは506個存在します。

初めにnumpy形式で住宅価格のラベルを表示しています。

次にnumpy形式で住宅価格の実際のデータを表示してみます。506個のデータが存在していますが、データ量が多いのでそのままでは分かりにくくなっています。そのためpandas形式に変換してみます。

pandasで表示したデータ-その1

DataFrame(numpy形式)とすることで表が見やすくなります。ただ、この表では試験用のデータのみが表示されているのみなので、正解ラベルについても表示を追加しています。

pandasで表示したデータ-その2

正解ラベルが追加されました。

それぞれのデータについてもアクセスすることができます。例えば部屋数(RM)を取得したい場合はdata.data[:,5]と指定します。

matlibでのプロット

このように、部屋数をX軸、値段をY軸にプロットすることで相関関係の図の描画を行うこともできます。

pandasでカラム名を指定して図を描画する

pandasではカラム名を指定して図を描画することもできます。

それぞれカラム名でアクセスすることが分かりましたので図を描画してみます。

matlibでのプロット

このようにPandasの場合はカラム名をしていして描画をすることが出来ます。

 

-AIプログラミング
-,

Copyright© AI人工知能テクノロジー , 2019 All Rights Reserved.