Excel形式のデータをPandas形式に変換する
Pythonには便利なライブラリがそろっており、それらのライブラリを効果的に使用することで簡単に様々な機能を実現することができます。Pandasもその一つのライブラリであり、表形式でデータを管理できるデータフレームの機能が備わっています。
今回はExcelのデータを読み込み、Pandasで表形式に変換してみます。
以前、sikit-learnにて提供されているでのアヤメのデータをExcelで出力しているので、そのデータを使用していきます。
ソースコード
1 2 3 4 5 |
from pandas import Series,DataFrame import pandas as pd # エクセルの入力ファイル名、シート名を指定 df = pd.read_excel('iris_data.xlsx',sheetname='data') |
1 2 |
#データフレームの中身を表示 df.head() |
読み込んだデータを表示しています。すでにPandas形式で格納されています。
1 2 |
#データフレーム(カラム単位)の中身を表示 df['sepal length (cm)'] |
1 2 3 4 5 6 7 8 9 10 |
0 5.1 1 4.9 2 4.7 3 4.6 4 5.0 5 5.4 6 4.6 7 5.0 8 4.4 9 4.9 |
Pandas形式のためカラム単位での表示も可能です。
1 2 3 |
#numpyの形式に変更する data.data = df.values print(data.data) |
1 2 3 4 5 6 7 8 9 10 11 12 |
[[ 5.1 3.5 1.4 0.2] [ 4.9 3. 1.4 0.2] [ 4.7 3.2 1.3 0.2] [ 4.6 3.1 1.5 0.2] [ 5. 3.6 1.4 0.2] [ 5.4 3.9 1.7 0.4] [ 4.6 3.4 1.4 0.3] [ 5. 3.4 1.5 0.2] [ 4.4 2.9 1.4 0.2] [ 4.9 3.1 1.5 0.1] [ 5.4 3.7 1.5 0.2] [ 4.8 3.4 1.6 0.2] |
データフレームのvaluesを使用することで、numpyの形式にも変換可能です。
read_excel関数を使用することで簡単にExcelのデータをPandas形式に変換することができました。ExcelとPandasを交互に変換できるようになると応用が広くなるので是非活用してみてください。