AIプログラミング

機械学習-癌の識別 (試験データの中身)

更新日:

機械学習-癌の識別 (試験データの中身)

sklearnで練習用として癌の識別で用意されている569人分のデータの属性値は凹み,凹点,対称性等の10個 × 平均、標準誤差、最悪値と30個もあり、そのままprintで表示した場合はとても見えずらい形になっています。そのためpandasを利用して見やすい表に変換してみました。

癌の識別自体のプログラムについては以下の記事を確認してください

癌の識別の属性データ

属性データとしては以下の30種類が存在します。

「半径、テクスチャ、周囲、面積、滑らかさ、コンパクト、凹み、凹点、対称性、フラクタル次元」  × 「平均、標準誤差、最悪値」

printの表示

属性データの名称が分かります。凹み,凹点,対称性等の10個 × 平均、標準誤差、最悪値それぞれのデータが用意されています(合計 30個)

属性データの詳細データが分かります。30個の属性データが569件存在します。但しそのままでは非常に見えずらい表になっています。

pandasの変換表示①

pandas

pandasのDataFrameの引数として(data=データ名、columns=カラム名)を入力することでpandasで表形式に変換してくれます。そのままprint表記するよりも視覚的に分かりやすい表になってます。右側にはみ出している箇所についてはスクロールで確認することが出来ます。

pandasの変換表示②

pandasのDataFrameの引数として(data=データ名、columns=カラム名)を入力した後にprint表記するとこのようになります。出力されていないカラムについては、下へスクロールすることで別表として表示されています。視覚的に確認したい場合にはpandasでprintなし、コピーなど行いたい場合はpandasでprint表記で使い分けると便利です。

 

-AIプログラミング
-

Copyright© AI人工知能テクノロジー , 2019 All Rights Reserved.