Kerasでのディープラーニングを使用したMNISTの手書き文字認識

Kerasでのディープラーニングを使用したMNISTの手書き文字認識を行ってみます。
MNISTは28×28ピクセルのグレースケール画像で0～9の手書き数字があります。60000個の訓練用の画像と10000個のテスト用の画像から構成されています。

以前、ディープラーニングを使用しない機械学習で約92%の正答率を出しているので、ディープラーニングを用いることで文字認識精度がどのくらい向上するか見てみます。

機械学習-MNIST（プログラム）

ソースコード

今回作成したKerasでのディープラーニングを使用したソースコードです。

#Kerasのインポート
import keras
print(keras.__version__)

#MNISTのデータをインポート
from keras.datasets import mnist

(X_train , Y_train ), (X_test, Y_test) = mnist.load_data()

#訓練用データの表示
print(X_train.shape)
print(Y_train)

#テスト用データの表示
print(X_test.shape)
print(Y_test)

# 特徴量の正規化
X_train = X_train.reshape((60000, 28 * 28))
X_train = X_train.astype('float32') / 255

X_test = X_test.reshape((10000, 28 * 28))
X_test = X_test.astype('float32') / 255

# モデルの構築
from keras.models import Sequential

model = keras.models.Sequential()
model.add(Dense(units=512,input_dim=28*28))
model.add(Activation('relu'))
model.add(Dense(units=10))
model.add(Activation('softmax'))
model.compile(loss='sparse_categorical_crossentropy',optimizer='sgd',metrics=['accuracy'])

#教師あり学習の実行
model.fit(X_train,Y_train,epochs=100)

#テスト用データの評価
test_loss, test_acc = model.evaluate(X_test, Y_test)

#正答率の表示
print('test_acc:', test_acc)

#Kerasのインポート

import keras

print(keras.__version__)

#MNISTのデータをインポート

from keras.datasets import mnist

(X_train , Y_train ), (X_test, Y_test) = mnist.load_data()

#訓練用データの表示

print(X_train.shape)

print(Y_train)

#テスト用データの表示

print(X_test.shape)

print(Y_test)

# 特徴量の正規化

X_train = X_train.reshape((60000, 28 * 28))

X_train = X_train.astype('float32') / 255

X_test = X_test.reshape((10000, 28 * 28))

X_test = X_test.astype('float32') / 255

# モデルの構築

from keras.models import Sequential

model = keras.models.Sequential()

model.add(Dense(units=512,input_dim=28*28))

model.add(Activation('relu'))

model.add(Dense(units=10))

model.add(Activation('softmax'))

model.compile(loss='sparse_categorical_crossentropy',optimizer='sgd',metrics=['accuracy'])

#教師あり学習の実行

model.fit(X_train,Y_train,epochs=100)

#テスト用データの評価

test_loss, test_acc = model.evaluate(X_test, Y_test)

#正答率の表示

print('test_acc:', test_acc)

ソースコードの詳細

Kerasのインポート

#Kerasのインポート
import keras
print(keras.__version__)

#Kerasのインポート

import keras

print(keras.__version__)

Using TensorFlow backend.
2.1.6

1 2	Using TensorFlow backend. 2.1.6

Kerasのインポートを行っています。既にKerasがインポートされている場合は不要です。keras.__version__と指定することでバージョンを表示することが出来ます。

MNISTのデータをインポート

#MNISTのデータをインポート
from keras.datasets import mnist

(X_train , Y_train ), (X_test, Y_test) = mnist.load_data()

#MNISTのデータをインポート

from keras.datasets import mnist

(X_train , Y_train ), (X_test, Y_test) = mnist.load_data()

MNISTのデータセットをインポートしています。MNISTは28×28ピクセルのグレースケール画像で0～9の手書き数字があります。60000個の訓練用の画像と10000個のテスト用の画像から構成されています。

訓練用データの表示

#訓練用データの表示
print(X_train.shape)
print(Y_train)

#訓練用データの表示

print(X_train.shape)

print(Y_train)

(60000, 28, 28)
[5 0 4 ... 5 6 8]

1 2	(60000, 28, 28) [5 0 4 ... 5 6 8]

訓練用データの表示をしています。60000個の訓練用の画像、28×28のピクセルで構成されていることが分かります。また正解用のラベルについても表示しています。正解用のラベルは5,0,4・・・5,6,8となっていることが分かります。この訓練用の画像と正解ラベルを学習させることでモデルを作成していきます。

テスト用データの表示

#テスト用データの表示
print(X_test.shape)
print(Y_test)

#テスト用データの表示

print(X_test.shape)

print(Y_test)

(10000, 28, 28)
[7 2 1 ... 4 5 6]

1 2	(10000, 28, 28) [7 2 1 ... 4 5 6]

テスト用データの表示をしています。10000個のテスト用の画像、28×28のピクセルで構成されていることが分かります。また正解用のラベルについても表示しています。正解用のラベルは7,2,1・・・4,5,6となっていることが分かります。訓練用データを使用して作成したモデルに対して、10000個のテスト用の画像を投入し、その画像が何の値を示すかを予想していきます。

特徴量の正規化

# 特徴量の正規化
X_train = X_train.reshape((60000, 28 * 28))
X_train = X_train.astype('float32') / 255

X_test = X_test.reshape((10000, 28 * 28))
X_test = X_test.astype('float32') / 255

# 特徴量の正規化

X_train = X_train.reshape((60000, 28 * 28))

X_train = X_train.astype('float32') / 255

X_test = X_test.reshape((10000, 28 * 28))

X_test = X_test.astype('float32') / 255

特徴量の正規化（スケーリング）を行っています。初めに（28,28）の2次元配列の画像データを28*28=784の1次元配列に変換しています。訓練用60000個のデータ全てに変換を行います。次にデータの中身を255で割っています。グレースケールは0～255の濃淡で表されており、特徴量データとして扱いやすい0～1の範囲に変換しています。同様にテスト用データにも特徴量の正規化（スケーリング）を行います。

モデルの構築

# モデルの構築
from keras.models import Sequential

model = keras.models.Sequential()
model.add(Dense(units=512,input_dim=28*28))
model.add(Activation('relu'))
model.add(Dense(units=10))
model.add(Activation('softmax'))
model.compile(loss='sparse_categorical_crossentropy',optimizer='sgd',metrics=['accuracy'])

# モデルの構築

from keras.models import Sequential

model = keras.models.Sequential()

model.add(Dense(units=512,input_dim=28*28))

model.add(Activation('relu'))

model.add(Dense(units=10))

model.add(Activation('softmax'))

model.compile(loss='sparse_categorical_crossentropy',optimizer='sgd',metrics=['accuracy'])

モデルの構築を行っています。

1行目：レイヤーの線形スタックであるSequentialモデルを適用します
2行目：中間層が512個、入力層が28*28個のニューロンを指定します
3行目：中間層の活性化関数にReLU関数を適用します
4行目：出力層を10個にします
5行目：出力層の活性化関数にsoftmax関数を適用します
6行目：compileでモデルを構築します。

教師あり学習の実行

#教師あり学習の実行
model.fit(X_train,Y_train,epochs=100)

1 2	#教師あり学習の実行 model.fit(X_train,Y_train,epochs=100)

作成したモデルに対して訓練用データを使用し学習させています。

テスト用データの評価

#テスト用データの評価
test_loss, test_acc = model.evaluate(X_test, Y_test)

1 2	#テスト用データの評価 test_loss, test_acc = model.evaluate(X_test, Y_test)

10000個のテスト用の画像に対して、先ほど作成したモデルを使用し評価を行っています。

正答率の表示

#正答率の表示
print('test_acc:', test_acc)

1 2	#正答率の表示 print('test_acc:', test_acc)

test_acc: 0.9806

1	test_acc: 0.9806

正答率は約98%となっています。MNIST For ML Beginnerでのディープラーニングを使用しない方法の場合は約92%の正答率だったため、ディープラーニングを用いることで認識精度が向上していることが分かります。