什么是微調(diào)模型？微調(diào)模型實(shí)現(xiàn)熱狗識(shí)別

更新時(shí)間:2023-06-07 來(lái)源:黑馬程序員瀏覽量:

微調(diào)的原理

如何在只有6萬(wàn)張圖像的MNIST訓(xùn)練數(shù)據(jù)集上訓(xùn)練模型。學(xué)術(shù)界當(dāng)下使用最廣泛的大規(guī)模圖像數(shù)據(jù)集ImageNet，它有超過(guò)1,000萬(wàn)的圖像和1,000類的物體。然而，我們平常接觸到數(shù)據(jù)集的規(guī)模通常在這兩者之間。假設(shè)我們想從圖像中識(shí)別出不同種類的椅子，然后將購(gòu)買(mǎi)鏈接推薦給用戶。一種可能的方法是先找出100種常見(jiàn)的椅子，為每種椅子拍攝1,000張不同角度的圖像，然后在收集到的圖像數(shù)據(jù)集上訓(xùn)練一個(gè)分類模型。另外一種解決辦法是應(yīng)用遷移學(xué)習(xí)(transfer learning)，將從源數(shù)據(jù)集學(xué)到的知識(shí)遷移到目標(biāo)數(shù)據(jù)集上。例如，雖然ImageNet數(shù)據(jù)集的圖像大多跟椅子無(wú)關(guān)，但在該數(shù)據(jù)集上訓(xùn)練的模型可以抽取較通用的圖像特征，從而能夠幫助識(shí)別邊緣、紋理、形狀和物體組成等。這些類似的特征對(duì)于識(shí)別椅子也可能同樣有效。

微調(diào)由以下4步構(gòu)成。

1.在源數(shù)據(jù)集(如ImageNet數(shù)據(jù)集)上預(yù)訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)模型，即源模型。

2.創(chuàng)建一個(gè)新的神經(jīng)網(wǎng)絡(luò)模型，即目標(biāo)模型。它復(fù)制了源模型上除了輸出層外的所有模型設(shè)計(jì)及其參數(shù)。我們假設(shè)這些模型參數(shù)包含了源數(shù)據(jù)集上學(xué)習(xí)到的知識(shí)，且這些知識(shí)同樣適用于目標(biāo)數(shù)據(jù)集。我們還假設(shè)源模型的輸出層跟源數(shù)據(jù)集的標(biāo)簽緊密相關(guān)，因此在目標(biāo)模型中不予采用。

3.為目標(biāo)模型添加一個(gè)輸出大小為目標(biāo)數(shù)據(jù)集類別個(gè)數(shù)的輸出層，并隨機(jī)初始化該層的模型參數(shù)。

4.在目標(biāo)數(shù)據(jù)集(如椅子數(shù)據(jù)集)上訓(xùn)練目標(biāo)模型。我們將從頭訓(xùn)練輸出層，而其余層的參數(shù)都是基于源模型的參數(shù)微調(diào)得到的。

當(dāng)目標(biāo)數(shù)據(jù)集遠(yuǎn)小于源數(shù)據(jù)集時(shí)，微調(diào)有助于提升模型的泛化能力。

熱狗模型

接下來(lái)我們利用微調(diào)模型來(lái)實(shí)踐一個(gè)具體的例子：熱狗識(shí)別。將基于一個(gè)小數(shù)據(jù)集對(duì)在ImageNet數(shù)據(jù)集上訓(xùn)練好的ResNet模型進(jìn)行微調(diào)。該小數(shù)據(jù)集含有數(shù)千張熱狗或者其他事物的圖像。我們將使用微調(diào)得到的模型來(lái)識(shí)別一張圖像中是否包含熱狗。

首先，導(dǎo)入實(shí)驗(yàn)所需的工具包。

import tensorflow as tf
import numpy as np

獲取數(shù)據(jù)集

我們首先將數(shù)據(jù)集放在路徑hotdog/data之下:

每個(gè)類別文件夾里面是圖像文件。

上一節(jié)中我們介紹了ImageDataGenerator進(jìn)行圖像增強(qiáng)，我們可以通過(guò)以下方法讀取圖像文件，該方法以文件夾路徑為參數(shù),生成經(jīng)過(guò)圖像增強(qiáng)后的結(jié)果，并產(chǎn)生batch數(shù)據(jù)：

flow_from_directory(self, directory,
                            target_size=(256, 256), color_mode='rgb',
                            classes=None, class_mode='categorical',
                            batch_size=32, shuffle=True, seed=None,
                            save_to_dir=None）

主要參數(shù)：

directory: 目標(biāo)文件夾路徑，對(duì)于每一個(gè)類對(duì)應(yīng)一個(gè)子文件夾，該子文件夾中任何JPG、PNG、BNP、PPM的圖片都可以讀取。

target_size: 默認(rèn)為(256, 256)，圖像將被resize成該尺寸。

batch_size: batch數(shù)據(jù)的大小，默認(rèn)32。

shuffle: 是否打亂數(shù)據(jù)，默認(rèn)為T(mén)rue。

我們創(chuàng)建兩個(gè)tf.keras.preprocessing.image.ImageDataGenerator實(shí)例來(lái)分別讀取訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集中的所有圖像文件。將訓(xùn)練集圖片全部處理為高和寬均為224像素的輸入。此外，我們對(duì)RGB(紅、綠、藍(lán))三個(gè)顏色通道的數(shù)值做標(biāo)準(zhǔn)化。

# 獲取數(shù)據(jù)集
import pathlib
train_dir = 'transferdata/train'
test_dir = 'transferdata/test'
# 獲取訓(xùn)練集數(shù)據(jù)
train_dir = pathlib.Path(train_dir)
train_count = len(list(train_dir.glob('*/*.jpg')))
# 獲取測(cè)試集數(shù)據(jù)
test_dir = pathlib.Path(test_dir)
test_count = len(list(test_dir.glob('*/*.jpg')))
# 創(chuàng)建imageDataGenerator進(jìn)行圖像處理
image_generator = tf.keras.preprocessing.image.ImageDataGenerator(rescale=1./255)
# 設(shè)置參數(shù)
BATCH_SIZE = 32
IMG_HEIGHT = 224
IMG_WIDTH = 224
# 獲取訓(xùn)練數(shù)據(jù)
train_data_gen = image_generator.flow_from_directory(directory=str(train_dir),
                                                    batch_size=BATCH_SIZE,
                                                    target_size=(IMG_HEIGHT, IMG_WIDTH),
                                                    shuffle=True)
# 獲取測(cè)試數(shù)據(jù)
test_data_gen = image_generator.flow_from_directory(directory=str(test_dir),
                                                    batch_size=BATCH_SIZE,
                                                    target_size=(IMG_HEIGHT, IMG_WIDTH),
                                                    shuffle=True)

下面我們隨機(jī)取1個(gè)batch的圖片然后繪制出來(lái)。

import matplotlib.pyplot as plt
# 顯示圖像
def show_batch(image_batch, label_batch):
    plt.figure(figsize=(10,10))
    for n in range(15):
        ax = plt.subplot(5,5,n+1)
        plt.imshow(image_batch[n]）
        plt.axis('off')
# 隨機(jī)選擇一個(gè)batch的圖像        
image_batch, label_batch = next(train_data_gen)
# 圖像顯示
show_batch(image_batch, label_batch)

微調(diào)模型

模型構(gòu)建與訓(xùn)練

我們使用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet-50作為源模型。這里指定weights='imagenet'來(lái)自動(dòng)下載并加載預(yù)訓(xùn)練的模型參數(shù)。在第一次使用時(shí)需要聯(lián)網(wǎng)下載模型參數(shù)。

Keras應(yīng)用程序(keras.applications)是具有預(yù)先訓(xùn)練權(quán)值的固定架構(gòu)，該類封裝了很多重量級(jí)的網(wǎng)絡(luò)架構(gòu)，如下圖所示：

模型構(gòu)建與訓(xùn)練

實(shí)現(xiàn)時(shí)實(shí)例化模型架構(gòu)：

tf.keras.applications.ResNet50(
    include_top=True, weights='imagenet', input_tensor=None, input_shape=None,
    pooling=None, classes=1000, **kwargs)

主要參數(shù)：

include_top: 是否包括頂層的全連接層。

weights: None 代表隨機(jī)初始化， 'imagenet' 代表加載在 ImageNet 上預(yù)訓(xùn)練的權(quán)值。

input_shape: 可選，輸入尺寸元組，僅當(dāng) include_top=False 時(shí)有效，否則輸入形狀必須是 (224, 224, 3)(channels_last 格式)或 (3, 224, 224)(channels_first 格式)。它必須為 3 個(gè)輸入通道，且寬高必須不小于 32，比如 (200, 200, 3) 是一個(gè)合法的輸入尺寸。

在該案例中我們使用resNet50預(yù)訓(xùn)練模型構(gòu)建模型：

# 加載預(yù)訓(xùn)練模型
ResNet50 = tf.keras.applications.ResNet50(weights='imagenet', input_shape=(224,224,3))
# 設(shè)置所有層不可訓(xùn)練
for layer in ResNet50.layers:
    layer.trainable = False
# 設(shè)置模型
net = tf.keras.models.Sequential()
# 預(yù)訓(xùn)練模型
net.add(ResNet50)
# 展開(kāi)
net.add(tf.keras.layers.Flatten())
# 二分類的全連接層
net.add(tf.keras.layers.Dense(2, activation='softmax'))

接下來(lái)我們使用之前定義好的ImageGenerator將訓(xùn)練集圖片送入ResNet50進(jìn)行訓(xùn)練。

# 模型編譯：指定優(yōu)化器，損失函數(shù)和評(píng)價(jià)指標(biāo)
net.compile(optimizer='adam',
            loss='categorical_crossentropy',
            metrics=['accuracy'])
# 模型訓(xùn)練：指定數(shù)據(jù)，每一個(gè)epoch中只運(yùn)行10個(gè)迭代，指定驗(yàn)證數(shù)據(jù)集
history = net.fit(
                    train_data_gen,
                    steps_per_epoch=10,
                    epochs=3,
                    validation_data=test_data_gen,
                    validation_steps=10
                    )

Epoch 1/3
10/10 [==============================] - 28s 3s/step - loss: 0.6931 - accuracy: 0.5031 - val_loss: 0.6930 - val_accuracy: 0.5094
Epoch 2/3
10/10 [==============================] - 29s 3s/step - loss: 0.6932 - accuracy: 0.5094 - val_loss: 0.6935 - val_accuracy: 0.4812
Epoch 3/3
10/10 [==============================] - 31s 3s/step - loss: 0.6935 - accuracy: 0.4844 - val_loss: 0.6933 - val_accuracy: 0.4875