[Python] 讀取MNIST手寫數字 & EMNIST手寫字母的資料集－K_程式人

MNIST的資料集由0~9數字所組成,

The MNIST Dataset: 點擊我

進入上方提供的網址可找到資料集如下:

直接下載_訓練影像(.gz): 點擊我

直接下載_訓練標記檔(.gz): 點擊我

直接下載_測試影像(.gz): 點擊我

直接下載_測試標記檔(.gz): 點擊我

其中訓練資料為60000筆,

測試資料為10000筆,

影像大小為 28x28,

本版把MNIST資料集抽取出後轉換影像格式,

字形樣式如下:

0
1
2
3
4
5
6
7
8
9

EMNIST則為MNIST的擴充版,

此資料集內加入了英文字母的手寫,

The EMNIST Dataset: 點擊我

直接下載所有Dataset(.gz): 點擊我

Matlab版本的Dataset: 點擊我

EMNIST字形樣式如下:

下方提供讀取載入資料集的方法:

第一種方法: (手動解壓縮.gz檔)

import numpy as np

import struct

train_img_file = 'emnist-balanced-train-images-idx3-ubyte'

binfile = open(train_img_file, 'rb')

buf = binfile.read()

index = 0

magic, numImgs, numRows, numCols = struct.unpack_from('>IIII', buf, index)

index += struct.calcsize('>IIII')

for i in range(numImgs): #讀取所有影像

im = struct.unpack_from('>784B', buf, index)

index += struct.calcsize('>784B')

im = np.array(im) #取得影像資料

binfile.close()

第二種方法: (直接讀取.gz檔)

import numpy as np

import struct

import gzip

f = gzip.open('emnist-balanced-train-images-idx3-ubyte.gz')

buf = f.read()

index = 0

magic, numImgs, numRows, numCols = struct.unpack_from('>IIII', buf, index)

index += struct.calcsize('>IIII')

for i in range(numImgs): #讀取所有影像

im = struct.unpack_from('>784B', buf, index)

index += struct.calcsize('>784B')

im = np.array(im) #取得影像資料

f.close()

楓綺

K_程式人

楓綺發表在痞客邦留言(0) 人氣()

E-mail轉寄

K_程式人

Wellcome to my Blog~!
這裡將不定期更新深度學習相關技術, 以及其他程式應用 :D
未來將加入Tkinter設計自學篇以及網頁自學篇等等
另外, 因版版興趣緣故也會加入NS遊戲的一些介紹
歡迎大家蒞臨~!

[Python] 讀取MNIST手寫數字 & EMNIST手寫字母的資料集

歷史上的今天

留言列表

站方公告

活動快報

夏日必...

我的連結

熱門文章

文章分類

文章精選

文章搜尋

參觀人氣

QR Code

POWERED BY

K_程式人

Wellcome to my Blog~! 這裡將不定期更新深度學習相關技術, 以及其他程式應用 :D 未來將加入Tkinter設計自學篇以及網頁自學篇等等 另外, 因版版興趣緣故也會加入NS遊戲的一些介紹 歡迎大家蒞臨~!

[Python] 讀取MNIST手寫數字 & EMNIST手寫字母的資料集

歷史上的今天

留言列表

站方公告

活動快報

夏日必...

我的連結

熱門文章

文章分類

文章精選

文章搜尋

參觀人氣

QR Code

POWERED BY

Wellcome to my Blog~!
這裡將不定期更新深度學習相關技術, 以及其他程式應用 :D
未來將加入Tkinter設計自學篇以及網頁自學篇等等
另外, 因版版興趣緣故也會加入NS遊戲的一些介紹
歡迎大家蒞臨~!