跳到主要内容

数据集

数据集,顾名思义:数据的集合,AI模型训练过程中需要使用的数据。
您可以在平台上创建修改数据集,对数据集的内容进行上传,查看,删除等。

创建一个数据集

https://portal.ailines.cn 中,选择菜单数据集,点击 创建 按钮,如图所示:

dataset list

输入名称,选择可见性及规格时长,开通创建数据集:

dataset create

提示

数据集可见性目前有两种,用户私有(Private)和租户内共享(Protected)

编辑数据集的内容

数据集列表页中点击 修改内容,进入数据集内容编辑页面,在此页面中,点击 添加 按钮。
您可以在拖拽文件夹到图中虚线区域,并完成上传:

dataset content drag upload

数据集所有文件按照文件夹结构展示在左侧,点击文件会在右侧展示文件内容,并可以选择某一文件或文件夹进行删除:

dataset content view edit

数据集的容量及大小

您可以在数据集列表页中查看到数据集的容量及目前总大小,当总大小达到容量上限,数据集编辑时将无法写入,不会影响内容的读取。

dataset size

存储Pytorch公共数据集

当您存储Pytorch公共数据集时,需要注意的是,数据集的根路径必须满足要求,比如像下面例子一样,使用Pytorch的MNIST数据集时,数据集的根路径下必须存在MNIST/raw/train-images-idx3-ubyteMNIST/raw/t10k-images-idx3-ubyte

load MNIST dataset
train_set = MNIST(
root=data_root,
download=False,
train=True,
transform=torchvision.transforms.Compose([ToNumpy(), torchvision.transforms.ToTensor()])
)

所以为了方便的使用Pytorch公共数据集,您可以直接使用像MNIST作为AILines数据集名称,之后在使用AILines ML相关服务时,可以通过我们提供的环境变量来拼接数据集根路径,避免硬编码去拼接路径。

load MNIST dataset
# $DATASETS_PATH - AILines Dataset根目录,只读
# $DATASETS - Dataset名称列表,多个以逗号分隔

# 例如DATASETS_PATH为: /datasets
datasets_path = os.getenv("DATASETS_PATH")

def get_datasets():
# 例如DATASETS为: MNIST
datasets = os.getenv("DATASETS", "")
return datasets.split(",")

def get_dataset():
datasets = get_datasets()
if len(datasets) > 0:
return datasets[0]
return ""

# 拼接之后为: /datasets/MNIST
data_root = "{}/{}".format(datasets_path, get_dataset())
train_set = MNIST(
root=data_root,
download=False,
train=True,
transform=torchvision.transforms.Compose([ToNumpy(), torchvision.transforms.ToTensor()])
)
提示

数据集名称在一个租户下是唯一的,所以当您需要存储Pytorch公共数据集时,为了更方便地使用,对于同一个数据集,可以按照上面例子创建存储一次,然后在租户内共享使用。当然您也可以按照您理想中方式随意创建和组织数据集的目录结构,然后在编码的时候拼接上正确的路径