开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

概述

WikiText-103 数据集是从维基百科(Wikipedia)上经过验证的 “优质” (Good)和 “特色” (Featured) 的文章集中提取的超过 1 亿个令牌的集合。

数据集元数据

字段
格式 文本
许可 CC BY-SA 3.0
领域 自然语言处理
记录数 101,880,768 令牌
数据分割 101,425,671 训练令牌
213,886 验证令牌
241,211 测试令牌
大小 181 MB
作者 Salesforce
来源 来自维基百科的原始文本,由 Salesforce Research 收集
数据版本更新 V1 – 2020 年 3 月 17 日
数据范围 数据集包含来自 28,588 个经维基百科文章验证为 “优质” 或 “特色” 的令牌
业务使用案例 文档分析: 使用标题和子标题标签来训练能够识别文档结构以组织自由格式文本的模型。

数据集归档内容

文件或文件夹 描述
wiki.train.tokens 训练子集中的令牌
wiki.valid.tokens 验证子集中的令牌
wiki.test.tokens 测试子集中的令牌
LICENSE.txt CDLA 许可的纯文本版本
README.txt 具有文件名和描述的文本文件

数据词汇表和预览

点击这里来探索数据词汇表,样本记录和其他数据集元数据。

使用数据集

此数据集配有一个数据浏览 Notebook,可以帮助您入门:试用完整的 Notebook

本文翻译自:WikiText-103(2020-09-23)