概述
WikiText-103 数据集是从维基百科(Wikipedia)上经过验证的 “优质” (Good)和 “特色” (Featured) 的文章集中提取的超过 1 亿个令牌的集合。
数据集元数据
字段 | 值 |
---|---|
格式 | 文本 |
许可 | CC BY-SA 3.0 |
领域 | 自然语言处理 |
记录数 | 101,880,768 令牌 |
数据分割 | 101,425,671 训练令牌 213,886 验证令牌 241,211 测试令牌 |
大小 | 181 MB |
作者 | Salesforce |
来源 | 来自维基百科的原始文本,由 Salesforce Research 收集 |
数据版本更新 | V1 – 2020 年 3 月 17 日 |
数据范围 | 数据集包含来自 28,588 个经维基百科文章验证为 “优质” 或 “特色” 的令牌 |
业务使用案例 | 文档分析: 使用标题和子标题标签来训练能够识别文档结构以组织自由格式文本的模型。 |
数据集归档内容
文件或文件夹 | 描述 |
---|---|
wiki.train.tokens |
训练子集中的令牌 |
wiki.valid.tokens |
验证子集中的令牌 |
wiki.test.tokens |
测试子集中的令牌 |
LICENSE.txt |
CDLA 许可的纯文本版本 |
README.txt |
具有文件名和描述的文本文件 |
数据词汇表和预览
点击这里来探索数据词汇表,样本记录和其他数据集元数据。
使用数据集
此数据集配有一个数据浏览 Notebook,可以帮助您入门:试用完整的 Notebook
本文翻译自:WikiText-103(2020-09-23)