概述
论坛分类(Forum Classify)数据集包含从 Ubuntu 论坛讨论中搜寻的 100 个讨论帖。已为每个讨论帖中的每条消息都分配了以下 8 个类别之外的对话标签:question
、repeat question
、clarification
、further details
、solution
、positive feedback
、negative feedback
、junk
。
数据集元数据
字段 | 值 |
---|---|
格式 | XML |
许可 | CC BY 4.0 |
领域 | 自然语言处理 |
记录数 | 529 条消息 |
数据分割 | NA |
大小 | 104 MB(压缩) |
作者 | Sumit Bhatia, Prakhar Biyani, Prasenjit Mitra |
数据源 | 印度 IBM Reseach |
数据版本 | 版本 2 – 2019-09-12 版本 1 – 2019-07-16 |
数据覆盖 | 数据集包含从 Ubuntu 论坛讨论中搜寻的 100 个讨论帖。 |
业务用例 | 社交媒体审核 – 此数据集可帮助训练模型以对论坛或社交媒体平台上的评论进行分类,并帮助主持此类平台上的讨论。 |
数据集存档内容
文件和文件夹 | 描述 |
---|---|
Ubuntu folder |
此文件夹包含.xml文件,这些文件是从 Ubuntu论坛爬取的讨论对话。 |
LICENSE.txt |
使用条款 |
README.md |
解释数据收集、处理细节以及拆分数据集的步骤 |
数据词汇表和预览
单击此处浏览数据词汇表、样本记录和其他数据集元数据。
使用数据集
入门笔记本对这个数据集进行了补充,可以帮助您入门:
引用
@article{ahu61This,
author="Sumit Bhatia
and Prakhar Biyani
and Prasenjit Mitra",
title="Identifying the Role of Individual User Messages in an Online Discussion and its Applications in Thread Retrieval",
journal="Journal of the Association for Information Science and Technology",
volume="67",
year="2015",
pages="276-288",
}
本文翻译自:Forum Classify(2020-09-28)