开源技术 * IBM 微讲堂:Kubeflow 系列(观看回放 | 下载讲义) 了解详情

概述

论坛分类(Forum Classify)数据集包含从 Ubuntu 论坛讨论中搜寻的 100 个讨论帖。已为每个讨论帖中的每条消息都分配了以下 8 个类别之外的对话标签:questionrepeat questionclarificationfurther detailssolutionpositive feedbacknegative feedbackjunk

数据集元数据

字段
格式 XML
许可 CC BY 4.0
领域 自然语言处理
记录数 529 条消息
数据分割 NA
大小 104 MB(压缩)
作者 Sumit Bhatia, Prakhar Biyani, Prasenjit Mitra
数据源 印度 IBM Reseach
数据版本 版本 2 – 2019-09-12
版本 1 – 2019-07-16
数据覆盖 数据集包含从 Ubuntu 论坛讨论中搜寻的 100 个讨论帖。
业务用例 社交媒体审核 – 此数据集可帮助训练模型以对论坛或社交媒体平台上的评论进行分类,并帮助主持此类平台上的讨论。

数据集存档内容

文件和文件夹 描述
Ubuntu folder 此文件夹包含.xml文件,这些文件是从 Ubuntu论坛爬取的讨论对话。
LICENSE.txt 使用条款
README.md 解释数据收集、处理细节以及拆分数据集的步骤

数据词汇表和预览

单击此处浏览数据词汇表、样本记录和其他数据集元数据。

使用数据集

入门笔记本对这个数据集进行了补充,可以帮助您入门:

引用

@article{ahu61This,
author="Sumit Bhatia
and Prakhar Biyani
and Prasenjit Mitra",
title="Identifying the Role of Individual User Messages in an Online Discussion and its Applications in Thread Retrieval",
journal="Journal of the Association for Information Science and Technology",
volume="67",
year="2015",
pages="276-288",
}

本文翻译自:Forum Classify(2020-09-28)