使用 Watson Studio Local 在 Hortonworks Data Platform 上开发、训练和部署垃圾邮件过滤器模型  

使用自然语言处理和机器学习来识别垃圾邮件

| By Vinodh Mohan, Rich Hagarty

Description

本 Code Pattern 演示了数据科学家如何利用远程 Spark 集群和计算环境来训练和部署垃圾邮件过滤器模型。此模型是使用自然语言处理和机器学习算法构建的,用于对给定文本消息是否属于垃圾邮件进行分类。

概览

本 Code Pattern 演示了数据科学家如何利用来自 Hortonworks Data Platform (HDP) 的远程 Spark 集群和计算环境,通过 Watson Studio Local 训练和部署垃圾邮件过滤器模型。

垃圾邮件过滤器是使用自然语言处理和机器学习算法构建的分类模型。此模型基于短消息垃圾邮件收集数据集进行训练,对给定文本消息是否属于垃圾邮件进行分类。

本 Code Pattern 提供了多种示例,利用本地 (Watson Studio Local) 资源和远程(HDP 集群)资源来处理此问题。

学完本 Code Pattern 之后,您将掌握如何:

  • 将数据加载到 Spark DataFrames 中,并使用 Spark 的机器学习库 (MLlib) 来开发、训练和部署垃圾邮件过滤器模型。
  • 将数据加载到 pandas DataFrames 中,并使用 Scikit-learn 机器学习库来开发、训练和部署垃圾邮件过滤器模型。
  • 使用 sparkmagics 库通过 Hadoop 集成服务连接到 HDP 集群中的远程 Spark 服务。
  • 使用 sparkmagics 库将包含 Scikit-learn 库的 python 虚拟环境通过 Hadoop 集成服务推送到远程 HDP 集群。
  • 将垃圾邮件过滤器模型打包为一个 python egg,并通过 Hadoop 集成服务将此 egg 分发到远程 HDP 集群。
  • 在远程 HDP 集群中,使用来自 IBM Watson Studio Local 中的远程 Spark 环境和远程 python 虚拟环境运行垃圾邮件过滤器模型(包括 PySpark 版本和 Scikit-learn 版本)。
  • 将垃圾邮件过滤器模型保存在远程 HDP 集群中,并将其重新导入 Watson Studio Local,然后对模型进行批量评分和评估。

  1. 垃圾邮件收集数据集将作为资产加载到 Watson Studio Local 中。
  2. 用户通过在 Watson Studio Local 中运行 Jupyter Notebook 与之交互。
  3. Watson Studio Local 可以通过连接至纳入 Hadoop 集成服务的 Apache Livy,使用本地可用资源或者使用 HDP 集群资源。
  4. Livy 与 HDP 集群连接,以运行 Apache Spark 或访问 HDFS 文件。

Instructions

可以在 README 文件中获取详细的操作说明。这些步骤将展示如何:
  1. 克隆存储库。
  2. 在 IBM Watson Studio Local 中创建项目。
  3. 创建项目资产。
  4. 将更改提交至 Watson Studio Local 主存储库。
  5. 运行每个示例中列出的 Notebook。

相关博客

相关链接

英文原文

本 Code Pattern 翻译自:Develop, train, and deploy a spam filter model on Hortonworks Data Platform using Watson Studio Local(2018-10-30)