新しい IBM Developer JP サイトへようこそ!サイトのデザインが一新され、旧 developerWorks のコンテンツも統合されました。 詳細はこちら

Nutch

概要

このデータセットには、Nutch というオープンソース Web クローラー・アプリケーションの 2 つのバージョンから生成された実行ログが含まれています。2 つの Nutch バージョンはそれぞれ、(i) [NUTCH-1934] としてコミットされる前のバージョン (以降、バージョン 1 と呼びます)、(ii) [NUTCH-1934] としてコミットされた後のバージョン (以降、バージョン 2 と呼びます)。このデータセットは、これら 2 つのバージョン間の実行時の動作の違いを明らかにするものです。メインとなる未処理のデータ・ファイルは nutch.logstashed.v1 と nutch.logstashed.v2 です (Logshash が適用された後のバージョン 1 とバージョン 2 の実行ログ)。このデータセットにはその他に、研究論文「Runtime Monitoring in Continuous Deployment by Differencing Execution Behavior Model」で使用されている手法の一貫として、未処理のデータ・ファイルから生成されたすべての成果物 (中間出力と最終出力) も含まれています。

データセットのメタデータ

形式 ライセンス ドメイン レコード数 サイズ 最初の公開日
CSV
JSON
CDLA-Sharing 時系列 57 個の delta_mappings.csv
94137 個の logrecords.modelmining.v1.txt
125695 個の logrecords.modelmining.v2.txt
42254 個の notmapped.combined.txt
9632 個の notsubset.combined.txt
94137 個の nutch.logstashed.v1
125695 個の nutch.logstashed.v2
5.8MB 2017年3月9日

サンプル・レコード

T1098,T903
1,T694,1487598878515
1,T695,1487598891505
{"message":"2017-02-20 19:25:55,088 INFO  http.Http [FetcherThread] - http.proxy.port = 8080","@version":"1","@timestamp":"2017-02-20T13:55:55.088Z","path":"/root/monika_intern/nutch-rerun/coderefactor2/v2.log","host":"localhost","type":"nutch","timestamp":"2017-02-20 19:25:55,088","text":"INFO  http.Http [FetcherThread] - http.proxy.port = 8080","_grokked":"true","datasource":"irl_nutch","_dated":"true"}
{"message":"2017-02-20 21:25:17,297 INFO  fetcher.FetchItemQueues [pool-1-thread-1] -   inProgress    = 6","@version":"1","@timestamp":"2017-02-20T15:55:17.297Z","path":"/root/monika_intern/nutch-rerun/coderefactor2/v2.log","host":"localhost","type":"nutch","timestamp":"2017-02-20 21:25:17,297","text":"INFO  fetcher.FetchItemQueues [pool-1-thread-1] -   inProgress    = 6","_grokked":"true","datasource":"irl_nutch","_dated":"true"}
{"message":"2017-02-20 19:24:40,962 INFO  crawl.Injector [Thread-1] - Injector: overwrite: false","@version":"1","@timestamp":"2017-02-20T13:54:40.962Z","path":"/root/monika_intern/nutch-rerun/coderefactor2/v1.log","host":"localhost","type":"nutch","timestamp":"2017-02-20 19:24:40,962","text":"INFO  crawl.Injector [Thread-1] - Injector: overwrite: false","_grokked":"true","datasource":"irl_nutch","_dated":"true"}
{"message":"2017-02-20 19:24:52,679 DEBUG util.ObjectCache [pool-1-thread-1] - No object cache found for conf=Configuration: core-default.xml, core-site.xml, mapred-default.xml, mapred-site.xml, file:/tmp/hadoop-root/mapred/local/localRunner/job_local824858682_0001.xml, instantiating a new object cache","@version":"1","@timestamp":"2017-02-20T13:54:52.679Z","path":"/root/monika_intern/nutch-rerun/coderefactor2/v2.log","host":"localhost","type":"nutch","timestamp":"2017-02-20 19:24:52,679","text":"DEBUG util.ObjectCache [pool-1-thread-1] - No object cache found for conf=Configuration: core-default.xml, core-site.xml, mapred-default.xml, mapred-site.xml, file:/tmp/hadoop-root/mapred/local/localRunner/job_local824858682_0001.xml, instantiating a new object cache","_grokked":"true","datasource":"irl_nutch","_dated":"true"}

引用

@inproceedings{gupta2018,
author="Gupta, Monika
and Mandal, Atri
and Dasgupta, Gargi
and Serebrenik, Alexander,
editor="Pahl, Claus
and Vukovic, Maja
and Yin, Jianwei
and Yu, Qi",
title="Runtime Monitoring in Continuous Deployment by Differencing Execution Behavior Model",
booktitle="Proceedings of the International Conference on Service-Oriented Computing",
year=2018,
publisher=Springer,
pages="812--827",
doi={978-3-030-03596-9\_58}
}

関連リンク