이번 단계에서는 머신 러닝을 위한 학습용 자료를 업로드 합니다.

전체 실습은 다음의 순서로 진행됩니다.
Exercise 01: 프로젝트 생성, 타입 시스템 생성 및 수정
• Exercise 02: 기계 학습용 자료(Training Corpus) 업로드
Exercise 03: 딕셔너리 애노테티터(Dictionary Annotator) 생성 및 사전 애노테이션(Pre-annotation)
Exercise 04: 언어적 규칙(Linguistic Rule)을 사용한 사전 애노테이션(Pre-annotation)
Exercise 05: 휴먼 애노테이션(Human annotation) 태스크 생성
Exercise 06: 휴먼 애노테이션(Human annotation)
Exercise 07: 판결(Adjudication)

목표

이 단계에서는 다음을 수행합니다.
– 프로젝트에 문서 업로드
– Annotation set 생성

이 단계를 마치면 WKS(Watson Knowledge Studio) 툴에 머신러닝 모델을 학습시키기 위한 문서를 업로드할 수 있습니다.

단계

2.0 문서 업로드

학습용 문서는 Production 환경에서 분석될 문서 종류의 대표적인 샘플이어야 합니다. 이 문서 샘플은 프로젝트의 주요 멤버들과 리뷰하고 확인해야 합니다.

이 실습에서는 교통사고 보고서 샘플을 사용합니다.

업로드할 수 있는 문서 타입은 다음과 같습니다.
CSV 파일 : 첫번째 칼럼이 각 문서의 제목, 두번째 칼럼이 실제 컨텐츠를 포함합니다.
여러 DOCXML 파일 : UTF-8 포맷의 DOCXML 파일
.Zip 파일 : 다른 프로젝트에서 Export한 zip파일을 다시 import할 수 있습니다.

1) WKS 툴의 좌측 메뉴에서 Assets & Tools > Documents 페이지로 이동합니다.

2) Upload Document Sets 버튼을 클릭합니다.
3) Add a Document Set 화면에서 Corpus.csv 파일을 드래그&드롭 하여 선택합니다.

4) Upload 버튼을 눌러 문서를 가져옵니다.

2.1 Annotation set 생성하기

문서를 업로드한 후에는 여러 human annotator에게 작업을 할당하여 Annotation 작업을 할 수 있도록 Annotation set을 생성해야 합니다.

1) Assets & Tools > Documents 페이지를 여십시오.
2) Create Annotation Sets 버튼을 클릭하십시오.
3) Overlap을 60%로 설정하고 Add another set and human annotator 버튼을 클릭하여 2개의 set이 되도록 설정합니다. 2개의 set을 모두 자신에게 할당하고 set 이름을 다음과 같이 기입합니다.

4) 다음과 같이 4개의 Corpus를 포함하는 2개의 Set이 생성되었음을 확인하십시오.

Corpus 업로드에 대한 실습을 마쳤습니다.

다음 실습은 Exercise 03: 딕셔너리 애노테티터(Dictionary Annotator) 생성 입니다.

토론 참가

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다