이번 λ‹¨κ³„μ—μ„œλŠ” λ¨Έμ‹  λŸ¬λ‹μ„ μœ„ν•œ ν•™μŠ΅μš© 자료λ₯Ό μ—…λ‘œλ“œ ν•©λ‹ˆλ‹€.

전체 μ‹€μŠ΅μ€ λ‹€μŒμ˜ μˆœμ„œλ‘œ μ§„ν–‰λ©λ‹ˆλ‹€.
β€’ Exercise 01: ν”„λ‘œμ νŠΈ 생성, νƒ€μž… μ‹œμŠ€ν…œ 생성 및 μˆ˜μ •
β€’ Exercise 02: 기계 ν•™μŠ΅μš© 자료(Training Corpus) μ—…λ‘œλ“œ
β€’ Exercise 03: λ”•μ…”λ„ˆλ¦¬ μ• λ…Έν…Œν‹°ν„°(Dictionary Annotator) 생성 및 사전 μ• λ…Έν…Œμ΄μ…˜(Pre-annotation)
β€’ Exercise 04: 언어적 κ·œμΉ™(Linguistic Rule)을 μ‚¬μš©ν•œ 사전 μ• λ…Έν…Œμ΄μ…˜(Pre-annotation)
β€’ Exercise 05: 휴먼 μ• λ…Έν…Œμ΄μ…˜(Human annotation) νƒœμŠ€ν¬ 생성
β€’ Exercise 06: 휴먼 μ• λ…Έν…Œμ΄μ…˜(Human annotation)
β€’ Exercise 07: 판결(Adjudication)

λͺ©ν‘œ

이 λ‹¨κ³„μ—μ„œλŠ” λ‹€μŒμ„ μˆ˜ν–‰ν•©λ‹ˆλ‹€.
– ν”„λ‘œμ νŠΈμ— λ¬Έμ„œ μ—…λ‘œλ“œ
– Annotation set 생성

이 단계λ₯Ό 마치면 WKS(Watson Knowledge Studio) νˆ΄μ— λ¨Έμ‹ λŸ¬λ‹ λͺ¨λΈμ„ ν•™μŠ΅μ‹œν‚€κΈ° μœ„ν•œ λ¬Έμ„œλ₯Ό μ—…λ‘œλ“œν•  수 μžˆμŠ΅λ‹ˆλ‹€.

단계

2.0 λ¬Έμ„œ μ—…λ‘œλ“œ

ν•™μŠ΅μš© λ¬Έμ„œλŠ” Production ν™˜κ²½μ—μ„œ 뢄석될 λ¬Έμ„œ μ’…λ₯˜μ˜ λŒ€ν‘œμ μΈ μƒ˜ν”Œμ΄μ–΄μ•Ό ν•©λ‹ˆλ‹€. 이 λ¬Έμ„œ μƒ˜ν”Œμ€ ν”„λ‘œμ νŠΈμ˜ μ£Όμš” 멀버듀과 λ¦¬λ·°ν•˜κ³  확인해야 ν•©λ‹ˆλ‹€.

이 μ‹€μŠ΅μ—μ„œλŠ” ꡐ톡사고 λ³΄κ³ μ„œ μƒ˜ν”Œμ„ μ‚¬μš©ν•©λ‹ˆλ‹€.

μ—…λ‘œλ“œν•  수 μžˆλŠ” λ¬Έμ„œ νƒ€μž…μ€ λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€.
CSV 파일 : 첫번째 칼럼이 각 λ¬Έμ„œμ˜ 제λͺ©, λ‘λ²ˆμ§Έ 칼럼이 μ‹€μ œ 컨텐츠λ₯Ό ν¬ν•¨ν•©λ‹ˆλ‹€.
μ—¬λŸ¬ DOCXML 파일 : UTF-8 포맷의 DOCXML 파일
.Zip 파일 : λ‹€λ₯Έ ν”„λ‘œμ νŠΈμ—μ„œ Exportν•œ zipνŒŒμΌμ„ λ‹€μ‹œ importν•  수 μžˆμŠ΅λ‹ˆλ‹€.

1) WKS 툴의 쒌츑 λ©”λ‰΄μ—μ„œ Assets & Tools > Documents νŽ˜μ΄μ§€λ‘œ μ΄λ™ν•©λ‹ˆλ‹€.

2) Upload Document Sets λ²„νŠΌμ„ ν΄λ¦­ν•©λ‹ˆλ‹€.
3) Add a Document Set ν™”λ©΄μ—μ„œ Corpus.csv νŒŒμΌμ„ λ“œλž˜κ·Έ&λ“œλ‘­ ν•˜μ—¬ μ„ νƒν•©λ‹ˆλ‹€.

4) Upload λ²„νŠΌμ„ 눌러 λ¬Έμ„œλ₯Ό κ°€μ Έμ˜΅λ‹ˆλ‹€.

2.1 Annotation set μƒμ„±ν•˜κΈ°

λ¬Έμ„œλ₯Ό μ—…λ‘œλ“œν•œ ν›„μ—λŠ” μ—¬λŸ¬ human annotatorμ—κ²Œ μž‘μ—…μ„ ν• λ‹Ήν•˜μ—¬ Annotation μž‘μ—…μ„ ν•  수 μžˆλ„λ‘ Annotation set을 생성해야 ν•©λ‹ˆλ‹€.

1) Assets & Tools > Documents νŽ˜μ΄μ§€λ₯Ό μ—¬μ‹­μ‹œμ˜€.
2) Create Annotation Sets λ²„νŠΌμ„ ν΄λ¦­ν•˜μ‹­μ‹œμ˜€.
3) Overlap을 60%둜 μ„€μ •ν•˜κ³  Add another set and human annotator λ²„νŠΌμ„ ν΄λ¦­ν•˜μ—¬ 2개의 set이 λ˜λ„λ‘ μ„€μ •ν•©λ‹ˆλ‹€. 2개의 set을 λͺ¨λ‘ μžμ‹ μ—κ²Œ ν• λ‹Ήν•˜κ³  set 이름을 λ‹€μŒκ³Ό 같이 κΈ°μž…ν•©λ‹ˆλ‹€.

4) λ‹€μŒκ³Ό 같이 4개의 Corpusλ₯Ό ν¬ν•¨ν•˜λŠ” 2개의 Set이 μƒμ„±λ˜μ—ˆμŒμ„ ν™•μΈν•˜μ‹­μ‹œμ˜€.

Corpus μ—…λ‘œλ“œμ— λŒ€ν•œ μ‹€μŠ΅μ„ λ§ˆμ³€μŠ΅λ‹ˆλ‹€.

λ‹€μŒ μ‹€μŠ΅μ€ Exercise 03: λ”•μ…”λ„ˆλ¦¬ μ• λ…Έν…Œν‹°ν„°(Dictionary Annotator) 생성 μž…λ‹ˆλ‹€.

ν† λ‘  μ°Έκ°€

이메일은 κ³΅κ°œλ˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. ν•„μˆ˜ μž…λ ₯창은 * 둜 ν‘œμ‹œλ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€.