์ด ๋‹จ๊ณ„๋Š” ๋ชจ๋“  ํœด๋จผ ์• ๋…ธํ…Œ์ดํ„ฐ๊ฐ€ ์ž‘์—…์„ ๋๋‚ธ ํ›„์— ํ”„๋กœ์ ํŠธ ๋งค๋‹ˆ์ €๊ฐ€ ํ•ด๋‹น ๋ฌธ์„œ๋ฅผ Ground Truth๋กœ ์Šน๊ฒฉ์‹œํ‚ค๊ณ  ๋จธ์‹  ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. ํ•™์Šต์‹œํ‚จ ๋ชจ๋ธ์„ Watson Natural Language Understanding์ด๋‚˜ Discovery ์„œ๋น„์Šค๋กœ ๋ฐฐํฌํ•˜์—ฌ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์—์„œ ์‰ฝ๊ฒŒ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ „์ฒด ์‹ค์Šต์€ ๋‹ค์Œ์˜ ์ˆœ์„œ๋กœ ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค.
โ€ข Exercise 01: ํ”„๋กœ์ ํŠธ ์ƒ์„ฑ, ํƒ€์ž… ์‹œ์Šคํ…œ ์ƒ์„ฑ ๋ฐ ์ˆ˜์ •
โ€ข Exercise 02: ๊ธฐ๊ณ„ ํ•™์Šต์šฉ ์ž๋ฃŒ(Training Corpus) ์—…๋กœ๋“œ
โ€ข Exercise 03: ๋”•์…”๋„ˆ๋ฆฌ ์• ๋…ธํ…Œํ‹ฐํ„ฐ(Dictionary Annotator) ์ƒ์„ฑ ๋ฐ ์‚ฌ์ „ ์• ๋…ธํ…Œ์ด์…˜(Pre-annotation)
โ€ข Exercise 04: ์–ธ์–ด์  ๊ทœ์น™(Linguistic Rule)์„ ์‚ฌ์šฉํ•œ ์‚ฌ์ „ ์• ๋…ธํ…Œ์ด์…˜(Pre-annotation)
โ€ข Exercise 05: ํœด๋จผ ์• ๋…ธํ…Œ์ด์…˜(Human annotation) ํƒœ์Šคํฌ ์ƒ์„ฑ
โ€ข Exercise 06: ํœด๋จผ ์• ๋…ธํ…Œ์ด์…˜(Human annotation)
โ€ข Exercise 07: ํŒ๊ฒฐ(Adjudication)

๋ชฉํ‘œ

์ด ๋‹จ๊ณ„์—์„œ๋Š” ๋‹ค์Œ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.
– ํœด๋จผ ์• ๋…ธํ…Œ์ดํ„ฐ ๊ฐ„์— ์ค‘๋ณต๋œ ๋ฌธ์„œ์— ๋Œ€ํ•ด ๋น„๊ต ๋ฐ ํŒ๊ฒฐ
– ์• ๋…ธํ…Œ์ด์…˜ ๋œ ๋ฌธ์„œ๋ฅผ Ground Truth๋กœ ์Šน๊ฒฉ
– Ground Truth๋กœ ๋จธ์‹  ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ํ•™์Šต

๋‹จ๊ณ„

์ด์ „ ๋‹จ๊ณ„์ธ ํœด๋จผ ์• ๋…ธํ…Œ์ด์…˜(Human Annotation)์„ ๋งˆ์น˜๊ณ  ์ด ๋‹จ๊ณ„๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

1. IAA(Inter-Annotator) Score ํ™•์ธ

Asset & Tools > Documents๋กœ ์ด๋™ํ•˜์—ฌ Tasksํƒญ์„ ์˜คํ”ˆํ•ฉ๋‹ˆ๋‹ค. ์ž‘์—… ์™„๋ฃŒํ•œ ํƒœ์Šคํฌ๋ฅผ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค.
Human Annotator๊ฐ€ ์• ๋…ธํ…Œ์ด์…˜์„ ์™„๋ฃŒํ•˜๋ฉด ํ•ด๋‹น Annotation Set์˜ ์ƒํƒœ๊ฐ€ SUBMITTED๋กœ ๋ณ€๊ฒฝ๋ฉ๋‹ˆ๋‹ค.

Calculate Inter-Annotator Agreement ๋ฒ„ํŠผ์„ ๋ˆŒ๋Ÿฌ ์ ์ˆ˜๋ฅผ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค. ์ด ์ ์ˆ˜๋Š” ํœด๋จผ ์• ๋…ธํ…Œ์ดํ„ฐ ๊ฐ„์— ์–ผ๋งˆ๋‚˜ ์ผ๊ด€์„ฑ์žˆ๊ฒŒ ์• ๋…ธํ…Œ์ด์…˜ ํ–ˆ๋Š”์ง€์— ๋Œ€ํ•œ ์ˆ˜์น˜์ž…๋‹ˆ๋‹ค. ์ด ์ˆ˜์น˜๊ฐ€ ํ†ต์ƒ์ ์œผ๋กœ 0.8์ด ๋„˜์œผ๋ฉด ์–ด๋Š ์ •๋„ ์ผ๊ด€์„ฑ์ด ์žˆ์—ˆ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ”„๋กœ์ ํŠธ ๋งค๋‹ˆ์ €๋Š” ์ด ์ˆ˜์น˜์— ๋Œ€ํ•œ ์ž„๊ณ„๊ฐ’(Threshold)์„ ์ •ํ•˜๊ณ  ๊ทธ ๊ฐ’์„ ๋„˜๋Š๋ƒ ์•ˆ๋„˜๋Š๋ƒ์— ๋”ฐ๋ผ ํ•ด๋‹น ์• ๋…ธํ…Œ์ด์…˜ ์…‹์„ Ground Truth๋กœ ๋ฐ”๋กœ ์Šน๊ฒฉํ• ์ง€ ๋‹ค์‹œ ํœด๋จผ์• ๋…ธํ…Œ์ดํ„ฐ์—๊ฒŒ ํƒœ์Šคํฌ๋ฅผ ๋„˜๊ธธ์ง€ ๊ฒฐ์ •ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. IAA ์ˆ˜์น˜๊ฐ€ ๋„ˆ๋ฌด ๋‚ฎ์œผ๋ฉด ํœด๋จผ ์• ๋…ธํ…Œ์ดํ„ฐ์—๊ฒŒ ๋ช…ํ™•ํ•œ ๊ฐ€์ด๋“œ๋ผ์ธ์ด ์ œ์‹œ๋˜์—ˆ๋Š”์ง€๋ฅผ ๋‹ค์‹œ ํ™•์ธํ•  ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

์œ„ ํ™”๋ฉด์„ ๋ณด๋ฉด Mention์— ๋Œ€ํ•œ IAA ์ˆ˜์น˜๋Š” ์ „์ฒด์ ์œผ๋กœ 0.98๋กœ ๋งค์šฐ ๋†’์Šต๋‹ˆ๋‹ค. ์ด ์ˆ˜์น˜๋ฅผ ๋ณด๊ณ  ํ”„๋กœ์ ํŠธ ๋งค๋‹ˆ์ €๋Š” ์• ๋…ธํ…Œ์ด์…˜ ์…‹์„ Accept ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์…€๋ ‰ํŠธ ๋ฐ•์Šค์˜ ์˜ต์…˜์„ ๋ณ€๊ฒฝํ•˜์—ฌ Relation Type, Coreference์— ๋Œ€ํ•œ IAA ์ˆ˜์น˜๋„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ „์ฒด์ ์ธ ์ˆ˜์น˜ ์™ธ์—๋„ ์—”ํ‹ฐํ‹ฐ ๋ณ„ ์ˆ˜์น˜๊ฐ€ ๋‚˜ํƒ€๋‚˜๊ธฐ ๋•Œ๋ฌธ์— ์–ด๋–ค ์—”ํ‹ฐํ‹ฐ์— ๋Œ€ํ•œ ์• ๋…ธํ…Œ์ด์…˜์„ ๊ฐœ์„ ํ•˜๋ฉด ๋ ์ง€๋ฅผ ํŒ๋ณ„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์œ„ ํ™”๋ฉด์„ ๋ณด๋ฉด carpart ํƒ€์ž…์— ๋Œ€ํ•œ ์ˆ˜์น˜๊ฐ€ ํ˜„์ €ํžˆ ๋‚ฎ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฝ์šฐ ์ด ํƒ€์ž…์— ๋Œ€ํ•ด ๊ฐœ์„ ํ•จ์œผ๋กœ์จ ์ •ํ™•๋„๋ฅผ ์˜ฌ๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์—”ํ‹ฐํ‹ฐ ํƒ€์ž…๋ณ„ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋ฌธ์„œ๋ณ„, ํœด๋จผ์• ๋…ธํ…Œ์ดํ„ฐ ํŽ˜์–ด๋ณ„๋กœ๋„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ „๋ฐ˜์ ์œผ๋กœ ์ˆ˜์น˜๋ฅผ ํ™•์ธํ•œ ํ›„์— Back to Task1 Task ๋ฒ„ํŠผ์„ ๋ˆŒ๋Ÿฌ ์ด์ „ ํ™”๋ฉด์œผ๋กœ ๋Œ์•„๊ฐ‘๋‹ˆ๋‹ค.
DocSet1, DocSet2๋ฅผ ์„ ํƒํ•˜๊ณ  Accept ๋ฒ„ํŠผ์„ ๋ˆ„๋ฆ…๋‹ˆ๋‹ค. (ํœด๋จผ ์• ๋…ธํ…Œ์ดํ„ฐ์—๊ฒŒ ๋‹ค์‹œ ํ• ๋‹นํ•˜๋ ค๋ฉด Reject ๋ฒ„ํŠผ์„ ๋ˆ„๋ฆ…๋‹ˆ๋‹ค.)

2. ์ค‘์ฒฉ๋œ ๋ฌธ์„œ์˜ ์ถฉ๋Œ ํ•ด๊ฒฐ ๋ฐ Ground Truth๋กœ ์Šน๊ฒฉ

ํœด๋จผ ์• ๋…ธํ…Œ์ดํ„ฐ ๊ฐ„์˜ ์ž‘์—…์ด ์™„์ „ํžˆ ์ผ์น˜ํ•˜์ง€๋Š” ์•Š๊ธฐ ๋•Œ๋ฌธ์— Conflict๊ฐ€ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค.

Check Overlapping Documents for Conflicts ๋ฒ„ํŠผ์„ ๋ˆŒ๋Ÿฌ ์ถฉ๋Œ์„ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.

๊ฐ ์ค‘์ฒฉ๋œ ๋ฌธ์„œ์— ๋Œ€ํ•ด Check for Conflict ๋ฒ„ํŠผ์„ ๋ˆŒ๋Ÿฌ ์ถฉ๋Œ์„ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.

๋น„๊ตํ•˜๋ ค๋Š” ๋ฌธ์„œ๋ฅผ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ์ง€๊ธˆ์€ Ground Truth๊ฐ€ ์—†๋Š” ์ฒซ๋ฒˆ์งธ ๋นŒ๋“œ ๋‹จ๊ณ„์ด๋ฏ€๋กœ DocSet1๊ณผ DocSet2๋งŒ ์„ ํƒํ•˜๊ณ  Check for Conflict ๋ฒ„ํŠผ์„ ํด๋ฆญํ•ฉ๋‹ˆ๋‹ค.

์™ผ์ชฝ์„ ๋ณด๋ฉด Mention, Relation, Coreference ๋ณ„๋กœ ์ถฉ๋Œ์˜ ๊ฐฏ์ˆ˜๊ฐ€ ๋ณด์—ฌ์ง‘๋‹ˆ๋‹ค.
Mention์—๋Š” ์ถฉ๋Œ์ด ์—†์œผ๋‚˜ Relation์—๋Š” 1๊ฐœ์˜ ์ถฉ๋Œ์ด ๋ฐœ์ƒํ•˜์˜€์œผ๋ฏ€๋กœ Relation์„ ํ™•์ธํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.
Relation์„ ์„ ํƒํ•˜๊ณ  ํ•ด๊ฒฐ๋˜์ง€ ์•Š์€ ๊ด€๊ณ„ ํƒ€์ž…๋งŒ ๋ณด๊ธฐ ์œ„ํ•ด Unresolved๋Š” ์ฒดํฌ๋œ ์ƒํƒœ๋กœ, Resolved๋Š” ์ฒดํฌ ํ•ด์ง€๋œ ์ƒํƒœ๋กœ ๋‘์‹ญ์‹œ์˜ค.

์ถฉ๋Œ์ด ๋‚˜์ง€ ์•Š์€ ๊ด€๊ณ„ ํƒ€์ž…์€ ์—ฐํ•œ ํšŒ์ƒ‰์œผ๋กœ, ์ถฉ๋Œ์ด ๋‚œ ๊ด€๊ณ„ ํƒ€์ž…์€ ์ง„ํ•œ ํšŒ์ƒ‰์œผ๋กœ ํ‘œ๊ธฐ๋ฉ๋‹ˆ๋‹ค. ์ง„ํ•œ ํšŒ์ƒ‰์œผ๋กœ ํ‘œ๊ธฐ๋œ ๊ด€๊ณ„ํƒ€์ž…์„ ์„ ํƒํ•˜๋ฉด ์•„๋ž˜ ํ™”๋ฉด์ฒ˜๋Ÿผ ํŒŒ๋ž€์ƒ‰ ์„ ์œผ๋กœ ํ‘œ๊ธฐ๋ฉ๋‹ˆ๋‹ค. ์„ ํƒํ•œ ์ƒํƒœ์—์„œ Accept ๋˜๋Š” Reject ๋ฒ„ํŠผ์„ ๋ˆŒ๋Ÿฌ ์ถฉ๋Œ์„ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.

๋‹ค์Œ๊ณผ ๊ฐ™์ด Relation ํƒ€์ž…์˜ ์ถฉ๋Œ ๊ฐฏ์ˆ˜๊ฐ€ 0์œผ๋กœ ๋ฐ”๋€ ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋‹ค์Œ์œผ๋กœ Coreference chain conflicts๋ฅผ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ์šฐ์ธก ํŒจ๋„์„ ๋ณด๋ฉด coreference chain์˜ ๋ชฉ๋ก์ด ๋‚˜ํƒ€๋‚ฉ๋‹ˆ๋‹ค. v ํ‘œ์‹œ๊ฐ€ ์žˆ๋Š” ๊ฒƒ์€ ์ถฉ๋Œ์ด ๋‚˜์ง€ ์•Š์€ ๊ฒƒ์ด๊ณ  ์—†๋Š” ๊ฒƒ์€ ํ•ด๊ฒฐํ•  ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด #5 ์ถฉ๋Œ์‚ฌ๊ณ (3)์„ ํด๋ฆญํ•œ ํ›„์— ์• ๋…ธํ…Œ์ด์…˜์ด ๋งž๋Š”์ง€ ํ™•์ธํ•˜๊ณ  Accept Chain(1)์„ ํด๋ฆญํ•ฉ๋‹ˆ๋‹ค.

๋‹ค์Œ๊ณผ ๊ฐ™์ด Coreference chan conflicts์˜ ์ˆ˜๊ฐ€ 3์œผ๋กœ ์ค„์–ด๋“ค๊ณ  #5 ์ถฉ๋Œ์‚ฌ๊ณ (3) ์šฐ์ธก์— v ํ‘œ์‹œ๊ฐ€ ๋‚˜ํƒ€๋‚ฉ๋‹ˆ๋‹ค.

๋‚˜๋จธ์ง€ ์ถฉ๋Œ๋„ ๊ฐ™์€ ๋ฐฉ์‹์œผ๋กœ ํ•ด๊ฒฐํ•ด ์ค๋‹ˆ๋‹ค. ๋ฌธ์„œ๊ฐ€ ๋ณด์ด๋Š” ํŒจ๋„์˜ ์ƒ๋‹จ์„ ๋ณด๋ฉด ์ €์žฅ ๋ฒ„ํŠผ๊ณผ Promote to ground truth ๋ฒ„ํŠผ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ถฉ๋Œ์„ ๋‹ค ํ•ด๊ฒฐํ–ˆ์œผ๋ฉด ์šฐ์ธก์˜ Promote to ground truth ๋ฒ„ํŠผ์„ ๋ˆŒ๋Ÿฌ ํ•ด๋‹น ์• ๋…ธํ…Œ์ด์…˜์„ Ground truth๋กœ ์Šน๊ฒฉํ•ฉ๋‹ˆ๋‹ค.

๋‚˜๋จธ์ง€ ์ค‘์ฒฉ๋œ ๋ฌธ์„œ์…‹์— ๋Œ€ํ•ด์„œ๋„ ๊ฐ™์€ ์ž‘์—…์„ ๋ฐ˜๋ณตํ•ฉ๋‹ˆ๋‹ค.

๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋ชจ๋“  ์ค‘์ฒฉ๋œ ๋ฌธ์„œ์˜ ์ถฉ๋Œ์„ ํ•ด๊ฒฐํ•˜๊ณ  ๋‚˜์„œ Back to Task1 Task ๋ฒ„ํŠผ์„ ๋ˆŒ๋Ÿฌ ์ด์ „ ํ™”๋ฉด์œผ๋กœ ๋Œ์•„๊ฐ‘๋‹ˆ๋‹ค.
์• ๋…ธํ…Œ์ด์…˜ ์…‹์˜ ์ƒํƒœ๊ฐ€ COMPLETED๋กœ ๋ณ€๊ฒฝ๋œ ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

3. Ground Truth๋กœ ๋จธ์‹  ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ํ•™์Šต

Model Management > Performance ํŽ˜์ด์ง€๋กœ ์ด๋™ํ•ฉ๋‹ˆ๋‹ค. Train and evaluate ๋ฒ„ํŠผ์„ ๋ˆ„๋ฆ…๋‹ˆ๋‹ค.

๋‹ค์Œ๊ณผ ๊ฐ™์ด ํœด๋จผ ์• ๋…ธํ…Œ์ด์…˜์„ ์™„๋ฃŒํ•˜์—ฌ Ground Truth๊ฐ€ ๋œ ๋‘๊ฐœ์˜ ๋ฌธ์„œ์…‹์„ ์„ ํƒํ•˜๊ณ  ์šฐ์ธก์˜ ํŠธ๋ ˆ์ด๋‹ ์…‹/ํ…Œ์ŠคํŠธ ์…‹/๋ธ”๋ผ์ธ๋“œ ์…‹์˜ ๋น„์œจ์„ ์ •ํ•œ ํ›„์— ์ƒ๋‹จ์˜ Train & Evaluate ๋ฒ„ํŠผ์„ ๋ˆ„๋ฅด๋ฉด ํŠธ๋ ˆ์ด๋‹ ๋ฐ ํ‰๊ฐ€ ์ž‘์—…์ด ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค. ์ด ์ž‘์—…์ด ์ˆ˜ํ–‰๋˜๋Š” ๋ฐ์—๋Š” ์˜ค๋žœ ์‹œ๊ฐ„์ด ์†Œ์š” ๋ฉ๋‹ˆ๋‹ค.

ํŠœํ† ๋ฆฌ์–ผ์„ ๋ชจ๋‘ ๋งˆ์ณค์Šต๋‹ˆ๋‹ค. ๋นŒ๋“œํ•œ ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜๋ ค๋ฉด ์ด ํŠœํ† ๋ฆฌ์–ผ์˜ ๊ฐ€์ด๋“œ๋ฅผ ํ™œ์šฉํ•˜์‹ญ์‹œ์˜ค. ๋˜ํ•œ ์ด ์˜ˆ์ œ๋กœ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜๊ณผ์˜ ์—ฐ๋™๊นŒ์ง€ ์‹ค์Šตํ•ด ๋ณด์‹ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ† ๋ก  ์ฐธ๊ฐ€

์ด๋ฉ”์ผ์€ ๊ณต๊ฐœ๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ํ•„์ˆ˜ ์ž…๋ ฅ์ฐฝ์€ * ๋กœ ํ‘œ์‹œ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.