이번 단계에서는 휴먼 애노테이터(Human Annotator)로써 할당된 문서에 애노테이션(Annotation) 작업을 수행합니다.

전체 실습은 다음의 순서로 진행됩니다.
Exercise 01: 프로젝트 생성, 타입 시스템 생성 및 수정
Exercise 02: 기계 학습용 자료(Training Corpus) 업로드
Exercise 03: 딕셔너리 애노테티터(Dictionary Annotator) 생성 및 사전 애노테이션(Pre-annotation)
Exercise 04: 언어적 규칙(Linguistic Rule)을 사용한 사전 애노테이션(Pre-annotation)
Exercise 05: 휴먼 애노테이션(Human annotation) 태스크 생성
• Exercise 06: 휴먼 애노테이션(Human annotation)
Exercise 07: 판결(Adjudication)

목표

이 단계에서는 다음을 수행합니다.
– 휴먼 애노테이터(Human Annotator)에게 할당된 문서에 언급(Mentions), 동일 지시어(co-references), 관계(Relations)에 대해 애노테이션 작업을 수행합니다.

애노테이션 가이드라인을 따라 수행하십시오. 이 단계를 마치면 머신 러닝 모델을 학습시키기 위한 문서에 애노테이션을 수행할 수 있습니다.

단계

먼저 엔티티 타입에 대해 애노테이션 하겠습니다. Document Annotation > Mentions로 이동합니다. 이전 단계에서 생성한 태스크를 선택합니다. 아직 완료하지 않은 문서를 선택합니다. 다음 화면처럼 Annotation 화면이 보여집니다.

5.1 Mentions 애노테이션

처음 Default로 나오는 것은 Mentions 입니다. Mention을 표기할 때에는 단어나 문구를 클릭하여 선택하고 우측 패널에서 해당 엔티티(Entity)를 클릭하면 됩니다. Mention을 Annotation할 때에는 가능한 모든 Mention에 대해 표기하도록 주의하십시오. 여러 Human Annotator 간에 일관성을 제시하고 모호성을 제거하기 위해 가이드라인을 공유합니다.

팁: 만약 타입을 잘못 선택했다면 하이라이트된 텍스트를 다시 선택하고 맞는 타입으로 변경합니다. 만약 표기 자체를 삭제하고 싶으면 하이라이트된 텍스트를 선택한 상태에서 delete 버튼을 누릅니다. Ctrl + z 를 누르면 바로 이전에 수행한 작업이 취소됩니다.

우측 상단에 Save 버튼이 있습니다. 작업중인 내용을 저장하려면 Save 버튼을 눌러야 합니다.

Mention에 대해 Role을 표기하려면 Mention을 선택하고 우측에서 Role 탭으로 이동하면 해당 Entity에 대해 적용 가능한 Role 목록이 보여집니다. 이 목록에서 Role을 선택하면 됩니다.

페이지 상단의 버튼들에 대해 다음을 참조하십시오.
• 돋보기 아이콘(View Details) : 이 버튼으로 자세히 보기를 활성화 하면 표기한 애노테이션 상단에 멘션의 타입이 보여집니다.
• 플러스 아이콘/되돌아가기 아이콘(Add/Replace) : 선택된 텍스트에 대한 포커스를 관리합니다.
• 문서 아이콘(Concordance) : 한 애노테이션에 대해 태스크의 모든 문서에 애노테이션을 전파시킬 수 있습니다. 작업중이던 내용을 저장한 후에 전파시키려는 애노테이션을 선택하고 나서 이 버튼을 누릅니다.
• 눈 아이콘(Attribute View) : 애노테이션 한 텍스트를 선택하고 이 버튼을 누르면 이 멘션에 대한 속성 정보가 보여집니다.

1) 다음과 같이 가능한 모든 멘션의 엔티티 타입에 대해 애노테이션 하십시오.

2) 모든 멘션의 롤에대해 애노테이션 하십시오.

3) 상황에 따라 하위타입, 멘션의 타입 및 클래스에 대해서도 애노테이션 하십시오.

4) 다른 문서에도 한꺼번에 전파시키고 싶은 애노테이션에 대해 작업합니다. 예를 들어 모든 문서에 “운전자”가 언급되면 사람 엔티티 타입으로 표기하겠습니다. 이 작업을 수행하기 전에 작업하던 문서를 저장하십시오.

– 해당 텍스트(“운전자”)를 클릭하고 Concordance 아이콘을 클릭합니다.

– 다음과 같은 팝업창이 뜨면 Preview를 클릭합니다.

– Preview를 검토하고 Apply&Review 버튼을 클릭합니다.

– Go Back to Ground Truth Editor 버튼을 눌러 편집 화면으로 돌아옵니다.

5) 모든 문서에 대해 같은 작업을 반복하십시오.

5.2 Coreferences 애노테이션

Mentions에 대한 애노테이션 작업이 끝난 후에 진행해야 하는 단계입니다. 왼쪽 메뉴에서 Doxument Annotation > Coreferences를 선택한 후에 진행하십시오.

같은 엔티티에 해당하는 단어를 연속해서 클릭합니다. 마지막으로 언급된 단어에서 더블클릭 합니다. 선택된 단어들에 숫자 키가 할당되어 있습니다. 같은 엔티티를 가리키는 지시어들이 같은 숫자로 할당됨을 확인하십시오.

빼먹은 단어가 있다면 우측 하단의 Single Mention List에서 해당 단어를 클릭하여 추가할 수 있습니다.
다음 화면에서 해당하는 번호를 선택하고 Merge 버튼을 누른 후 OK 버튼을 누릅니다.

5.3 Relations 애노테이션

왼쪽 메뉴에서 Document Annotation > Relations 를 선택합니다. 관계의 첫번째 엔티티에 해당하는 단어와 두번째 엔티티에 해당하는 단어를 연속으로 클릭합니다. 우측에서 두 엔티티 사이의 관계를 선택합니다.

1) occupantOf 관계 타입의 예시입니다. 다음과 같이 차량과 탑승자의 관계를 표기합니다.

2) 다음은 locatedOn 관계 타입에 대한 예시입니다. 차량 부품과 차량 사이의 관계를 의미합니다.

5.4 제출하기

모든 문서에 대해 애노테이션 작업을 완료한 후에 각 문서의 상태를 Complete로 표기한 후 저장(Save)합니다.
모든 문서의 상태가 Complete가 되면 Task1의 DocumentSet의 상태가 In Progress에서 Submitted로 변경됩니다. 한번 Submit 하면 휴먼 애노테이터는 더이상 문서를 수정할 수 없습니다. 이제 이 문서를 리뷰하고 문서 간의 애노테이션을 판결하고 승락하거나 거절하는 것은 프로젝트 매니저의 역할입니다. 애노테이션이 프로젝트 매니저에 의해 승락되면 해당 문서는 Ground Truth로 승급됩니다.

두번째 DocSet에 대해서도 애노테이션을 하십시오. 프로젝트 매니저가 애노테이션을 판결하도록 충돌을 일으키려면 중복된 문서에서 일부러 차이를 만들어 내십시오. 이 차이가 있어야 다음 단계를 진행할 수 있습니다 :-)

다섯번째 단계인 휴먼 애노테이션도 마치셨습니다.
다음 단계는 Exercise 06: 판결(Adjudication)입니다.

토론 참가

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다