이 단계에서는 언어 규칙(Linguistic Rule)을 사용하여 사전 애노테이션을 수행합니다. 사전 애노테이션을 중복하여 수행하는 경우 이전 단계에서 수행한 사전 애노테이션은 사라집니다. 이를 원하지 않는 경우 이번 단계를 스킵하십시오.

전체 실습은 다음의 순서로 진행됩니다.
Exercise 01: 프로젝트 생성, 타입 시스템 생성 및 수정
Exercise 02: 기계 학습용 자료(Training Corpus) 업로드
Exercise 03: 딕셔너리 애노테티터(Dictionary Annotator) 생성 및 사전 애노테이션(Pre-annotation)
• Exercise 04: 언어적 규칙(Linguistic Rule)을 사용한 사전 애노테이션(Pre-annotation)
Exercise 05: 휴먼 애노테이션(Human annotation) 태스크 생성
Exercise 06: 휴먼 애노테이션(Human annotation)
Exercise 07: 판결(Adjudication)

언어 규칙(Linguistic Rule)을 사용하면 쉽고 빠르게 엔티티 애노테이션을 할 수 있습니다. Watson Knowledge Studio에서 Rule 기반의 애노테이션은 독립적으로 구성 및 배포될 수도 있고 머신러닝 애노테이터 빌드를 위한 Pre-Annotator로써 사용될 수도 있습니다.

언어 규칙 기반의 애노테이션을 사용하면 좋은 상황은 예를들어 다음과 같습니다.:
• 관계 보다는 엔티티 추출에 관심이 있는 경우
• 엔티티 및 관계가 비교적 쉽게 구성되어 있어 쉽게 애노테이션 할 수 있는 경우
• 문서에서 엔티티를 사용하는 방법에 있어 변화 및 다양성이 적은 경우
• 문서에 공동 지시어(co-references)가 상대적으로 적은 경우

위와 같은 상황이라 할지라도 머신 러닝 애노테이터가 더 효과적일 수 있습니다. 룰 기반의 애노테이터는 사전-애노테이터로써 더 유용합니다. 휴먼-애노테이터가 Ground-Truth를 만드는 업무를 훨씬 쉽게 만들어 줍니다.

• Rules: These are linguistic rules that are built on individual words (which are called tokens) as well as dictionaries, regex rules, and other linguistic rules. This provides the ability to build rules on top of previously built rules (and in the future, machine-learning annotations).
• Dictionaries: These are the dictionaries that you created earlier, exposed here for use in the linguistic rules annotator.
• Regex: These are rules built using the Regular Expression language. Regex is a pattern matching expression language. It is especially useful for modeling specific token patterns such as credit card numbers, email address, postal codes, and license plates. You do not use Regex rules in this exercise, but they are easy to create and deploy. You can find more information on regex at this link: https://en.wikipedia.org/wiki/Regular_expression.

1) Document Annotation > Rules로 이동합니다.

언어 규칙 기반으로 사전-애노테이션을 수행하려면 먼저 문서를 생성하거나 가져와야 합니다. 이 실습에서는 이 규칙을 머신러닝 애노테이션을 빌드하기 위한 사전-애노테이션 용도로 사용하므로 이 전 단계에서 업로드한 문서를 그대로 사용하면 됩니다.

2) Documents 탭 우측의 + 아이콘을 눌러 문서를 가져옵니다. Copy From All Set 탭에서 업로드한 문서 중 하나를 선택하고 하단의 Copy버튼을 눌러 복사합니다.

다음과 같이 문서가 복사됩니다.

3) 다음 단계로 Class를 생성합니다. Class는 Entity Type과 동등한 용어로 Rule에서만 쓰이는 용어입니다. 나중에 Class를 상응하는 Entity Type에 매핑하여 사용합니다. 다음의 클래스를 생성하십시오.

– Model_Year_Class
– Manufacturer_Class
– Model_Class

Class 탭에서 + 버튼을 누릅니다.

Class 이름을 입력하고 Add 버튼을 누릅니다.

위 단계를 반복하여 3개의 클래스를 생성합니다.

4) Dictionary에 Class를 맵핑합니다. Document Annotation > Dictionaries로 이동합니다.

manufacturer_dict 를 클릭하면 다음처럼 클래스를 맵핑할 수 있습니다. 셀렉트 박스에서 Manufacturer_Class를 선택하고 Save 버튼을 누릅니다.

마찮가지로 다음과 같이 model_dict 딕셔너리에 Model_Class를 맵핑합니다.

5) 가운데 Documents 탭에 있는 문서를 클릭하십시오. Manufacturer 및 Model이 애노테이션 되어 있는 것을 확인하십시오.

6) 이제 Model_Year 를 애노테이션 하기 위한 언어 규칙을 생성해 보겠습니다. 한 문장에서 년도 바로 뒤에 제조사 이름과 모델 이름이 오면 Model_Year라고 정의할 수 있습니다. 다시 Document Annotation > Rules로 이동하십시오.

7) Document 탭에서 “2007”, “현대”, “소나타”를 클릭하면 Rules 탭에 있는 + 버튼이 활성화됩니다.

+ 버튼을 클릭합니다.

8) 다음과 같이 룰 편집 화면이 나옵니다. “2007” 위에 있는 박스를 클릭하여 Model_Year_Class를 맵핑합니다.

9) Rules 탭에서 Rule의 이름을 다음과 같이 지정해줍니다.

10) “2007”을 선택하고 Open Properties 버튼을 선택하면 다음과 같이 속성 변경 화면이 나타납니다.

11) 다음과 같이 속성을 변경합니다.

12) Save 버튼을 눌러 저장합니다. 샘플 문서에서 Model_Year가 제대로 애노테이션 되었는지 확인합니다.

13) 이제 생성한 룰로 문서에 사전-애노테이션 작업을 수행할 차례입니다. Model Management > Versions로 이동합니다.

14) Rule-based model type mapping 탭으로 이동합니다.

15) Model, Manufacturer, Model_Year 타입에 클래스를 맵핑합니다. Actions 컬럼에 있는 Edit 버튼을 클릭하고 원하는 클래스를 선택한 후 저장하면 됩니다.

16) Rule-based 탭으로 이동합니다. Run this model 버튼을 클릭합니다.

17) 팝업에서 사전 애노테이션을 수행할 문서 셋을 선택합니다.

18) Run 버튼을 클릭하면 다음과 같이 수행됩니다.

토론 참가

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다