IBM Watson Discovery는 문서 등 비정형 데이터 속에서 유의미한 정보와 인사이트를 찾아낼 수 있도록 해주는 솔루션입니다.

Watson Discovery 솔루션 아키텍처

이번 포스트에서는 Discovery를 활용하는 가장 첫 단계인 Data Ingest 방법에 대해 알아보도록 하겠습니다.
Watson Discovery에 데이터를 올리는 방법은 직접 업로드 하는 방법원격에 존재하는 데이터 소스에 연결하는 방법이 있습니다.


즉, 위의 그림에서 보는 바와 같이 Salesforce, Sharepoint, Box, Web Crawl, IBM Cloud Object Storage에 연결하여 사용할 수도 있고, 직접 “Upload Documents”를 통해 파일을 올릴 수도 있습니다.
이번에는 직접 업로드 하는 방식으로 진행해보도록 하겠습니다.

Upload Documents를 클릭하고, 컬렉션 이름 및 언어를 설정해줍니다.

설정을 완료하면 해당 데이터 컬렉션 화면으로 넘어갑니다.

현재 만든 demo1이라는 컬렉션에는 문서가 1개 올라와있으나, 하나의 컬렉션에는 여러개의 문서를 올릴 수 있습니다. 위의 화면 우측의 Upload Documents 를 클릭하여 문서를 추가로 올릴 수 있습니다.

* 단, 문서를 올리는 방법은 위에 언급했던, 커넥터를 통해 데이터 소스 (Salesforce, Box, Sharepoint 등)에 연결하여 가져오는 방법과, 직접 업로드 하는 이 두가지 방식 외에 Data Crawler를 이용하는 방식이 있습니다. Data Crawler는 command line tool로써 원격의 파일공유시스템에서 대량의 파일 업로드를 수행하려고 하거나 데이터베이스에서 컨텐츠를 추출하려는 경우 사용할 수 있습니다.
(Data Crawler를 사용하는 방법에 대해서는 추후 더 자세히 소개해드리도록 하겠습니다.)

이제 문서를 올리는 것을 완료하였습니다.

업로드한 문서를 기반으로 Watson Discovery 사용해보기 다음 포스트에서는 SDU (Smart Document Understanding) 기능을 통해 손쉽게 시각적으로 훈련하여 문서 구조를 깊이있게 이해할 수 있는 방법에 대해 알아보도록 하겠습니다.