지식 추출은 구조화된 자료[1]에서 지식을 생성하는 것을 의미한다.

구조화된(관계형 데이터베이스, XML) 및 구조화되지 않은(텍스트, 문서, 이미지) 소스에서 지식을 생성하는 것이다. 결과로 나온 지식은 기계가 읽을 수 있고 기계가 해석할 수 있는 형식이어야 하며 추론을 용이하게 하는 방식으로 지식을 나타내야 한다. 정보 추출(NLP) 및 ETL(데이터 웨어하우스)과 방법론적으로 유사하지만 추출 결과가 구조화된 정보의 생성이나 관계형 스키마로의 변환을 넘어선다는 것이 주요 기준이다. 기존 형식 지식의 재사용(식별자 또는 온톨로지 재사용) 또는 소스 데이터를 기반으로 하는 스키마 생성이 필요하다.

RDB2RDF W3C 그룹은 현재 관계형 데이터베이스에서 리소스 설명 프레임워크(RDF)를 추출하기 위한 언어를 표준화하고 있다. 지식 추출의 또 다른 인기 있는 예는 위키백과를 구조화된 데이터로 변환하고 기존 지식에 매핑하는 것이다. (DBpedia프리베이스 문서 참고)

같이 보기

편집

각주

편집
  1. XML 등이 있다.
  NODES