default_top_notch
default_setNet1_2

딥러닝 뛰어넘는, 새로운 기계 학습 기술, '딥텐서(Deep Tensor)' 개발

기사승인 2016.10.22  12:15:52

공유
default_news_ad1

- 후지쯔 인공지능(AI), '진라이(Zinrai)' 진화에 진화를 더 한다.

새로운 기계 학습 기술, '딥텐서(Deep Tensor)' 개발(사진:후지쯔)

후지쯔연구소(富士通研究所)는 사람이나 사물의 연결을 표현할 수 있는 그래프 구조의 데이터에 대해서 고 정밀의 해석을 가능하게 하는 기계 학습 기술 "딥텐서(Deep Tensor)"을 개발했다고 지난 21일 발표했다.

화상이나 음성에서는 매우 높은 인식 정밀도를 달성하고 있는 기존의 딥러닝(Deep Learning)기술에 그래프 구조의 데이터까지 적용이 가능한 신기술이다. 그래프 구조의 데이터는 구조가 복잡하고 크기와 표현 방법 등 다양한 데이터가 혼재하고 있지만, 최첨단의 수학을 활용하고 다차원 배열을 요소 간의 다중 상관 관계의 합으로 분해하는 기술인 텐서(Tensor)는 통일적 표현으로 변환함으로써 딥러닝 기술을 이용하여 그래프 구조의 데이터를 정확하게 학습할 수 있다.

이미지:후지쯔

이번에 개발된 딥텐서 기술을 이용하여 화합물의 개방적인 데이터베이스 PubChem BioAssay(약리 및 독성 시험의 화합물의 구조와 활성 데이터를 수록한 세계 최대의 데이터베이스)의 데이터를 바탕으로 화합물의 구조와 활성의 학습에 적용한 결과, 기존 기술의 약 100배가 되는 수 10만종 규모의 화합물의 구조와 각각의 활성의 관계를 학습할 수 있어 기존 기술에서는 파악하지 못한 특징들을 추출함으로써 기존 기술보다 약 10%향상으로 약 80%의 활성 예측 정밀도를 달성했다.

또한, 이번에 개발된 딥텐서는 후지쯔의 인공지능(AI) ‘진라이(Zinrai)’에 적용한다고 한다. 지난 8월에 진라이는 일반적인 딥러닝에서는 대량의 데이터를 학습할 때 엄청난 시간이 걸리기 때문에 이에 후지쯔는 '슈퍼 컴퓨터의 소프트웨어 병렬화 기술을 응용, 복수의 GPU사용' 딥러닝의 학습 속도를 고속화하는 소프트웨어 기술을 탑재했었다.

<그림 1>그래프 구조로 표현할 수 있는 데이터와 텐서 표현(사진:후지쯔)

최근에는 기기 간 통신을 하는 사물인터넷(IoT)이나 은행 계좌 간 거래의 로그 데이터를 다루는 금융, 화학 물질의 조성의 데이터베이스를 활용하는 신약 개발 등 다양한 산업 분야에서 사람이나 사물의 연결구조를 그래프로 표현할 수 있는 데이터(그림 1)가 대량으로 축적되고 있다. 그동안 후지츠 연구소에서는 LOD(Linked Open Data)로 불리는 그래프 구조 데이터의 검색·분석 기술을 개발해 왔으며, 이들의 그래프 구조의 데이터를 정확하게 분류, 해석함으로써 새로운 가치 창조와 비즈니스 영역의 확대로 이어지는 것을 기대한다고 밝혔다.

그동안은 그라프 구조의 데이터 분류에서는 미리 사람들이 주목한 부분의 그래프가 분류 대상 그래프 구조 데이터 중에 포함되느냐에 따라서 분류하고 있었다. 그러나 대량의 그래프 구조 데이터를 분류의 대상으로 하는 경우, 사전에 주목한 부분을 그래프로 대부분 표현하지 못해 고 정밀의 분류를 실현하는 데 한계가 있었다.

딥러닝 기술은 데이터의 특징 요소를 자동적으로 추출할 수 있으며, 화상이나 음성 인식 등의 분야에서는 주목되고 있었지만, 그래프 구조의 데이터는 구조가 복잡하고 크기와 표현 방법 등 다양한 데이터가 혼재하기 때문에 딥러닝 기술을 적용하는 것이 곤란했었다. 이번 개발된 '딥텐서(Deep Tensor)'는 기술사람이나 사물의 연결을 나타내는 다양한 그래프 구조의 데이터를 정확하게 학습할 수 있는 기존 딥러닝을 넘는 신기술이라고 후지쯔는 밝혔다.

개발된 '딥텐서(Deep Tensor)'의 주요 기능과 특징으로는 우선, 그라프 구조의 데이터를 통일적 표현으로 변환하고, 새로운 텐서 분해 기술로 다양한 표현 형식을 가진 그래프 구조의 데이터를 벡터와 행렬을 확장한 텐서로 불리는 수학 표현을 사용해서 표현한다.(그림 1)

이것을 최첨단 데이터 마이닝 기술인 텐서 분해로 불리는 수학적 조작을 이용하여 통일적인 표현 형식으로 변환한다(그림 2) 종래는, 유사한 그래프 구조의 데이터를 반드시 유사한 텐서 표현으로 변환할 수 없지만 이번 기준이 되는 임의의 패턴과의 유사도를 극대화 하도록 텐서 분해를 실시하는 기술이다.

<그림 2>'딥텐서(Deep Tensor)'기술에 의한 그래프 구조 데이터의 분류(사진:후지쯔)

또한, 신경 회로망(神經回路網, neural network)의 학습과 동시에 통일적 표현을 최적화하는 기술로 뉴럴 네트워크의 학습 과정에서 통상 이용되고 있는 오차 역 전파 법(뉴럴 네트워크의 분류 오차를 감소시키는 알고리즘)의 적용 범위를 텐서 표현까지 확장함으로써 분류 정밀도를 최대화하도록 통일적 표현도 동시에 최적화했다.(그림 3) 구체적으로 기준이 되는 패턴을 변화시켰을 때의 뉴럴 네트워크의 분류 오차의 변화의 크기에서 텐서 표현의 기준 패턴을 갱신한다.

<그림 3> 신경 회로망의 학습과 통일적 표현의 최적화(사진:후지쯔)

이번 후지쯔의 새로운 딥러닝(딥텐서)기술에 의한 컴퓨터와 IoT기기 등 통신 기록이나 금융 거래, 화학 조성 등, 그래프로 구조로 표현할 수 있는 데이터를 활용하고 새로운 분석이 가능하게 된 것이다.

본 기술로 화합물의 구조와 활성의 개방적인 데이터베이스 PubChem BioAssay(약리 및 독성 시험의 화합물의 구조와 활성 데이터를 수록한 이 분야의 세계 최대 데이터베이스)의 데이터에 적용하여 컴퓨터 상에서 의약품 후보 화합물을 탐색하는 가상 스크리닝에 적용한 실험에서는, 서포트 벡터 머신(SVM- Support Vector Machine/데이터를 정밀하게 분리되어 있어 고차원 공간의 평면을 산출하는 기계학습기술)을 이용한 기존 기술의 약 100배가 되는 수 10만종 규모의 화합물의 구조와 활성의 관계를 학습할 수 있었다.

기존 기술에서 볼 수 없었던 특징이 추출함으로써 기존 기술보다 약 10%향상으로 약 80%의 활성 예측 정밀도를 달성했다. 이에 의한 의약품 개발에서 과제가 되고 있는 개발 기간과 비용을 대폭 삭감하는 기대효과가 있다.

참고) PubChem은 화학 분자 및 생물학 논문에 대한 활동의 데이터베이스이다. 이 체계는 미국 국립 보건원(NIH)의 일부인 미국 의학 도서관(NLM)의 한 구성 요소인 미국 국립생물공학정보센터(NCBI)가 관리하고 있다. PumChem은 웹 사용자 인터페이스를 통해 무료로 접근할 수 있다. FTP를 통하여 수백만 가지의 화합물 구조와 설명 자료를 내려받을 수 있다. 80군데가 넘는 업체들이 PubChem 데이터베이스의 성장에 기여하고 있다.(출처:위키백과)

또한, 기술을 침입 검지의 벤치 마크 데이터(DARPA Intrusion Detection Data Sets)에 적용하여 호스트 간 통신 관계 그래프 구조의 데이터에서 부정과 공격의 검지를 하는 실험에서는, 서포트 벡터 머신을 이용한 기존 방법에 비해서 2할 이상 오검지의 삭감에 성공했으며, 이로써 네트워크 감시 업무의 효율화를 극대화 시켰으며, 그 이외에 본 기술을 전자 화폐 거래 이력과 대출 이력 등에 적용함으로써 부당한 금융 거래를 정확하게 탐지할 수 있으며, 대출시 여부 정밀한 판정 등이 가능한 것에 실증으로 확인됐다.

또한 대규모 데이터의 학습에 강한 Deep Learning은 생명 과학 분야의 다양하고 대량 데이터의 학습을 가능하게 하는 기술로서 제약 업계에서도 주목을 끌고 있으며, 교토대학 대학원 의학 연구과 인간 건강 과학계 전공, 빅데이터 의과학 분야 오쿠노 야스시(奥野恭史) 교수는 "의약품의 약효, 부작용 등 다양한 작용의 예측에 적합한 화합물의 특징량을 설계하는 것이 큰 과제가 되고 있습니다."라며,

"예측에 적합한 특징량을 학습 데이터에서 자동으로 생성할 수 있는 후지쯔의 새로운 딥러닝 기술인 '딥텐서(Deep Tensor)'는 신약 개발 분야에 큰 영향을 주는 기술로서 기대됩니다." 라고 말했다.

지난해 11월2일 발표된 후지쯔의 AI '진라이/Zinrai' 개념도(사진:본지DB)

향후, 후지쯔연구소는 그라프 구조 데이터의 분류 기술의 추가 고정 밀도화를 추진하고 후지쯔의 인공지능(AI)기술인 "진라이(Zinrai)"의 핵심 기술로서 본 기술의 2017년도 상반기 중인 실용화를 목표로 한다고 밝혔다. 

김수아 기자 yosich@hanmail.net

<저작권자 © 세미나투데이 무단전재 및 재배포금지>
default_news_ad4
default_side_ad1

인기기사

default_side_ad2

포토

1 2 3
set_P1
default_side_ad3

섹션별 인기기사 및 최근기사

default_setNet2
default_bottom
#top
default_bottom_notch