hw_1920x300.jpg
Hardware
IPU on EDA

Grapfcore on EDA

What is IPU
 

  • 영국의 스타트업 기업인 그래프코어(Graphcore)가 머신 러닝(Machine learning, 기계학습) 워크로드를 실행하도록 설계된 새로운 개념의 프로세서로 벤처캐피털(VC)과 유력 IT 기업으로부터 주목받고 있다.

  • 그래프코어의 콜로서스(Colossus) IPU는 1,216개의 각 IPU 코어마다 프로세서 내 메모리 타일을 탑재했다.

√ 콜러서스 IPU는 16코어 팩과 236억개의 트랜지스터를 탑재한 세계 최초의 메모리 중심적 병렬 프로세서다.

√ 단일 칩의 1216 IPU는 코어당 최대 100GFLOPS(1GFLOP은 초당 약 10억 부동 소수점 연산에 해당)이상으로 300MB 메모리와 짝을 이룰 수 있으며 최대 7000개 이상의 프로그램을 병렬로 실행할 수 있다.

√ 그래프코어의 첫 상용 IPU는 지난 2018년에 출시된 16나노미터 PCI 고속 카드 ‘C2’다. 그래프코어 IPU의 칩당 메모리 대역폭은 45TB/s로 ‘C2’에 90TB/s의 전체 카드 대역폭을 제공하고, 이론적인 최대치는 HBM2 그래픽 칩 메모리보다 100배 이상 높다. 

  • 594억 개의 트랜지스터를 823 평방밀리미터 크기의 단일 다이에 집적해 TSMC의 7nm 공정으로 제조된 그래프코어의 2세대 IPU인 M2000은 지금까지 개발된 가장 복잡한 프로세서 중 하나이다.

  • IPU는 메모리가 프로세서에 내장되어 CPU(중앙처리장치)와 GPU(그래픽스 처리장치)에 비해 빠른 연산 속도를 제공하고 저전력으로 운영이 가능하다는 장점이 있다.

  • GPU의 경우에는 메모리가 밖에 위치해 CPU와 D램간 데이터 전송 시간이 소요되어 지연(Latency) 문제가 발생된다. IPU는 Intelligence Processing Unit의 약자로 프로세서에 직접 메모리를 배치해 연산 속도를 빠르게 개선시킨 프로세서를 의미한다. CPU, GPU 대비 데이터 처리 속도가 10배에서 최대 100배까지 빠르고, GPU보다 전력 사용량이 2배 이상 낮다. AI 부문에서 IPU는 학습 및 추론 모델을 메모리에 적재한 후 즉각적으로 연산할 수 있어 대응이 빠르다.

GC011_IPURACK_009_W4K-2_compressed_1600p

IPU와 GPU의 차이

  • CPU는 전력을 많이 소비하는 프로세서이고, GPU는 머신러닝에 훌륭한 기술이다.

  • 하지만 GPU는 대부분 그래픽에 치우쳐 있기 때문에 인텔리전트 처리에 제한 요소가 따른다.

  • IPU는 그래프 기반의 아키텍처이며, 자연어처리에 탁월한 성능을 보여준다. 

EDA 설계 및 적용사례

Mentor
 

  • 그래프코어는 멘토의 솔루션으로 회로 검증, PCB 설계, 프로토콜 검증, 열 분석, DFT(Design-for-Test) 및 최첨단 AI 프로세서의 브링업(bring-up: 기능 수행) 작업 등을 수행했다.

  • 그래프코어가 활용한 멘토의 솔루션은 업계 최고의 Calibre® 검증 플랫폼, PCI Express 4.0을 위한 Questa™ Verification IP 솔루션, Tessent™ 소프트웨어 DFT 플랫폼, Xpedition™ 소프트웨어 동시병행 팀 설계 플랫폼 등이다.

  • 업계 최고의 Calibre® 플랫폼에는 최고의 물리적 검증 솔루션인 Calibre nmDRC와 최고의 회로 검증 솔루션인 Calibre nmLVS가 포함되어 있다.

√ 이 솔루션들의 지원으로 그래프코어는 자사의 2세대 디바이스의 설계 의도를 지원할 수 있었다.

√ 그래프코어는 SmartFill 기능을 갖는 Calibre YieldEnhancer도 이용해 설계 평면성을 제어했으며, 이는 여러 설계 반복작업 전반에 걸친 턴어라운드 시간을 단축하는 데 기여했다.

출처 : 인공지능신문(http://www.aitimes.kr)

  • Questa Verification IP 솔루션, PCI Express 4.0을 위한 Questa™ Verification IP 솔루션이 Graphcore IPU의 PCIe Gen4, 이더넷 및 AMBA 인터커넥트 I/O 버스를 검증하는 데 사용되었다.

√ Questa 기술은 고속 인터커넥트를 위한 포괄적인 검증 솔루션을 제공하며, 모델, 커버리지, 체커(checker), 시퀀스 및 테스트 계획들을 포함하고 있다.

출처 : 인공지능신문(http://www.aitimes.kr)

  • Tessent™ 소프트웨어 DFT 플랫폼, 그래프코어가 크고 복잡한 Colossus GC200 IPU 디바이스의 생산과 관련된 광범위한 DFT 문제를 해결하는 데 도움을 주었다.

√  그래프코어는 Tessent SiliconInsight™ 소프트웨어를 벤치탑 테스트에 사용함으로써 모든 온보드 로직 BIST, ATPG 및 메모리 BIST 부분을 일정보다 훨씬 앞서 검증해냈다.

출처 : 인공지능신문(http://www.aitimes.kr)

  • PCB 설계에 성능 및 양산제조 가능성 검증, PCB 설계 프로세스에서 멘토의 HyperLynx™ 소프트웨어 DRC, Valor™ 소프트웨어 NPI 및 Simcenter™ Flotherm™ 소프트웨어를 이용해 시스템의 성능 및 양산제조 가능성을 검증했다.

출처 : KIPOST(키포스트)(https://www.kipost.net)

 

Synopsys

https://news.synopsys.com/2018-09-18-Graphcore-Uses-Synopsys-Design-Platform-to-Implement-Colossus-Chip-to-Accelerate-AI-Computing

  • Synopsys, Inc. (Nasdaq : SNPS)는 오늘 Graphcore가 Synopsys 디자인 플랫폼을 사용하여 기존 프로세서 (CPU 및 GPU)에 비해 인공 지능 (AI) 컴퓨팅을 가속화하기 위해 Colossus ™ 지능형 처리 장치 (IPU)를 성공적으로 구현했다고 발표했습니다.

  • 주요 AI 중심의 최적화 기술로 강화된 포괄적인 Synopsys 디지털 및 맞춤형 설계 흐름을 통해 설계자는 클라우드 컴퓨팅, 데이터 센터, 자동차 및 모바일 애플리케이션용 AI 칩에서 목표 결과 품질(QoR) 및 결과 시간(TTR) 목표를 달성할 수 있습니다. Synopsys의 Fusion Technology™는 상호 연결 계획, MAC(Multipulate) 토폴로지 최적화, 완전한 AI IP 참조 흐름 등 AI 칩 설계에 대한 최적화 기능을 강화하여 최대 속도, 최소 면적, 최저 전력 또는 최적의 세 가지 균형을 제공합니다.

  • AI 처리 능력에 대한 수요는 2012년 이후 3.5개월마다 두 배씩 증가하고 있습니다. 그러나, 처리 수준을 달성하는 데 필요한 성능, 전력 및 지연 시간이 증가함에 따라 기존 CPU 및 GPU 프로세서의 제한이 가중되고 있습니다. Graphcore의 Collosus IPU는 AI 워크로드에 최적화되어 있으며, 전체 신경망을 칩에 저장할 수 있습니다. 이 제품은 대규모 병렬 저정밀 부동 소수점 컴퓨팅을 사용하는 그래프 컴퓨팅을 사용하며 다른 솔루션보다 훨씬 높은 계산 밀도를 제공하여 머신 러닝에 대한 교육과 추론을 모두 가속화합니다.

  • Graphcore의 실리콘 부사장인 Phil Horsfield는 "융합 기술이 적용된 Synopsys Design Platform은 인공지능과 머신 러닝을 위한 우수한 처리 성능을 달성하는 데 필요한 모든 기능을 제공합니다."라고 말했습니다. "Synopsys와의 파트너십은 현재 및 미래의 AI 애플리케이션을 구동하기 위한 빠르고 역동적인 시장에서 Colosus IPU를 개발하는 데 큰 역할을 했습니다."

  • 일반적인 AI 칩은 수천 개의 복제된 프로세서 코어로 구성되며, 높은 처리량, 에너지 효율성 및 짧은 대기 시간이 특징입니다. 프로세서 코어는 라우팅 가능성을 제한하는 정체성으로 이어질 수 있는 까다로운 연결 요구 사항을 가진 중요한 빌딩 블록입니다. Synopsys Fusion Technology는 최고의 전력, 성능, 정체/면적, 수율 및 설계 마감 기능을 제공하는 AI 칩의 선호 옵션입니다. 수백 개의 복제된 모듈을 위한 AI 칩 인터커넥트 계획, MAC 토폴로지 최적화, 완전한 AI IP 참조 흐름, 풀 플로우 동시 클럭 및 데이터 최적화, 와이어 합성, 논리 재구성 등 몇 가지 핵심 AI 중심의 최적화 기술로 강화되었습니다.

  • 다음 으로 구성된 포괄적인 디지털 및 사용자 지정 디자인 흐름이 동급 최고의 QoR 및 TTR를 제공합니다.

√  Design Compiler® Graphical synthesis

√  IC Compiler™ II place-and-route

√  PrimeTime® signoff

√  StarRC® extraction

√  Custom Compiler® custom layout

√  Silicon Smart® characterization

√  HSPICE® circuit simulation

  • Synopsys의 디자인 그룹 공동 총괄 매니저인 Sassine Gazi는 "AI 칩 설계의 선두 주자로서 Synopsys는 컴퓨터 비전, 객체 및 음성 인식, 빅데이터 분석의 선구자들과 함께 일해 왔습니다"라고 말했습니다. "Graphcore의 Collosus IPU는 머신 러닝의 주요 성과로, AI 애플리케이션이 칩 주문에서 데이터를 보다 효율적으로 이동하는 동시에 낭비되는 처리 능력을 크게 줄일 수 있도록 지원합니다. Synopsys의 Fusion Technology는 Graphcore와 같은 AI 칩 기업들이 Synopsys를 통해 고도로 차별화된 업계 정의 슈퍼 칩을 신속하게 출시할 수 있도록 지원하고 있습니다."

  • 제품관련 문의 : 테크세일즈팀 IPU담당자    전화 : 02.704.2077  이메일 : ipu@ezcom.co.kr