FPGA를 사용하여 저전력 고성능 에지 컴퓨팅 구현 | 반도체네트워크

죄송합니다. 더 이상 지원되지 않는 웹 브라우저입니다.

반도체네트워크의 다양한 최신 기능을 사용하려면 이를 완전히 지원하는 최신 브라우저로 업그레이드 하셔야 합니다.
아래의 링크에서 브라우저를 업그레이드 하시기 바랍니다.

Internet Explorer 다운로드 | Chrome 다운로드

FPGA를 사용하여 저전력 고성능 에지 컴퓨팅 구현


PDF 다운로드



글/Clive “Max” Maxfield, Digi-Key


일반 클라우드 컴퓨팅은 대기 시간, 데이터 보안, 최종 사용자 개인정보 보호, 사용 가능한 대역폭, 안정적인 연결 등에 문제가 있다. 이러한 문제를 해결하기 위해 설계자와 시스템 설계자들이 에지 컴퓨팅으로 향하고 있다. 하지만 에지 컴퓨팅은 비용, 크기, 성능, 전력 소비, 확장성, 유연성, 업그레이드 가능성 등 몇 가지 문제점이 있다. 설계자가 데이터 출처에 더 가까운 위치에서 더 많은 이미지를 처리하고 더 많은 인공 지능(AI) 및 머신 러닝(ML) 알고리즘을 구현해야 하는 경우에 특히 그렇다.
따라서 설계자는 기존 마이크로 컨트롤러(MCU) 또는 응용 프로세서(AP)에서 벗어나 병렬 처리 기능을 갖춘 현장 프로그래밍 가능 게이트 어레이(FPGA)를 고려하고 있다. FPGA 설계 및 구현의 지속적인 향상으로 이제 설계자는 MCU 및 AP와 결합하거나, 독립형 장치로 사용하여 이러한 요구 사항 중 전부 또는 많은 부분을 충족할 수 있다. 그렇긴 하지만 많은 설계자가 FPGA에 익숙하지 않아 학습 곡선을 걱정한다.
이 기사에서는 클라우드에서 에지 컴퓨팅으로의 마이그레이션에 대해 간략히 설명하고 이미지 처리와 AI 및 ML의 측면에서 기존 처리 아키텍처가 왜 부족한지를 살펴본다. 그런 다음 FPGA에 대해 잠시 살펴보고 이러한 데이터 집약적인 에지 응용 분야에 대한 FPGA의 구조적 이점을 설명한다. 마지막으로 FPGA에 대한 새로운 접근 방식(Efinix의 Quantum 기술)과 적용 방법을 소개한다.

에지 컴퓨팅을 선택해야 하는 이유?

기존 클라우드 컴퓨팅에서는 다양한 원격 위치에서 데이터를 수집한 후 저장 및 분석을 위해 클라우드 기반 시스템에 공급한다. 하지만 이 방식에는 여러 단점이 있다. 여기에는 대용량 원시 데이터 전송 비용, 전송 중인 데이터의 무결성 및 보안 유지, 응답 대기 시간, 최종 사용자 개인정보 보호 문제, 불안정한 인터넷 연결, 사용 가능한 대역폭의 최적화되지 않은 사용이 포함된다.
이름에서 알 수 있듯이 에지 컴퓨팅은 데이터를 생성, 분석, 수집, 적용하는 인터넷 에지 가까이 처리(계산 및 분석) 위치를 이동하는 것을 의미한다. 에지 컴퓨팅이란 용어는 응용 제품 또는 장치에 특정되지 않으며, 설계자가 필요에 따라 에지 전용 처리를 선택하거나 클라우드와 에지 간에 균형 조정할 수 있다.
에지 응용 분야에는 스마트 공장, 스마트 시티, 스마트 홈, 스마트 교통 등이 포함된다. 또한 에지 장치는 대규모 하이엔드 에지 서버부터 인터넷 맨 끝의 데이터 생성 지점에 위치한 상대적으로 작은 센서 및 액추에이터 시스템까지 다양하다.

FPGA의 이점

계산에 관한 한 기존 프로세서는 의사결정 및 순차적 작업의 측면에서 매우 효과적이지만, 이미지 처리, AI, ML 등에 사용되는 것과 같은 많은 데이터 처리 알고리즘의 측면에서 아주 비효율적이다. 경우에 따라 이러한 작업이 대규모 병렬(대 순차) 처리 파이프라인으로 분할될 수 있다. 공교롭게도 바로 이러한 응용 분야에서 에지 및 극단 에지로 마이그레이션하고 있다.
모든 기능을 조합하여 구현하도록 FPGA를 프로그래밍(구성)하면 이미지 처리, AI 및 ML 알고리즘을 대규모 병렬 방식으로 실행하여 전력 소비를 줄이면서 대기 시간을 최소화할 수 있다. 기본 프로그래밍 가능 패브릭 외에도 FPGA에는 DSP 집약적 응용 분야를 획기적으로 가속화하는 특수 배율기가 포함된 온칩 디지털 신호 처리(DSP) 블록이 탑재되어 있다. 또한 FPGA에서는 오프칩보다 훨씬 빠른 온칩 처리를 촉진하는 온칩 메모리 블록을 제공한다.
고유한 제품을 제공하는 많은 FPGA 벤더가 있다. 그런 벤더 중 한 곳인 Efinix는 일반 에지 컴퓨팅과 특히 이미지 처리에 탁월한 Quantum이라는 특수 FPGA 아키텍처를 개발했다. 이 기술을 기반으로 하여 기존 FPGA 기술보다 4배 더 우수한 전력-성능-영역 이점을 제공하는 Trion FPGA(및 Quantum ASIC) 계열을 개발했다(그림 1). FPGA 도메인과 ASIC 도메인을 연결하는 것은 Efinity 통합 개발 환경(IDE)이다.

AR(FPGA)-1.jpg

[그림 1] 전력-성능-영역 이점이 있는 Trion FPGA는 맞춤형 논리, 컴퓨팅 가속화, ML, 딥 러닝, 이미지 처리와 같은 응용 분야에 적합하다. Efinity IDE를 통해 사용자는 Trion FPGA에서 Quantum ASIC로 원활하게 마이그레이션하여 초대용량 제작을 지원할 수 있다. (이미지 출처: Efinix)

Quantum 기술이란?

기존 FPGA와 마찬가지로 Trion FPGA에는 메모리와 DSP 블록이 포함되어 있다. 차이점은 프로그래밍 가능 패브릭에 있다(그림 2). 프로그래밍 가능 논리의 핵심은 논리 소자(LE)이다. 각 LE에는 대조표(LUT), 멀티플렉서, 레지스터가 포함되어 있으며 모두 필요에 따라 구성될 수 있다. 기존 FPGA의 경우 프로그래밍 가능 패브릭은 ‘결이 거칠다’고 표현될 수 있다.

AR(FPGA)-2.jpg

[그림 2] 기존 FPGA 아키텍처(a)는 결이 거칠고 논리와 상호 연결을 프로그래밍할 수 있지만 여전히 고정 리소스이다. 그에 비해 Quantum 아키텍처를 기반으로 하는 Trion FPGA(b)는 결이 곱고 논리와 라우팅 리소스를 서로 교체할 수 있다(이미지 출처: Max Maxfield).

결이 거친 패브릭에서는 여러 LE가 더 큰 클러스터링된 논리 블록(CLB)으로 함께 결집한다. 벤더에 따라 구성 가능한 논리 블록(CLB)이라고 하는 경우도 있고 논리 어레이 블록(LAB)이라고 하는 경우도 있지만 모두 같을 것을 의미한다.
이 그림에서는 추상화하여 표현되어 있다. 기존 FPGA의 CLB 및 라우팅 스위치(프로그래밍 가능 상호 연결)는 실제로 위 그림과 같이 바둑판 패턴으로 표시되지 않다. 하지만 프로그래밍 가능 논리는 항상 프로그래밍 가능 논리이고, 프로그래밍 가능 상호 연결은 항상 프로그래밍 가능 상호 연결이라는 것은 변함없고 불변적인 사실이다.
기존 아키텍처에 비해 Trion FPGA는 아래로 단일 논리 소자의 분해능까지 훨씬 더 세분화되어 있다. 또한 교환 가능한 각 논리 및 라우팅(XLR) 셀을 라우팅 매트릭스의 일부 또는 LE로 작동하도록 구성할 수 있다.
Quantum 아키텍처에 사용되는 구성 셀은 SRAM을 기반으로 한다. 즉, 이 기술은 ‘실리콘에 구애받지 않는다’. 이러한 구성 셀은 일부 미드레인지 FPGA에 사용되는 대체 구성 기술(예: 플래시, 안티퓨즈)에 필요한 특수 처리 단계를 거치지 않고 표준 CMOS 공정에 따라 제조될 수 있다.
이 소프트웨어 구성 가능 논리 및 라우팅과 고성능 적응형 상호 연결을 사용하는 Quantum 기반 접근 방식은 동일한 공정 기술 노드에서 생성되는 기존 SRAM 기반 FPGA에 비해 전력-성능-영역(PPA)의 측면에서 4배 향상된다.
또한 Quantum 아키텍처를 사용하여 생성되는 FPGA에는 금속 피복 계층이 7개만 필요한 반면에 기존 FPGA에는 12개 이상이 필요하다. 금속 계층을 추가할 때마다 여러 마스크 및 공정 단계가 필요하므로 계층을 7개만 사용하면 설계 및 제조 비용이 절감되고 생산성이 향상된다.
이러한 모든 특성과 기능은 에지 컴퓨팅 및 이미지 처리를 위해 비용, 크기, 성능 및 유연성 이점을 모색 중인 설계자에게 매우 유용하다. 따라서 Trion FPGA는 기존 FPGA 응용 분야와 새롭게 등장하는 에지 컴퓨팅 및 이미지 처리 응용 분야 모두에 적합하다. 후자에는 모바일, 사물 인터넷(IoT), 자동화, 로봇 공학, 센서 융합, 컴퓨터 비전, AI 및 ML이 포함된다.

Trion FPGA의 구조

Trion FPGA는 4K ~ 200K LE 사이의 40nm 저전력 실리콘 공정에 따라 제조되며, 공정은 훨씬 더 큰 장치로 확장될 수 있다. 모든 Trion FPGA에는 메모리 및 DSP 블록이 포함되어 있지만, 용량과 개수는 장치의 크기에 따라 다르다. T4F81C2와 같은 소형 장치는 기능적으로 더 작고(예: 3,888 LE, 78,848 메모리 비트, 59 GPIO) 핸드헬드, 제어 평면 기능을 대상으로 한다.
T20F256C3과 같은 하이엔드 장치에는 상대적으로 많은 리소스가 포함되어 있다(예: 19,728 LE, 1,069,548 메모리 비트, 195 GPIO). T13F256C3은 T20F256C3과 비슷하지만 12,828개의 LE를 포함한다. 또한 T13/T20과 같은 장치는 다양한 버전으로 제공된다(그림 3).

AR(FPGA)-3.jpg

[그림 3] Efinix T13/T20 BGA256s(a)는 I/O 집약적인 설계 요건에 적합한 일반 FPGA이고, T13/T20 BGA169s(b)에는 MPI 카메라 인터페이스를 지원해야 하는 설계를 위한 두 MIPI D-PHY/CSI-2 하드 코어 블록이 포함되어 있다. T13/T20 BGA324s(c)는 메모리 대역폭 집약적 설계 요건을 충족하는 하드 코드 x16비트 이중 데이터 전송률(DDR) DRAM 인터페이스 및 컨트롤러로 MIPI 인터페이스를 강화한다. (이미지 출처: Max Maxfield)

MIPI CSI-2는 낮은 전력, 짧은 대기 시간, 저비용 칩 간 연결로 인해 모바일 및 기타 시장에서 가장 널리 사용되는 카메라 인터페이스이다. 또한 1080p, 4K, 8K 이상 비디오를 비롯한 광범위한 고성능 형식과 고분해능 이미징을 지원한다. 여기서 특히 흥미로운 것은 MIPI CSI-2가 에지 응용 분야의 비전 센서에 사용되는 기본 인터페이스라는 것이다. 이러한 응용 분야에서 설계를 지원하기 위해 T13/T20 BGA169s FPGA에는 두 MIPI D-PHY/CSI-2 하드 코어 블록이 포함되어 있다(그림 3).
DDR 메모리는 고대역 데이터 전송을 지원하지만 엄격한 타이밍 프로토콜을 준수해야 한다. 강화된 MIPI D-PHY/CSI-2 인터페이스 외에도 Trion T13/T20 BGA324s(그림 3)에는 메모리 대역폭 집약적 설계 요건을 충족하는 강화된 x16비트 DDR DRAM 인터페이스와 컨트롤러가 포함되어 있다.

Quantum ASIC

앞서 언급한 데로 Trion FPGA에 사용되는 구성 셀은 SRAM을 기반으로 한다. 따라서 시스템을 처음으로 켤 때 호스트 프로세서를 통해 ‘비트 뱅잉’하거나 외부 메모리 장치에서 Trion FPGA로 구성 데이터를 로드해야 한다. 또한 초대용량 제작에서 이를 위해 Efinix에서는 Quantum ASIC 형태의 Quantum Accelerated 내장형 FPGA(eFPGA) 솔루션을 제공한다. 이 경우 Efinix에서는 T4, T8, T13 또는 T20 설계를 사용하고 외부 구성 장치 없이 내부적으로 부팅되는 마스크 프로그래밍 Quantum ASIC 버전을 생성할 수 있다.

Trion FPGA로 설계 및 개발

Efinix는 사용자가 Trion FPGA를 익힐 수 있도록 다양한 평가 기판 및 개발 키트를 제공한다. 여기에는 Trion T8F81C-DK T8 Trion FPGA 개발 키트, Trion T20F256C-DK T20 Trion FPGA 평가 기판, Trion T20MIPI-DK T20 MIPI D-PHY/CSI-2 개발 키트가 포함된다.
FPGA로 개발하는 데 사용되는 가장 일반적인 기술 중 하나가 언어 구동 설계(LDD)이다. 여기서는 Verilog 또는 VHDL과 같은 하드웨어 설명 언어(HDL)를 사용하여 레지스터 전송 수준(RTL)이라는 추상화 수준에서 설계 의도를 파악한다. 논리 시뮬레이션을 통한 확인 후, 대상 FPGA 유형, 핀 배정, 타이밍 제약 조건(예: 최대 입/출력 지연)과 같은 추가 정보와 함께 이 표현을 합성 엔진에 공급한다. 합성 엔진의 출력은 FPGA 또는 외부 메모리 장치에 직접 로드되는 구성 파일이다(그림 4).

AR(FPGA)-4.jpg

[그림 4] 논리 시뮬레이션을 통한 확인 후 RTL 설계 설명은 FPGA 유형, 핀 배정, 타이밍 제약 조건과 같은 추가 정보와 함께 합성 엔진에 공급된다. 합성 엔진의 출력은 FPGA에 로드되는 구성 파일이다. (이미지 출처: Max Maxfield)

Efinix의 Efinity IDE는 이 클래스의 도구에 속한다. 이 소프트웨어는 완벽한 RTL-비트 스트림 흐름에 간단하고 사용하기 쉬운 그래픽 사용자 인터페이스(GUI) 및 명령줄 스크립팅 지원을 제공한다. 직관적 대시보드는 개발자에게 흐름(예: 합성, 배치, 라우팅, 비트 스트림 생성)을 안내한다. 여기서 각 단계를 자동 또는 수동으로 제어할 수 있다. 개발자는 Efinity의 합성 엔진을 통해 Trion FPGA에 제공되는 Quantum 아키텍처를 최대한 활용하여 PPA가 4배 향상된 장치를 생성할 수 있다.
ModelSim, NCSim 또는 무료 IVerilog 시뮬레이터를 사용하여 시뮬레이션 흐름을 지원하는 외에도 Efinity IDE는 논리를 제약하고 주변 장치의 블록에 핀을 고정하는 Interface Designer, 설계 논리 및 라우팅 배치를 검색하는 Floorplan Editor, 설계 성능을 측정하는 Timing Browser 및 정적 타이밍 분석, Logic Analyzer 및 가상 I/O 디버그 코어를 갖춘 통합 하드웨어 디버거를 제공한다.

결론

설계자는 에지에서 많은 이미지, AI 및 ML 처리를 수행하거나 클라우드 기반 접근 방식을 보완하려는 경우 비용, 성능, 전력 소비, 크기, 확장성, 유연성, 업그레이드 가능성과 같은 문제를 효율적으로 해결하기 위해 FPGA를 처리 아키텍처의 일부로 고려해야 한다.
일부 설계자의 경우 이를 위해 학습 과정을 거쳐야 할 수도 있지만, 앞서 살펴본 바와 같이 Efinix의 Quantum 기술과 같은 FPGA의 발전으로 낮은 비용, 소형 폼 팩터, 우수한 성능, 뛰어난 유연성을 통해 투자 가치를 빠르게 실현할 수 있다.
따라서 FPGA는 이제 기존 FPGA 응용 분야는 물론 모바일, IoT, 자동화, 로봇 공학, 센서 융합, 컴퓨터 비전, AI 및 ML 응용 분야를 위해 새롭게 등장하는 에지 컴퓨팅에도 적합하다.

leekh@seminet.co.kr
(끝)
<저작권자(c) 반도체네트워크, 무단 전재-재배포 금지>

X


PDF 다운로드

개인정보보호법 제15조에 의한 수집/이용 동의 규정과 관련하여 아래와 같이 PDF 다운로드를 위한 개인정보 수집 및 이용에 동의하십니까? 동의를 거부할 수 있으며, 동의 거부 시 다운로드 하실 수 없습니다.

이메일을 입력하면,
(1) 신규참여자 : 성명/전화번호/회사명/분야를 입력할 수 있는 입력란이 나타납니다.
(2) 기참여자 : 이메일 입력만으로 다운로드가 가능합니다.

×

회원 정보 수정