자일링스 개발자 포럼(XDF) 2018, “자일링스는 변화속에서 새로운 기회를 찾는다”

자일링스는 지난달 1일~2일 산호세 Fairmont 호텔에서 1천100여명 개발자가 참석한 가운데 “제1회 자일링스 개발자 포럼(XDF) 2018”을 개최했다. 발표자만도 80여명 이상이 발표했고, 전시데모도 40업체가 나서서 시연할 정도로 성대했다. 이날 키노트 연설에서 자일링스의 CEO 빅터 펭(Victor Peng)은 개발자가 애플리케이션에 빠른 혁신을 가져올 수 있도록 지원하는 업계 최초의 적응형 컴퓨팅 가속화 플랫폼(ACAP) Versal을 공식 발표했다.
자일링스의 CEO인 빅터 펭은 "AI 및 빅데이터의 폭발과 무어의 법칙의 쇠퇴로 업계는 중요한 변곡점에 도달했다. 실리콘의 설계 주기는 더 이상 혁신의 속도를 따라갈 수 없다"고 말했고, “4년에 걸친 개발 기간 끝에 발표된 Versal은 업계 최초의 ACAP이다. 자일링스는 모든 유형의 개발자들이 최적화된 하드웨어와 소프트웨어를 사용해 애플리케이션 전체를 가속화하고, 빠르게 진화하는 기술에 발 맞춰 이들 모두를 즉시 적응시키도록 독보적인 설계를 구현했다. 업계가 필요로 하는 바로 그 순간에 안성맞춤인 플랫폼이다"라고 덧붙였다.
다음 글은 빅터 펭이 발표한 키노트 전문을 옮겼다.

SR(Xilinx)-01.jpg

“
안녕하세요 여러분
저는 이 회사에 10년 반 이상 몸담아와서 여기에 계신 여러분 중에서도 아는 분도 있지만 모르시는 분이 대다수이기 때문에 기조연설을 시작하기에 앞서 제 자신에 대해서 잠시 소개를 드리도록 하겠습니다. 저의 전문적인 경험을 이야기하기 보다는 저의 일과 관련된 한 가지 열정에 대해서 말씀드리겠습니다. 그것은 마라톤입니다. 첫 번째 저는 빠른 사람이 아닙니다. 재능 차원으로 보면 저는 중간 정도 수준의 평범한 사람이고요. 둘째 제가 처음으로 마라톤을 시작한 것은 23세였습니다. 회사동료와 우연히 시작했기 때문에 전혀 준비가 되지 않은 상태로 했고 발은 너무 아팠습니다. 그래도 완주는 했고 스스로 너무 자랑스러웠습니다. 그것이 인생의 전환점이었고 그 후부터 삶의 목표를 세우고 계속 노력을 했습니다. 35년이 지난 지금 100번 정도 중장거리 마라톤을 완주했고 가장 긴 마라톤을 한 것은 10년 4일 전인 40살 때였습니다 100마일 정도를 뛰었죠. 이 경험을 말씀드리는 이유는 자랑하려는 것은 아니고 이로부터 이성적으로 합리적인 목적을 향해 나아가는 방법을 배웠기 때문입니다. 23세의 매우 작은 시작에서 출발하여 열정을 가지고 준비를 하면서 노력할 때 상당히 놀라운 결과를 얻을 수가 있습니다. 이제는 나이가 많아서 마라톤은 하지 않지만 마라톤은 저를 정신적으로 육체적으로 변화시켰습니다. 또 한 가지 교훈은 정말 무엇을 잘하고자 한다면 변화가 필요하다는 것입니다. 지속적인 변화가 있어야 하는 거죠.
정말 운이 좋게 9년 정도 능력 있는 팀원들, 파트너사, 고객사들과 함께 할 수 있었고 자일링스도 이들 덕분에 의미 있는 변화를 이루어낼 수가 있었습니다. 이제 본론으로 들어가보도록 하겠습니다. 초기에 제가 FPGA를 만들었을 때에는 프로토타입이나 아이디어는 있었지만 애플리케이션에는 브릿징이나 커넥티비티 같은 것들이 많이 필요했습니다. 그래서 고장의 가능성이 존재했습니다. 오늘날 FPGA는 엄청나게 파워풀해졌고 매우 복잡한 시스템이 되었습니다. 매우 중요한 핵심 시스템에 적용하는 고객사도 있습니다. 그러나 대다수의 고객사들은 우리의 FPGA를 생산플랜트에 배송하도록 합니다. 자동차 시장만 보더라도 5500만개 이상의 FPGA를 배송하였습니다. 전량이 생산용으로 말이죠. 그래서 FPGA가 만들어졌을 때 이미 패키지에서 상당히 설계가 진행된 상태였습니다. 오늘날의 FPGA만큼 파워풀하고 복잡했다면 이것은 FPGA 한계를 넘은 상황일 것입니다. 제가 이미 다른 회의에서 말씀드렸지만 자일링스는 FPGA 회사가 아닙니다. 우리는 플랫폼 회사로 변모했습니다. 세상이 급격히 변화하기 때문이죠.
세상에 대해서 오랫동안 이야기했었지만 이제는 연결된(Connected) 인텔리젼트 세상이 되었습니다. 여기 계신 많은 분들이 이를 현실적으로 느끼고 계십니다. 그리고 많은 변화가 진행되고 있습니다. 데이터가 폭발적으로 증가하고 있기 때문이죠. 이것이 체계적으로 데이터화 되어 빠르게 전체 조직으로 파고 들고 있습니다. 그 이유는 AI가 단순히 등장하는 것이 아니라 모든 시장과 모든 애플리케이션에 널리 적용되게 될 것이기 때문입니다. 우리는 이러한 급격한 변화 속에서 그 어느 때보다 빠르게 제품을 출시해야 하고 무어의 법칙의 둔화 등의 역풍도 맡긴 했습니다. 전세계적으로 인프라를 확장하고자 한다면 적응가능한(adaptable)한 시스템이 있어야 한다고 생각합니다. 여러분은 뛰어난 가속화된 성능과 함께 새로운 변화와 새로운 기준에 대처하기 위해서 유연성도 가져야 합니다. 또 확장성도 있어야 합니다.
자연의 변화에 적응하는 동물과 같이 디지털 세상에서 적응 가능한 시스템은 가장 강력하고 대규모로 확장할 수 있는 시스템을 말합니다. 그러한 이유 때문에 자일링스의 미션은 “Adaptable, Intelligent World”를 만드는 것입니다. 이를 위해서 지난 수년간 회사는 노력을 해왔고 앞으로도 계속 노력해야 하는 것입니다. 우리는 고객사와 파트너사를 위해서 이 비전을 실현하려는 열정으로 가득합니다. 파괴라는 도전과 트렌드에 대응해야 합니다.

SR(Xilinx)-1.jpg

제가 CEO로 취임한 후 얼마되지 않은 2월에 저는 데이터센터 우선전략, 핵심시장에서의 가속화전략, 어댑티브 컴퓨팅 전략을 내놓았습니다. 이 세 가지 전략은 모두 다 중요합니다. 이들 전략들은 생각하시는 것보다 더 상호 연관성을 가지고 있습니다. 그 때 우리는 완전히 새로운 제품 카테고리인 ACAP(Adaptive Computing Acceleration Platform)도 발표했습니다. 특히 어댑티브 컴퓨팅은 우리의 핵심전략입니다. 그리고 에베레스트라는 ACAP 프로젝트를 시작했습니다. 그리고 많은 변화가 있었습니다. 매우 혁신적인 머신러닝 회사를 인수했고 지난 7월에 공시한 분기별 수익 이후 자연스러운 발전 궤도를 밟고 있습니다. 우리가 이들 전략에서 상당한 진전을 이루어냈음을 알 수가 있습니다.
우리는 혁신을 통해서 디바이스에서 플랫폼으로 변화를 이루어냈습니다. 이것은 같은 것을 계속해서 반복하는 것이 아니라 계속해서 새로운 제품 카테고리를 만들어냄으로써 가능한 것이었습니다. 처음 한 것이 징크 제품을 통합한 멀티코어 Arm’s SoC의 FPGA를 만들어낸 것이었습니다. 오늘날에는 훨씬 발전하여 우리 고객들은 다양한 제품 포트폴리오에 걸쳐서 새로운 애플리케이션을 만들어내고 있습니다. 킨텍스, Virtex UltraScale+ 제품 등이 그 예이죠. MPSoC라는 제2세대 징크 제품도 만들어졌고 MPSoC를 기반으로 한 RFSoC라는 매우 고급 ACAP가 탑재된 5G네트워크나 동축케이블 등에 적용 가능한 제품도 있습니다. 이미 고객들은 우리의 어댑티브 시스템을 기반으로 매우 파워풀한 시스템, 예를 들어 5G 기지국, 스마트시티, 스마트팩토리, 스마트카, 그 외의 커뮤니케이션 인프라를 만들고 있습니다. 실리콘이 그 토대입니다. 플랫폼은 하드웨어일 뿐만 아니라 소프트웨어이기도 합니다. 그래서 우리는 더 광범위한 소프트웨어 개발 툴을 제공하고자 하며 하드웨어 개발자들이 사용하는 전통적인 하드웨어 개발 툴이 아니라 거기에 고급 디자인 툴도 같이 제공하고 있습니다. 이제 여기에서 한 발자국 더 나아가서 최적화된 라이브러리, 미들웨어를 제공하고 있고 업계표준 프레임워크와 인터페이스를 제공하고 있습니다. 이렇게 완벽한 플랫폼을 이용하여 개발자들이 혁신적인 제품과 애플리케이션을 개발하고 있습니다. 점점 더 무어의 법칙의 둔화와 엄청난 성능이 필요하기 때문에 개발자들도 어느 정도의 가속화가 가능한 플랫폼을 필요로 하게 되었습니다. 그리고 AI의 등장으로 뉴럴 네트워크나 여러 뉴럴 네트워크를 점점 더 애플리케이션의 일환으로 집적하는 트렌드가 나타나고 있습니다. 그래서 매우 높은 성능과 데이터 지연은 매우 낮아야 하는 아주 복잡한 문제를 해결해야 합니다. 여기에서 모든 이들이 완전히 이해하지 못하는 중요한 제품과 프로그램에 대한 부가가치에 대해서 말씀드리고 싶습니다. 우리의 FPGA에 포함된 것입니다.

SR(Xilinx)-2.jpg

개발자들이 대상 애플리케이션에서 뛰어나야 하는 것이 이것입니다. 오늘날 머신러닝에만 집중하는 스타트업 등 많은 회사들이 존재하고 이들은 머신러닝에서 우수하다고 선전하고 있지만 이는 전체 애플리케이션의 일부에 불과합니다. 동작 시간 전체를 네트워크에서 실행하는데 사용하는 애플리케이션은 거의 없기 때문입니다. 여기서 저는 영향을 말하는 것입니다. CPU 상에서 가볍게 실행할 경우 원하는 성능을 얻을 수가 없습니다. 만약에 병렬처리 애플리케이션을 머신러닝에 적용할 경우에 애플리케이션의 성능이 떨어지게 됩니다. 그런데 우리 제품은 어댑터블하고 유연성이 높기 때문에 최적 수준의 머신러닝을 얻을 수가 있습니다. 그리고 여러 다른 네트워크 ASIC 머신러닝 부분에서도 우수합니다. 고객도 이를 경험하고 있고요. 이것이 전체 처리량과 TCL 가속화된 데이터센터를 결정하기도 합니다. ASIC도 대상 애플리케이션을 가속화할 수 있지 않느냐라고 말할 수 있고 사실 맞는 말이긴 하지만 ASIC라는 것은 그 정의를 살펴보면 매우 작은, 정해진 일부 애플리케이션만 가속화합니다. 그것이 우리와의 차이점입니다. 우리의 플랫폼은 아키텍처 레벨에서 변경할 수가 있습니다. 도메인 특화된 구조이기 때문이죠. 이는 무어의 법칙이나 아키텍처를 이용하지 않고 도메인에 해당되는 문제를 한정해서 이에 맞는 아키텍처를 제공하기에 그렇습니다. 우리의 플랫폼은 동일한 물리적인 시설 위에 여러 DSA(domain specific Architecture)를 여러 개 적용하는 것이 가능합니다.
그 가치를 제대로 이해하지 못하고 있지만 또 다른 부가가치를 제공하는 사항은 우리의 유연성과 어댑터빌리티 때문에 우리의 실리콘 개발 사이클에 의존했을 때보다 훨씬 더 빠르게 혁신이 가능해진다는 점입니다. AI의 예를 들어볼 수가 있을 것 같은데요. 여러분 모두는 초기에 AI가 언급되고 기하급수적으로 발전하여 이것이 연구 논문 수준에 도달하는 기간과 연구논문에서 제품화되는 시간이 매우 짧아지고 있다는 것은 여러분도 알고 계실 겁니다. 그 이유는 천편일률적인 모델을 만들다가 이제는 최적화된 모델을 개발하고 적용하고 확장하기 때문입니다. 최소 18-24개월이 걸리는 설계기간과 비교해보면 이것이 얼마나 복잡한 전면적인 구조의 변화인지를 짐작하실 수가 있을 것입니다. 우리의 플랫폼을 사용하면 반복이 가능하고 기존의 방식을 사용하는 것보다 출시속도도 높일 수가 있습니다. 그러나 실리콘 디자인 사이클을 사용할 경우에는 그렇게 할 수 없고 최악의 경우에는 시장사이클을 완전히 놓칠 수도 있습니다. 구체적인 예를 들어보도록 하겠습니다. 머신러닝의 경우 DSA가 아키텍처인데요. 우리는 xDNN이라는 기술을 보유하고 있습니다. 이 기술은 DSA의 전반적인 아키텍처를 가속화합니다. 그리고 DNN도 가속화합니다. 그래서 우리 고객들이 가속화할 필요가 없는 거죠. 6개월 전에 우리는 버전2를 출시했고 곧 버전3을 출시할 예정입니다. 16nm FPGA 플랫폼에 xDNN 버전3의 성능을 1.7배 높였습니다. 동시에 레이턴시를 1/3, 즉 67%로 낮추고 성능은 거의 두 배 정도로 올렸습니다.

SR(Xilinx)-3.jpg

지금까지 저는 어떻게 전체 애플리케이션을 가속화할 수 있는 지와 최적화, 반복 가능, 출시속도 향상 등에 대해서 말씀드렸습니다. 개념적으로만 설명했는데요. 이제 고객들이 어떻게 하고 있는지를 직접 이야기해주실 겁니다. 제 뒤의 연사가 고객들의 AI가 탑재된 애플리케이션 가속화 사례를 더 자세하게 말씀해 주실 예정입니다만 첫 번째 이야기해주실 고객은 AI를 탑재하진 않았지만 머신러닝이 포함되지 않은 애플리케이션을 포함한 모든 애플리케이션을 가속화하는 사례를 공유해주실 예정입니다. 4년 전에 아마존이 Twitch라는 회사를 인수하였습니다. 아실지 모르겠지만 Twitch는 온라인 게이밍 네트워크입니다. 매우 큰 시장이죠. 청소년들은 아마도 다 아는 회사입니다. E-sports 시청자수가 2022년에 3억명에 이를 것이라고 합니다. 미식축구 시청자수와 맞먹는 규모죠. 매우 빠른 속도로 성장하고 있는 시장입니다. Twitch는 고객의 시청 경험(매우 높은 해상도 유지)은 훼손하지 않고 운영비를 낮춰야 하는 과제에 직면해 있었습니다. 그리고 동시에 시청자수의 급증에 따른 시스템 확장도 필요했습니다. 그러면 어떻게 이 문제를 해결했는지 고객사를 모셔서 듣도록 하겠습니다.

SR(Xilinx)-02.jpg

Twitch     Twitch는 게임을 사랑하고 신 기술을 사랑합니다. 우리는 방송업계에 두 가지 기여를 했다고 생각합니다. 먼저 방송의 진입장벽을 상당히 낮췄습니다. 이제 컴퓨터와 홈 인터넷만 있으면 방송을 할 수 있게 되었습니다. 특별한 기술이 없어도 방송을 할 수 있는 새로운 패러다임을 열었다고 봅니다. 그리고 우리의 기술이 방송과 시청자를 연결하는 다리 역할을 합니다. 고객들이 게임에 대한 채팅으로 평을 하고 방송하는 사람은 이에 대답을 해주어야 하기 때문입니다.
Peng    시청자수가 급증하는데 실시간 방송의 니즈를 어떻게 충족하는 지와 어떤 어려움을 경험하고 있는지 말씀해주세요.
Twitch     우리가 고객에게 몰입도 높은 경험을 제공합니다. 그러기 위해선 매우 높은 속도와 해상도가 요구되죠. 데이터도 많이 필요합니다. 실시간 인코딩(1080 at 60FPS)이 필요하기 때문에 수요를 맞추기 위해서 전세계에 데이터센터를 구축하고 있습니다. 우리 서비스 규모를 설명하자면 지난 봄의 최고의 트래픽이 300만 동시 시청이었습니다.
Peng    18TB/s이라니 놀랍네요. 어떻게 이렇게 높은 수요에 대처하고 있는지 말씀해주세요.
Twitch     18TB/s라면 엄청난 거죠. 그리고 고객에게 전송할 때마다 모든 바이트의 비용을 부담하기 때문에 매우 비싸기도 합니다. 18TB/s은 지난 여름 러시아월드컵 라이브 스트리밍의 최고 트래픽에 상응하는 규모입니다. 그래서 업계에서 기존에 없었던 새로운 시도를 해야만 했습니다. 방송 품질은 유지하면서 바이트 전송을 최소 30% 줄어야 했죠. 실시간 라이브 스트리밍을 하려면 초당 60 프레임이 가능해야 합니다.
Peng    그 말은 존재하지 않는 차세대 CODEC이 필요하다는 거죠? 어떻게 VP9에 도달하게 됐는지 그 과정을 설명해주시죠.
Twitch     좋은 질문입니다. TV와는 달리 우리의 콘텐츠는 다양한 클라이언트 플랫폼을 사용합니다. 예를 들어서 여러 브라우저, 크롬, Firefox, 많은 디바이스 등을 사용합니다. VP9은 가장 널리 지원되는 차세대 비디오 포맷입니다. 이는 바이트 절감목표는 맞추면서 우리가 생산할 수 있는 유일한 비디오압축기술이기도 합니다. 한편 VP9은 트래픽을 절약할 수도 있지만 많은 연산능력(Computation power)을 필요로 하기 때문에 우리는 CPU와 하드웨어 액셀레이터를 찾게 되었습니다. 물론 CPU가 가장 쉬운 해결방법이겠죠. 그렇지만 우리의 목표는 초당 60 프레임이었습니다. 연산차원에서 볼 때 하이엔드 CPU일지라도 초당 4 프레임 밖에 가능하지 않습니다. 60과는 거리가 먼 것이죠. 그리고 ASIC이나 GPU 솔루션도 아니었습니다. FPGA 덕분에 거의 초당 120 프레임의 제품을 만들 수가 있었습니다.
Peng    고성능 CPU를 할 때보다도 훨씬 성능이 높다는 거죠? 놀랍습니다. Twitch 커뮤니티의 다음 과제는 무엇입니까?
Twitch     FPGA를 더 빠르게 혁신할 수 있게 되었기 때문에 Twitch는 업계 최초로 VP9 라이브 스트리밍을 방송 품질수준으로 적용하였습니다. 매우 만족스러운 결과라서 기술업계의 여러분과 공유하고 싶습니다. 스트리밍 업계 전체가 VP9, FPGA 서비스를 도입하시길 강력하게 권하고 싶습니다.
Peng    제가 전략을 언급할 때 완전히 새로운 제품 카테고리가 등장했다고 말했었습니다. 여기서 FPGA는 ACAP이 아니라는 점을 분명히 하고 싶습니다. ACAP는 Adaptive Computing Accelerating Platform의 줄임말입니다. 이는 다음 단계로의 도약이며 지능적이고 어댑티브하게 하는 전세계 시스템과 제품을 가능케 하는 플랫폼입니다. AI를 기반으로 한 매우 확장성이 있고 매우 통합성이 높은 차원이 다른 컴퓨팅 플랫폼이며, 하드웨어와 소프트웨어 모두 프로그래머블합니다. 그리고 하드웨어에 지식이 없이도 쉽게 프르그래밍이 가능합니다. 우리는 하드웨어를 즉시 고객맞춤화 할 수 있는 역량을 활용하기도 했습니다. 이제 제품 카테고리 별로 애플리케이션을 살펴보고 우리의 에베레스트라고 부르는 프로젝트의 현황을 말씀드리겠습니다.
ACAP은 어댑티브 플랫폼의 진정한 부가가치를 높이는 것으로써 비디오를 포함하여 다양한 애플리케이션을 가속화할 수 있습니다. 그리고 머신러닝도 가속화할 수가 있습니다. 다양한 네트워크의 애플리케이션도 가속화할 수가 있습니다. 여기서 핵심은 고객이나 개발자들이 짧은 시간 안에 가상의 도메인에 해당되는 아키텍처를 실리콘에 적용할 수 있다는 점입니다. 시제품 뿐만 아니라 완전 구동 중에도 가능합니다.

SR(Xilinx)-4.jpg

컴퓨팅 액셀러레이션의 두 번째 부분은 무어의 법칙과 마찬가지로 일반적인 상태에서 병렬 실행능력을 갖기 위해서는 다양한 실행 엔진이 있어야 한다는 점입니다. ACAP은 SoC를 가지고 있고 멀티 코어 SoC를 갖는 경우도 있습니다. 매우 진보된 프로그래머블 DSP 엔진도 프로그래머블 패브릭에 통합되어 있으며 가장 독창적인 액셀러레이터에 사용되고 있습니다. 마지막으로 멀티코어 아키텍처를 집적할 수가 있습니다. ACAP이 멀티코어 아키텍처에 적용되면 하드웨어를 자세히 모르더라도 프로그래밍을 할 수 있다는 장점이 있습니다. 끝으로 플랫폼입니다. 플랫폼이 없으면 솔루션을 내놓을 수도 없고 ACAP를 적용할 수도 없으며 경제성 있게 확장하는 것도 불가능합니다. 플랫폼은 매우 강력한 하드웨어와 이기종 컴퓨팅 환경이 들어있고 자가 개발된 계층도 들어있습니다. 따라서 ACAP는 소프트웨어 백그라운드에 상관없이 모든 개발자를 지원할 수가 있고 최적화된 라이브러리, 미들웨어, 에코시스템, 표준 프레임워크 인터페이스를 전부 지원합니다.
확장성과 적응성, 높은 성능, 낮은 레이턴시 덕분에 머신러닝을 포함한 여러 시장의 다양한 애플리케이션에서 ACAP을 널리 사용됨을 볼 수가 있습니다. 데이터센터뿐만 아니라 모든 각각의 애플리케이션에도 적용되며 진정하게 엔드-투-엔드에 적용할 수가 있습니다.
이제 Versal ACAP을 소개하도록 하겠습니다. 업계 최초의 ACAP입니다. Versal이라는 이름은 Versatility(다기능성)와 Universality(보편성)에서 따온 것입니다. 우리는 모든 하드웨어와 소프트웨어 개발자가 사용할 수 있도록 이 플랫폼을 개발하였습니다. 연결된 인텔리젼트한 세상으로 나아갈 때에 폭발적인 변화와 혁신을 모두 활용할 수 있도록 한 것입니다. 클라우드에 있든, 최종단에 있든 상관없이 차별화할 수 있는 포인트가 됩니다. 고객맞춤화된 디바이스를 갖지 않고도 사실상 고객마춤 설계의 효과를 얻을 수가 있습니다. 하드웨어 설계 경험이 없고 시간도 없는 소프트웨어 개발자는 이 강력한 플랫폼을 사용하면 됩니다. 고객과 개발자들은 작업량을 충족하면서 엄청난 확장성을 누릴 수가 있습니다. Versal ACAP 제품군이 매우 확장성이 좋기 때문에 가능한 것입니다. 여러 시장을 겨냥하기 위해서 우리는 확장성은 높이고 가격은 낮춘 시리즈라고 불리는 하부제품도 만들었습니다. 계획 중인 6개 시리즈 중에 가장 먼저 출시할 시리즈는 “AI 코어 시리즈”와 “프라임 시리즈”입니다. 먼저 이것들에 대해서 설명 드리고 나머지는 후에 말씀드리겠습니다. 그 외에도 마지막에서 엣지, 클라우드, 여러 시장에 확장 적용될 수 있는 한 개의 제품 패밀리가 있어야 합니다.
프라임 시리즈는 매우 우수한 미드레인지 제품으로써 연결성이 많은 곳에 특히 유용하게 사용될 수가 있습니다. 이를 “인-라인 액셀러레이션”이라고 저는 부릅니다. 다양한 패밀리의 핵심 기본이 되기 때문에 안성맞춤입니다.

SR(Xilinx)-5.jpg

AI 코어 시리즈는 매우 우수한 AI 성능을 제공합니다. 제가 ACAP이 제품 카테고리로써 하드웨어와 소프트웨어 프로그래밍 엔진이 있다고 말씀드렸던 것 기억하시죠? 그래서 Versal은 처음으로 새로운 아키텍처인 AI 엔진이라는 것을 도입했습니다. 이는 소프트웨어와 하드웨어 프로그래밍이 가능한 프로세서에 적용 가능한 제품으로써 머신러닝이 가능하게 해서 공장의 성능을 높여주고 레이턴시는 낮춰줍니다.
먼저 제품 패밀리와 제품 카테고리의 핵심은 “유니버셜 시리즈”의 모든 시리즈에 소프트웨어를 기반으로 한 중앙 통제 기능이 있어서 모든 컨피규레이션과 모든 핵심 기능을 통제 가능하다는 점입니다. 보안이나 전략적 관리 등이 이를 통해서 가능합니다. 둘째로 분산된 DSP 엔진과 하드웨어 프로그래머블 로직 기반의 차세대 매우 적응성이 높은 하드웨어와 상호연결된 하드웨어가 있기 때문에 고객마춤화된 가속기 커널과 데이터 전송 엔진 등을 만들 수가 있습니다. 그리고 멀티코어 ARM SoC가 있습니다. Versal ARM SoC에는 듀얼 Arm A72나 실시간 프로세싱, 다중 레벨 캐시, 다중 메모리가 있고 보안기능과 안전기능이 내장되어 있습니다. 그렇기 때문에 매우 강력한 SoC입니다.
SoC와 AI 엔진이 있을 때 이를 결합하는 어댑터블 하드웨어 엔진은 우리의 독점적인 기술이며 업계 최초로 칩 위에 네트워크를 구현한 것입니다. 이는 높은 성능과 여러 엔진에 어댑터블 하기 위한 것입니다.
이제 나머지 프라임과 코어 시리즈에 이어서 나머지 네 개 시리즈에 대해서 이야기하고자 합니다. Versal AI 엣지 시리즈는 엣지나 엔드 포인트 애플리케이션입니다. 이 애플리케이션은 팩토리, 자동차, 로봇 등에 적용될 수가 있는데 이들은 독자적으로 작동이 필요합니다. 매우 엄격한 열 조건을 맞춰야 하고 운영방식 때문에 약간의 레이턴시는 허용되지만 높은 성능이 필요한 것들입니다. 당연히 보안과 안전 기능이 내장되어 있어야 합니다. 그리고 많은 양의 센서를 이용하고 프로세스화 할 수가 있습니다. 머신러닝 등도 접목할 수가 있죠.
그 외에도 프리미엄 시리즈와 HBM이 있습니다. 이 시리즈는 가장 어려운 하이-엔드 대역폭과 프로세싱 성능을 필요로 합니다. 메모리나 HBM 레벨, 아니면 단순한 광소자 레벨에서 많은 테라바이트의 대역폭이 필요한 경우를 말합니다. 무선통신이나 데이터센터, 고성능 통신기기, 첨단우주산업, 국방산업, 특수 테스팅, 시제품 등에 적용될 수가 있습니다. 개발자들은 현재 가장 앞선 FPGA에 비해서 8배 많은 양의 프로그래밍이 가능하지만 고정된 하드웨어 인프라를 활용할 수가 있습니다. 그리고 머신러닝을 계속해서 적용할 것입니다.
마지막으로 AI RF 시리즈입니다. 우리가 말했던 모든 AI 엔진, SoC 등의 역량뿐만 아니라 ADC/ DAC이 통합되어 패키지화되어 제공됩니다. 이 시리즈는 5G 무선 인프라, 대량 용량의 무선 통신 전체에 적용됩니다. 고객들은 단일 플랫폼 상에 DPD 등의 라디오 프로세싱을 할 수 있을 뿐만 아니라 머신러닝도 통합할 수도 있습니다.
제품 카테고리로써 모든 형태의 ACAP을 지원하며 하드웨어 디자인 경험이 없는 소프트웨어 개발자들도 사용할 수가 있습니다. 우리는 전체 소프트웨어 스택을 제공하고 있으며 소프트웨어 개발자들이 이와 같은 매우 강력한 엔진들을 활용할 수도 있습니다. 온 칩의 많은 다른 인프라스트럭처들이 내장되어 있기 때문에 빌드-업 아키텍처에 비해서 개발시간이 개선되고 플렉서블 아키텍처를 더 사용할 수 있게 됩니다. 그리고 세 가지 확실한 타겟이 있습니다. SoC를 목표로 할 수 있고 어댑터블 하드웨어를 목표로 할 수도 있으며 AI 엔진을 목표로 할 수도 있습니다. 이 모든 것을 통합된 IDE에서 할 수가 있습니다. 이를 통해서 프로파일링을 할 수 있고 어떤 워크로드를 어디에 두는 것이 최선인지를 판단할 수가 있습니다. 이를 업계 표준과도 통합할 수가 있습니다. 그리고 C++와 같은 다양한 프로그래밍 언어도 지원합니다. 제가 학교를 다닐 때는 C++가 최첨단의 언어였지만 이제는 구식이 되었고 요즘은 Python 같은 제가 익숙하지 않은 언어를 사용하고 있습니다. 그리고 데이터 과학자도 될 수가 있습니다. 업계표준 프레임워크와 인터페이스할 수 있기 때문입니다. 데이터 과학자가 Versal 플랫폼을 목표로 하도록 할 수도 있습니다.
제가 얼마나 광범위한 시장에서 통할 수 있는지를 말씀드렸죠. 커뮤니케이션 시장을 지원할 수 있다고 설명 드렸습니다. 이제 AI와 커뮤니케이션의 혁신적인 인물을 무대로 모시도록 하겠습니다. 5G를 구현하는데 있어서의 경험과 겪었던 어려움을 여러분께 이야기 드리고 Versal의 어떠한 중요한 역할을 했는지를 말해주실 겁니다. Nokia의 Terry를 모시도록 하겠습니다.

SR(Xilinx)-03.jpg

Nokia    저는 Nokia Mobile Networks에서 왔습니다. 저희는 통신네트워크 업체입니다. 통신네트워크 하드웨어, 소프트웨어, 안테나, 클라우드까지 다양한 서비스를 제공합니다. 현재 우리는 5G를 적용 중에 있습니다. 하지만 동시에 이전 세대 통신들을 지원할 수 있어야 합니다. 새로운 세대 통신이 앞으로 등장하겠죠. 하지만 이러한 복잡한 변화를 계속해서 잘 대처해 나가야 합니다. 그리고 계속해서 복잡해지는 상황에서 머신러닝은 우리에게 선택사항이 아니라 널리 적용해야 할 필수사항이 되었습니다. 머신러닝이라는 목표를 세우고 이것의 장점을 최대로 활용하자는 계획을 세웠습니다. 그래서 우리의 미션은 전세계 네트워크를 최적화하는 것입니다. 머신러닝을 통해서 사람, 기계의 움직임 패턴, 국가지형, 건물, 심지어 인프라까지 모든 환경을 시스템이 인지해야 합니다. 회사 입장에서는 효율성은 높고 레이턴시는 낮은 네트워크, 보안성, 유지보수 기능이 갖춰진 네트워크가 필요했습니다.
Peng    매우 복잡한 문제 같은데요. 매우 높은 연산력과 성능이 요구되지만 레이턴시는 아주 낮아야 하는 상황이지 않습니까? 어떠한 어려운 점이 있고 어떻게 해결하려는지 방법을 설명해주시길 바랍니다.
Nokia    성능을 더 높이기 위해서는 모든 네트워크 구성요소들마다 최적화된 환경에서 전용네트워크를 가지고 있어야 합니다. 교육을 별도로 실시해야 할 뿐 아니라 네트워크 아키텍처가 개별적으로 작동할 수 있어야 하죠. 그리고 동일한 하드웨어 상에서 여러 모듈을 동시에 가동해야 합니다. 낮은 레이턴시가 되어야 한다는 것은 브라켓이 필요하다는 건데 이를 위한 알맞은 솔루션은 없었습니다. 소프트웨어 개발, 플랫폼, 복잡한 알고리듬 등 많은 부담이 있었습니다. 아시다시피 Nokia는 Xilinx와 수년간 이 작업을 같이 진행해왔고 앞으로 이 플랫폼이 널리 적용되는 모습을 보고 싶습니다.
Peng    엄청난 문제에 직면해 있는데 존재하는 솔루션이 없다고 말씀하셨죠? 그렇지만 Nokia가 혁신을 할 수 있도록 우리는 도움을 드리고 싶습니다. 혁신적인 전문성을 활용하는데 필요한 세부적인 아키텍처를 말씀해주시죠.
Nokia    요즘 테라옵스이 너무 강조되고 있는 것 같은데요. 물론 요소마다 수십개의 테라옵스의 연산력이 필요하긴 합니다. 그렇지만 이는 해결방안의 일부에 불과합니다. 효율성도 높아야 하기 때문에 이기종 실행 플랫폼이 있어야 합니다. 바이너리 네트워크도 좋지만 모든 문제를 해결하지 못하기 때문에 바이너리에서 4바이트, 16바이트 등으로 실행속도를 높여야 합니다. 오늘 발표하신 내용을 보면 우리가 요구하는 연산력을 가지고 있고 AI 엔진이 있어서 AI 연산이 가능할 것으로 보입니다. 그렇지만 우리에게 더 중요한 점은 실행과 메모리 소자간의 고속의 연결성입니다. 우리의 사용사례를 보면 테라옵스가 되었을 때 메모리가 병목현상이 되는 것을 알 수가 있습니다. 자일링스가 제공하는 맞춤형 메모리 아키텍처의 성능이나 효율성이 핵심이라고 생각합니다. 우리 시스템이 낮은 레이턴시와 높은 효율성을 달성하려면 아직 할 일이 많다고 생각합니다.
Peng    우리가 테라옵스에만 너무 집중한 것이 함정이었던 것 같네요. 데이터 이동이나 알고리즘으로 달성할 수 있는 효율성은 간과한 것 같습니다. 우리의 아키텍처에 접목한 여러 기능에 관심을 갖고 있다니 기쁩니다.

SR(Xilinx)-04.jpg

마지막으로 여러분께 데이터센터 전략을 말씀드리겠습니다. 저희가 5월에 있었던 컨퍼런스에서 이야기 드렸던 내용인데요. 데이터센터 전략이 단순한 이유는 일반적으로 우리가 개발 스택용으로 실리콘을 공급하기 때문입니다. 우리가 제공하는 다양한 시스템은 완전생산을 할 정도의 수준으로 제공되지만 데이터센터는 그렇지 않습니다. 데이터센터는 매우 표준화된 인터페이스와 프로세스가 있기 때문이죠. 칩을 가지고 개발자가 개발하는 것이 아니라 개발자에게 직접 보드를 공급하기 때문에 우리는 데이터센터 애플리케이션을 개발하려는 사람들에게 더 높은 가치를 제공할 수가 있습니다. 사내에 보드 전문성이 없어도 직접 프로세싱이 가능하고 R&D를 다른 목적으로 활용할 수 있기 때문에 고객에게도 도움이 됩니다. 말씀드렸던 보드를 소개 드리겠습니다. 첫 번째 소개드릴 보드는 컴퓨팅 가속을 위한 것으로써 스토리지 네트워킹과 데이터센터 부문에서 언급한 내용입니다. 이 보드는 컴퓨팅 가속을 위한 것이기 때문에 PCIe와도 관련되어 있고 다른 가속기의 표준기능 등과도 연관되어 있습니다. 그러나 다른 가속기와는 차이점이 있습니다. 어댑터빌리티가 있어서 고객의 실리콘에 맞게 매우 광범위한 용도로 적용이 가능하며 머신러닝 등도 포함된 통합 머신러닝에도 적용할 수가 있습니다. 다양한 데이터센터 아키텍처에도 사용 가능합니다. 데이터센터의 아키텍처도 붕괴된 상황이기 때문에 표준화된 전용 장소에서 적용할 수가 있습니다. 매우 적용가능한 가속기 카드는 더 강력한 모델입니다. 물리적인 가속기 카드는 풀로부터 데이터센터의 액티브 워크로드에 얼마 정도 리소스를 배분할 것인지 결정할 수가 있습니다. DSA가 해당 카드를 탐지할 수 있도록 해야 합니다. 이 경우에 워크로드에 대해서 데이터센터의 최대의 쓰루풋이 가능하게 되고 시간이 흘러서 워크로드가 변하면 워크로드 밸런싱도 합니다. TCL은 줄이면서 최대의 쓰루풋을 달성할 수가 있습니다. 지금까지 개념적으로 내용을 설명 드렸는데요.
이제 실질사례를 보여드리기 위해서 이걸 보여드리겠습니다.

SR(Xilinx)-05.jpg

주머니에 넣고 싶지만 크기 때문에 안 되겠네요. 이것은 ALVEO입니다. 매우 표준적이고 완벽한 제품으로 현재 16nm Ultrascale+ Virtex에 기반한 것입니다. 이 제품에는 세 가지 장점이 있습니다. 첫 번째 매우 빠르고요. 심지어 서버 기반의 CPU보다도 빠릅니다. Twitch가 16nm 아마존 클라우드를 기반으로 했을 때 10-30배 빨라졌다는 것이 이것입니다. 두 번째로 어댑터블합니다. 개발에 대해선 걱정할 필요가 없습니다. 애플리케이션이나 머신러닝을 위해서 이 제품을 사용할 수도 있습니다. 여러 네트워크에도 사용 가능하며 변경도 가능합니다. 그리고 셋째 액써서블 한 플랫폼이라는 점입니다. 쉘을 적용하고 보드를 디자인했으며 열관리 소자와 S/W 등 모든 것을 넣었습니다. 추가적인 노력이 필요 없는 것이죠. 클라우드, on-prem 모두 구현 가능합니다. 더 쉽게 할 수 있도록 에코 시스템 작업도 진행 중입니다. 정리해보면 최고의 가속기며 매우 액써서블 한 추가적인 작업이 필요 없는 플랫폼이라고 할 수가 있습니다. 이번 달 말부터 출시할 예정입니다. ALVEO 개발 부스와 에코 시스템 부스에서 데모를 보실 수가 있습니다. ALVEO의 중요한 특징 중 하나는 에코시스템도 같이 존재할 것이라는 점입니다. 데이터베이스, 데이터 분석 가속, 영상처리, 금융서비스, 머신러닝 등 다양한 애플리케이션 등이 지원될 것입니다. ALVEO 에코시스템 부스에 14개 파트너가 있고 오후에 전시될 예정입니다. 이들 생태계 파트너사들뿐 아니라 Dell, HP, IBM 등 최고 OEM사와도 협업 중입니다. 이들 OEM사들의 고객과도 관계를 형성하고 있습니다.
우리는 소수의 실리콘 회사들과도 협업관계를 맺고 있습니다. 그 중 수년간 관계를 맺어왔고 중요한 파트너가 AMD입니다. 이 회사는 서버급 클라이언트 CPU, 다양한 GPU를 제공하는 유일한 곳입니다. C-CEX(CPU 표준, FPGA, GPU, 미래 ACAP를 가능케 하는 것) 등의 표준도 같이 하고 있습니다. 우리 팀은 이 회사의 DFx 서버와 같은 최신 제품의 힘을 데이터센터에 활용하고자 합니다. 데이터센터의 방향성에 대해서 자일링스와 AMD가 공통의 비전을 가지고 있는데요. 이 내용 외에도 양사의 협업성과를 설명 드리기 위해서 AMD의 CTO를 모시도록 하겠습니다.

SR(Xilinx)-06.jpg

Peng    데이터센터의 향후 방향성에 대해서 양사가 많은 면에서 동일한 생각을 가지고 있다고 말했습니다. C-CEX 등도 언급했습니다. 데이터센터, 컴퓨팅의 앞으로 발전방향과 C-CEX와 관련된 양사의 협업 내용을 말씀해주시죠.
AMD    우리는 컴퓨팅의 미래 방향에 대해서 수년 간 논의해왔습니다. 컴퓨팅에 대한 수요가 기하급수적으로 증가하고 있습니다. 무어의 법칙이 둔화되고 있고 한 세대(30년)마다 반도체 노드도 생각보다 증가하지 않고 있으며 주파수도 기존만큼 높아지지 않고 있지만 비용은 올라가고 있습니다. 그렇지만 워크로드는 전혀 줄어들지 않고 있습니다. 그래서 여러 종류의 컴퓨터 사용이 필요한 상황인데요. 그렇기 때문에 이기종 플랫폼이 필요합니다. 그래서 업계에서 C-CEX와 관련된 협업이 생긴 것입니다. 더 높은 성능을 위해서 더 연결된 디바이스를 만들려는 목적을 가지고 있습니다.
Peng    시스템 성능이 중요한 거네요.
AMD    그렇습니다.
Peng    고객의 니즈를 더 잘 만족할 수 있도록 에코시스템도 더 필요합니다. EPYC의 우수한 기능에 대해서 설명해주시고 저희 ALVEO 제품이 어떻게 도움이 되는지 말씀해주세요.
AMD    저희가 EPYC을 만든 이유는 성능을 높이는 것뿐만 아니라 고성능을 위한 플랫폼을 만드는 것입니다. 워크로드를 스케일링할 수 있고 CPU를 자체 컨트롤하는 것이 필요합니다. 새로 발생하는 워크로드가 단순히 CPU에만 국한된 것이 아니라 시스템에도 해당되기 때문입니다. 그래서 저희는 EPYC의 컨피규레이션에 들어갈 수 있는 128개의 PCI 채널을 설계함과 동시에 소켓마다 8개 메모리 채널을 설계했습니다. 그래서 효율적으로 이 컴퓨팅 인프라를 넣을 수가 있었습니다. 자일링스 ALVEO를 적용하여 글루와 연결되도록 디자인했습니다. 그 결과 칩셋을 중간에 넣지 않고 자일링스와 여타 가속기를 직접 연결할 수가 있습니다. 이렇게 새롭게 생기는 워크로드에 대해서 쉬운 가속기를 만들겠다는 비전을 양사가 같이 공유하고 있었고요. 애플리케이션과 드라이버를 튜닝해서 성능을 최적화가 가능하게 해주신 것에 대해서 자일링스에게 감사드립니다. 자일링스와 우리 제품이 아주 무리 없이 같이 잘 작동하고 있습니다.
Peng    아키텍처를 직접 보고 싶네요. 높은 프로세싱 용량 등 우리가 강조했던 장점이 다 반영되어 있는 것 같아서요. 데이터센터는 처리량을 극대화하고 연산의 밀도를 높여서 경제성을 달성하려고 합니다. 말씀하신 모든 PCI 채널과 큰 메모리 대역폭 덕분에 우리의 강력한 적용가능한 ALVEO 가속기를 넣을 수가 있습니다. 저희 팀이 같이 한 작업을 보도록 하겠습니다.
이것은 머신러닝 추론에 집중한 사례입니다. 여기에 EPYC 서버 클래스 제품 폼팩터, 8개의 ALVEO 가속기 카드, U250 카드 등이 있고 처리량은 초당 30,000장 이미지입니다. 레이턴시는 거의 없습니다. 엄청난 밀도의 컴퓨팅이 가능하며, 머신러닝 중심이지만 다른 가속기마다 워크로드 처리도 가능합니다. PCI 채널과 컴퓨팅 밀도, 가속도 덕분입니다. 이 기계를 에코시스템 부스에서 보실 수가 있습니다. 이와 같은 협업이 앞으로도 더 있었으면 합니다.
AMD    세계 최고 수준의 추론 성능을 달성하신 것을 축하드립니다. 저희 회사는 CPU에서 선두적인 성능을 달성하고자 하는 로드맵을 가지고 있으며 가속기의 생태계를 확장하고 싶습니다. 앞으로도 좋은 양 사 관계를 유지하길 희망합니다.

SR(Xilinx)-07.jpg

제가 변화와 변화의 여정으로 제 발표를 시작했었습니다. 세상도 변모하고 있기 때문에 우리는 매우 흥미로운 시대에 살고 있다고 생각합니다. 스마트홈, 스마트팩토리, 스마트오피스 등 수십 년 동안 상상했던 것들이 현실화되고 있고 자동차도 인텔리젼트 해지고 있습니다. 업계도 파괴적인 변화를 겪고 있고 모든 사람들이 엄청난 속도로 변화해야만 합니다. 이러한 변화 속에서 자일링스와 우리의 고객, 파트너사는 엄청난 기회를 찾을 수가 있습니다. 우리는 변화하고자 합니다. 우리는 플랫폼 회사가 되었고 이제는 700 Versal ACAP라는 최초의 ACAP 도입으로 업계에서 최상의 어댑터블 플랫폼 시대를 열 것입니다. ALVEO도 근시일 내에 보게 될 것입니다. 업계 최강의 16nm FPGA를 이번 달에 출하할 계획입니다. 우리의 플랫폼 상에서 우수한 연산력을 지닌 업계 최고의 머신러닝 추론이 가능하며 이에 대한 데모도 여기에서 보실 수가 있습니다. 올해 XDF에 참여해주신 여러분께 감사드립니다. 자일링스의 플랫폼에 대해서 더 이해하고 자사의 현재와 미래 제품을 활용하여 여러분의 애플리케이션과 제품을 만드는데 도움이 되셨으면 합니다. 개인적으로 저는 매우 즐거운 여정을 이어왔다고 생각합니다. 이렇게 놀라운 시대에 이렇게 좋은 회사의 대표가 된 저는 스스로 매우 운이 좋은 사람이라고 믿습니다. ‘Building the adaptable and intelligent world’라는 미션을 이루기 위해서 저희 회사는 매우 열정적으로 노력하고 있습니다. 여러분께서도 이 여정에 동참하실 수 있길 바라면서 나머지 컨퍼런스도 유익한 시간이 되시길 바랍니다. 감사합니다.

”
제1회로 개최되었던 자일링스 개발자 포럼에 참석하여 이모저모를 살펴본 기자는 자일링스는 더 이상 FPGA 회사가 아니라는 점을 다시 한 번 확인했다. 자일링스의 하드웨어 프로그래머블 SoC인 FPGA 및 업계에서 가장 역동적인 프로세서 기술을 제공하도록 설계된 ACAP은 적응력이 뛰어나고, 지능적이며, 연결된 미래 세계를 가능하게 한다.
변화된 시대에 변화된 플랫폼을 가지고 새로운 시장을 개척하려는 자일링스의 행보에 주목된다.

신제품 발표

죄송합니다. 더 이상 지원되지 않는 웹 브라우저입니다.

아래의 링크에서 브라우저를 업그레이드 하시기 바랍니다.

Internet Explorer 다운로드 | Chrome 다운로드