77.1% 추론 성능·1,000만 달러(약 145억 500만 원) 보안 지원… 구글·오픈AI, 온체인 ‘추론+보안’ 경쟁 본격화

2026/02/20

구글은 ‘제미나이 3.1 프로’의 ARC-AGI-2 추론 점수가 77.1%로 이전 세대 대비 두 배 이상 개선됐다고 밝혔다.

오픈AI는 패러다임과 함께 스마트 콘트랙트 취약점 평가용 ‘EVM벤치’를 공개하고 총 1,000만 달러(약 145억 500만 원) API 크레딧을 보안 연구에 지원한다고 전했다.

77.1% 추론 성능·1,000만 달러(약 145억 500만 원) 보안 지원… 구글·오픈AI, 온체인 ‘추론+보안’ 경쟁 본격화 / TokenPost.ai

리딩 AI 기업인 구글과 오픈AI가 나란히 ‘추론 성능’과 ‘보안 검증’에 초점을 맞춘 신형 도구를 내놓으며, 암호화폐와 온체인 생태계를 겨냥한 경쟁에 속도를 내고 있다. 복잡한 문제 해결 능력을 강화한 구글의 ‘제미나이(Gemini) 3.1 프로(Pro)’와, 스마트 콘트랙트 취약점을 겨냥한 오픈AI의 ‘EVM벤치(EVMbench)’는 모두 암호화폐 시장의 보안·인프라 수준을 한 단계 끌어올릴 수 있는 기반 기술로 평가된다.

구글, 복잡한 추론 강화한 ‘제미나이 3.1 프로’ 공개

구글은 대표 모델을 업그레이드한 ‘제미나이 3.1 프로’를 공개하며, 소비자용 서비스부터 기업용, 개발자 도구까지 전 제품군에 걸쳐 적용을 예고했다. 이번 버전은 특히 ‘추론(reasoning)’과 ‘복잡한 문제 해결’ 성능을 강화했다는 점을 전면에 내세운다.

구글에 따르면 제미나이 3.1 프로는 이전 세대인 ‘제미나이 3 프로’가 기록한 ARC-AGI-2 벤치마크 점수를 두 배 이상 끌어올려, 검증된 77.1% 성능을 달성했다. ARC-AGI-2는 완전히 새로운 유형의 논리 패턴을 얼마나 잘 풀어내는지를 평가하는 척도로, 단순 질의응답이 아닌 다단계 추론과 문제 해결 능력을 보는 시험에 가깝다. 구글은 이 점수를 근거로, 제미나이 3.1 프로가 ‘여러 단계의 판단이 필요한 워크플로’에 적합해졌다고 강조한다.

이번 모델은 개발자, 기업, 일반 사용자를 향해 동시에 배포된다. 개발자들은 구글 AI 스튜디오의 제미나이 API, 제미나이 CLI, ‘구글 안티그래비티(Google Antigravity)’, 안드로이드 스튜디오 등을 통해 프리뷰 버전에 접근할 수 있다. 기업 고객은 버텍스 AI(Vertex AI)와 제미나이 엔터프라이즈에서, 일반 사용자는 제미나이 앱과 ‘노트북LM(NotebookLM)’ 내 구글 AI 프로(Pro)·울트라(Ultra) 구독을 통해 새로운 기능을 경험하게 된다.

구글은 이번 업그레이드가 최근 발표한 ‘제미나이 3 딥 씽크(Deep Think)’ 업데이트를 기반으로 한다고 설명했다. 딥 씽크는 과학·연구·엔지니어링 등 높은 정밀도가 필요한 영역에 최적화된 기능에 초점을 맞췄고, 제미나이 3.1 프로는 이를 한 단계 확장해 본격적인 ‘에이전틱(agentic) 워크플로’ 구현을 목표로 한다. 구글은 프리뷰 기간 동안 다양한 복합 작업 흐름을 현실 환경에서 시험한 뒤, 일반 제공(GA)에 들어갈 계획이다.

AI가 복잡한 온체인 데이터 분석, 파생상품 청산 구조, 디파이(DeFi) 프로토콜 설계 등 점점 더 고난도 작업에 쓰이고 있는 점을 감안하면, 제미나이 3.1 프로의 추론 성능 강화는 암호화폐 시장에도 직접적인 영향을 줄 수 있다. 특히 스마트 콘트랙트 설계, 리스크 진단, 자동화된 규정 준수 체크 등 고급 업무에서 활용도가 커질 수 있다는 전망이 나온다.

오픈AI, 스마트 콘트랙트 보안 전용 벤치마크 ‘EVM벤치’ 선보여

오픈AI는 암호화폐 토큰과 스마트 콘트랙트 보안을 겨냥한 전용 벤치마크 시스템 ‘EVM벤치’를 공개했다. 이 도구는 AI 에이전트가 이더리움 가상머신(EVM) 호환 블록체인 위에서 돌아가는 코드의 취약점을 얼마나 잘 찾고, 실제 공격 시나리오를 구성하며, 궁극적으로 문제를 수정할 수 있는지를 체계적으로 평가하도록 설계됐다.

EVM벤치는 크립토 전문 벤처캐피털인 ‘패러다임(Paradigm)’과의 협업으로 개발됐다. 양측은 EVM 호환 체인에서 반복적으로 등장하는 취약점 유형을 정리하고, 이를 표준화된 테스트 세트로 구성해 AI 모델의 실전 대응력을 측정하는 데 초점을 맞췄다.

벤치마크는 크게 세 가지 영역을 평가한다. 첫째, 스마트 콘트랙트 내부의 구조적 약점과 논리 오류를 제대로 포착하는지, 둘째, 발견된 취약점을 실제로 어떻게 악용할 수 있는지 공격 경로를 제시할 수 있는지, 셋째, 문제를 해결하기 위한 코드 수정과 방어책을 제안할 수 있는지를 종합적으로 본다. 이는 기존의 단순 코드 리뷰 수준을 넘어, 공격자 관점의 사고와 방어자 관점의 수정을 동시에 요구하는 구조다.

EVM벤치 출시는 생태계 안전장치 확대와 맞물려 있다. 오픈AI는 스마트 콘트랙트·프로토콜 보안 연구를 위한 전용 에이전트 ‘아드바크(Aardvark)’ 비공개 베타 프로그램을 확장하고, ‘사이버보안 그랜트 프로그램(Cybersecurity Grant Program)’을 통해 총 1,000만 달러(약 145억 500만 원) 상당의 API 크레딧을 방어적 연구에 지원하기로 했다. 특히 오픈소스 프로젝트와 주요 인프라를 중심으로, 보안 연구 인센티브를 강화한다는 계획이다.

이번 발표는 오픈AI가 최근 ‘오픈클로(OpenClaw)’를 인수한다고 밝힌 지 며칠 만에 나왔다. 오픈클로는 자율 에이전트와 보안 분야 기술을 보유한 기업으로, 오픈AI가 본격적으로 ‘자율형 AI 에이전트’와 사이버보안 영역을 결합하려는 포석이라는 해석이 나온다. 온체인 자산과 스마트 콘트랙트가 해킹의 주요 표적이 되고 있는 만큼, AI 기반 방어 체계 확보는 암호화폐 시장 전반의 리스크 프리미엄을 줄이는 역할을 할 수 있다.

AI 경쟁, 온체인 보안·추론 능력 중심으로 재편

구글의 제미나이 3.1 프로와 오픈AI의 EVM벤치는 겉으로 보기엔 서로 다른 제품이지만, ‘복잡한 추론 능력’과 ‘실전형 보안 점검’이라는 공통 축 위에 놓여 있다. 하나는 복합 워크플로 전반을 자동화하는 범용 추론 엔진을 지향하고, 다른 하나는 EVM 생태계를 겨냥한 특화 보안 벤치마크에 초점을 맞추고 있다는 차이만 있을 뿐이다.

암호화폐 시장에서는 고도화된 AI 모델이 온체인 데이터를 읽고, 경제적 인센티브 구조를 분석하며, 스마트 콘트랙트 취약점까지 진단하는 역할을 점점 더 맡게 될 전망이다. 이번에 공개된 두 도구는 그런 흐름에서 ‘추론’과 ‘보안’이라는 핵심 인프라를 강화하는 방향으로 작동한다.

단기간에 시장이 극적으로 변하기보다는, 개발자와 보안 연구자들이 새 도구를 도입하면서 프로토콜 설계와 코드 검증의 기준이 서서히 상향될 가능성이 크다. 구글과 오픈AI의 경쟁이 심화될수록, 암호화폐와 스마트 콘트랙트 생태계는 더 정교한 AI 기반 도구를 활용하게 되고, 이는 장기적으로 온체인 인프라의 신뢰도와 안전성을 높이는 방향으로 작용할 것으로 보인다.