메인 메뉴 바로가기
구글코리아 블로그

바드에 대하여: 시작 단계의 생성형 AI 실험



이 블로그는 구글 AI 사이트(영문)에서도 확인하실 수 있습니다. 

'바드' 블로그 대문 이미지

구글은 정보와 컴퓨팅의 접근성을 개선하고 유용성을 높일 수 있는 AI의 잠재력을 오랫동안 목격해 왔습니다. 이러한 여정을 통해 구글은 대규모 언어 모델(Large Language Models, LLM) 분야의 선구적인 발전을 이루었고 구글을 포함해 관련 분야 전체에서 더 광범위한 진전을 만들어 냈습니다. 지난 수년간 LLM을 적용하여 지메일 내 문장 자동 완성, 구글 번역 서비스 확대, 구글 검색 내 검색어 이해도 개선 등과 같이 많은 제품의 기능을 개선할 수 있었습니다. 이제 구글은 바드(Bard)를 위해 LLM을 활용하고 있습니다. 바드는 사람들이 생성형 AI와 직접 협업할 수 있게 하는 실험의 장입니다. 

지금 구글은 중요한 변곡점에 서 있고 생성형 AI에 대한 기대가 매우 크지만, 해당 기술은 아직 초기 단계입니다. 때문에 앞으로 바드에 대한 접근 방식을 간략히 설명하면서 바드가 무엇인지, 어떻게 작동하는지, 그리고 현재의 기능과 한계는 무엇인지 알아보겠습니다. 또한, 바드와 그 기반기술 자체의 진화와 함께 지속적인 연구와 경험, 이용자 피드백을 통해서도 나란히 발전해 나갈 것입니다.

바드란?

바드는 LLM에 대한 인터페이스로 이용자가 생성형 AI와 협업할 수 있도록  설계되었습니다. 바드와 같은 혁신적인 LLM 기반 기술은 사람들이 잠재력을 발휘하도록 지원할 것입니다. 바드는 구글의 AI 원칙에 따라 신중하게 진행되고 있는 실험입니다. 구글은 업계 전문가, 교육자, 정책 입안자, 시민 권리 및 인권 지도자, 콘텐츠 제작자 등과 협력하여 새로운 기술의 다양한 응용 분야는 물론 위험성과 한계, 그리고 이를 개선할 수 있는 방법 등에 대해 알아볼 것입니다.

구글은 이미 바드가 생산성, 창의성 및 호기심을 뒷받침할 수 있는 유용한 도구이며 이용자에게 창의적이고 도움을 주는 조력자 역할을 하고있다고 생각합니다. 다음의 각 항목들에서는 이러한 바드의 역할을 소개하고 있습니다. 또한 이용자들이 바드를 활용하는 다양하고 새로운 방식을 통해 바드의 역할을 더 많이 알아갈 수 있기를 기대하고 있습니다. 

생산성 

이용자들은 바드와의 협업을 통해 자신에게 주어진 시간을 최대한 활용할 수 있습니다. 예를 들어, 이용자가 파티를 계획하고 있다고 가정해 보겠습니다. 이용자는 바드를 활용해 간편하게 할 일 목록과 초대장의 개요를 작성함으로써 자신의 시간과 능력을 더 중요한 작업에 할애할 수 있습니다.

창의성

바드는 또한 이용자가 아이디어를 현실화하거나 창의력을 새로운 방식으로 발휘하도록 도와줍니다. 예를 들어, 블로그 게시물을 작성할 경우 바드가 개요를 구성하고 어떻게 시작할 지를 알려주는 덕분에 이용자는 빈 페이지를 앞에 두고 고민하지 않아도 됩니다. 또한, 바드는 시, 단편 소설, 슬로건 및 기타 창의적인 작업물을 작성함으로써 창의성에 영감을 불러일으킬 수 있습니다.

호기심 

관심 있는 아이디어나 주제를 탐색할 때 바드를 활용한다면, 호기심을 채우고 해결하고 더 키울 수도 있습니다. 예를 들어, 바드는 복잡한 개념을 간단하게 설명하거나 주제에 대한 적절한 인사이트를 제공함으로써 이용자가 더 많은 것을 탐색하고 배우도록 영감을 줄 수 있습니다.

바드의 작동 원리

사전 학습

바드는 람다(Language Models for Dialogue Applications, LaMDA)의 경량화 및 최적화된 버전에 기반을 두고 있습니다. 또한, 바드는 오늘날 대부분의 LLM과 마찬가지로 공개적으로 사용 가능한 소스의 다양한 데이터에 대한 사전 학습을 거쳤습니다. 이 사전 학습을 통해 바드는 언어의 패턴을 파악하고, 이를 활용하여  사용가능한 단어를 순서대로 예측할 수 있습니다. 예를 들어, LLM은 학습을 하면서 "땅콩 버터와 ___"이라는 문장에서 빈칸에 들어갈 단어가 "신발끈"보다는 "잼(Jelly)"일 가능성이 더 높다고 예측할 수 있습니다. (*영미권에서는 땅콩버터와 잼(Peanut butter and Jelly)이 자주 함께 사용되기 때문입니다.) LLM은 때때로 사실과 관련된 명령어는 잘 수행하기도 하고 정보를 실제로 추출한다는 느낌을 주기도 합니다. 그러나 LLM은 정보의 데이터베이스도, 확정적인 정보 검색 시스템도 아니라는 점을 주목해야 합니다. 데이터베이스 검색어는 말그대로 저장된 정보를 추출하는 것이기 때문에 이용자는 매번 정확히 동일하고 일관된 응답을 기대할 수 있습니다. 하지만 같은 명령어(prompt)에 대한 LLM의 응답은 매번 동일하지 않을 수도 있고 학습된 정보를 추출하지 않을 수도 있습니다. LLM의 기본 메커니즘이 다음 단어를 예측하는 것이기 때문입니다. 이로 인해 LLM이 사실이 아닌 오류를 포함하는 그럴듯한 응답을 만들어 낼 수도 있는 중요한 요인이 되기도 합니다. 때문에 사실여부가 중요할 때에는 최적의 도구가 아닐 수도 있지만, 창의적인 답변이나 예상치 못한 결과를 생성하는 데는 잠재적으로 유용합니다.

이용자의 명령어에 대한 응답

이용자가 명령어를 입력하면 바드는 이 명령어의 맥락을 활용하고 이용자와 상호 작용을 함으로써 여러 버전의 답변 초안을 작성합니다. 그런 다음 바드는 미리 지정된 안전성 기준척도를 바탕으로 응답을 분류하고 확인합니다. 이러한 기술적 안전장치를 통과하는 답변은 품질에 따라 다시 순위가 매겨지며, 더 높은 품질의 응답이 이용자에게 제공됩니다.

사람의 피드백과 평가

구글은 언어모델 플랜(FLAN)을 대상으로 지시어 정교화(fine-tuning)에 관한 연구를 진행한 적이 있습니다. 비교적 적은 인적 지원과 피드백, 그리고 다양한 형태로 제공되는 추가 엔지니어링(예: 정교화, 잘 설계된 명령어 엔지니어링, 이용자 명령어, 정정, 고품질 응답의 예상 모델링, 이용자의 단순한 호불호 의견 등)으로 정교화 작업이 언어모델의 학습 및 개선에 도움이 된다는 사실을 입증했습니다. 만약 바드에서 응답에 경고가 뜨면, 숙련된 검토 인력이 이 응답을 살펴보면서 입력된 명령어와의 관련도를 평가하고 바드의 응답이 품질이 낮거나 부정확한지 또는 유해한지 여부를 판단합니다. 그리고 숙련된 평가자는 정의된 정책에 따라 더 높은 품질의 응답을 제안하고, 이는 향후 바드에 향상된 데이터 세트가 제공될 수 있도록 정교화 작업을 위한 자료로 활용됩니다. 바드는 이 데이터 세트를 통해 학습을 실시함으로써 향후 개선된 응답을 내놓을 수 있게 됩니다. 더 나아가 바드를 더욱 개선하기 위해 구글은 인간의 선호도 피드백을 기반으로 LLM을 강화하는 인간피드백 기반 강화학습(RLHF, Reinforcement Learning on Human Feedback)이라는 기술을 사용합니다. 그동안 AI 테스트 키친(AI Test Kitchen) 신뢰할 수 있는 테스터 프로그램을 통해 서도 많은 것을 배웠지만, 바드를 유의미하게 개선하는데 있어 중요한 다음 단계는 다양한 전문가 및 이용자의 피드백과 평가를 받는 것입니다.

바드와 같은 LLM 기반 인터페이스의 한계 

바드는 LLM을 책임감 있게 개발하기 위한 장기적이고도 지속적인 노력의 일환이며, 이 작업 과정에서 구글은 LLM의 한계를 발견했고 이에 대한 논의를 진행해왔습니다. 다음은 구글이 지속적으로 주목하고 있는 5개 영역입니다.

(a) 정확성: 복잡하거나 사실적인 주제에 대한 질문을 받았을 때 특히 바드는 부정확한 답을 내놓을 수 있습니다. 

(b) 편견: 바드의 응답에는 학습 데이터에 존재하는 편견 또는 특정 관점이 반영될 수 있습니다. 

(c) 자아(페르소나): 바드의 응답은 마치 스스로가 개인적인 의견이나 감정이 있는 것처럼 보일 수 있습니다. 

(d) 위양성(false positives) 및 위음성(false negatives): 바드는 일부 적절한 요청에 응답하지 않을 수 있고 어떤 요청에는 부적절한 응답을 제공할 수 있습니다. 

(e) 적대적인 명령어에 대한 취약성: 이용자는 바드를 대상으로 스트레스 테스트를 실행할 방법을 찾을 것입니다. 구글은 물론 다른 여러 업계에서도 위와 같은 영역들을 중요하게 연구하고 있으며 개선을 위해 구글도 끊임없이 노력하고 있습니다.

정확성

바드는 양질의 정보에 대한 구글의 해석을 기반으로 하며, 맥락과 이용자의 의도에 맞는 응답을 생성하도록 학습되었습니다. 그러나 다른 모든 LLM과 마찬가지로 바드는 때때로 부정확하거나 오해의 소지가 있는 정보가 포함된 응답을 생성하면서도 이를 자신 있고 설득력 있는 어조로 제시할 수 있습니다.

LLM의 기본 메커니즘은 다음 단어 또는 단어 시퀀스를 예측하는 것이므로 LLM은 아직 정확한 정보와 부정확한 정보를 완벽하게 구별할 수 없습니다. 예를 들어, LLM에게 수학적 단어 문제를 풀도록 요청하면 LLM은 고급 추론이나 계산이 아닌, 이미 학습했던 내용을 기반으로 답변을 예측합니다. 바드가 부정확한 정보를 포함하거나 꾸며낸 응답을 제시한 경우도 있었습니다. 예를 들어, 학습한 내용을 잘못 전하거나 존재하지 않는 책의 이름을 제시했습니다.

편견

훈련용 데이터는 대중에 공개된 자료들을 포함하며 다양한 관점과 의견을 반영합니다. 구글은 LLM의 응답이 다양한 관점을 통합하면서도 부적절한 답변을 방지할 수 있도록 데이터를 활용하는 방법을 지속적으로 연구하고 있습니다.

훈련 데이터에 어떠한 차이, 편견 및 고정 관념이 포함된 경우, 그럴듯한 답변을 예측하는 과정에서 응답 결과에 이러한 요소들을 반영하는 모델이 나올 수도 있습니다. 이때 이 문제는 여러가지 방식으로 나타납니다. 예를 들어, 이러한 모델은 특정 문화나 인구통계 정보만을 반영하거나 논란의 소지가 있는 고정 관념을 언급하는 내용 또는 성별, 종교, 민족적 편견을 나타내는 답변을 내놓을 수도 있습니다. 또한, 일부 주제의 경우 데이터 공백이 있습니다. 다시 말해, 특정 주제에 대해 신뢰할 만한 정보가 충분하지 않아 LLM이 해당 주제에 대해 학습한 후 올바른 예측을 내릴 수 없는 경우입니다. 이 경우 품질이 낮거나 부정확한 정보가 생성되는 경우가 증가합니다. 바드에서 안전한 환경을 구축한다는 것은 모두에게 안전한 환경을 구축하는 것을 의미하며, 구글은 이 점에 지속적으로 초점을 맞추고 있습니다. 구글은 끊임없이 파인튜닝(fine-tuning) 작업을 진행함으로써 바드의 학습 데이터와 시스템을 지속적으로 개선하고 있습니다. 그리고 영역별 전문가 및 다양한 커뮤니티와 공동으로 연구를 수행하여 구글 외부에서도 심층적인 전문 지식에 대한 지침들을 마련하고 있습니다. 

정치와 같은 주관적인 주제의 경우 바드는 다양한 관점을 제공하도록 설계되었습니다. 예를 들어, 어떤 것의 최고 또는 최악에 대한 주관적 의견을 묻는 것과 같이 1차 자료 출처나 확고한 전문가 의견으로도 검증이 불가능한 명령어가 입력되는 경우가 있습니다. 이 경우 바드는 다양한 관점을 반영하는 응답을 제공해야 합니다. 그러나 바드와 같은 LLM은 인터넷에서 공개된 콘텐츠를 바탕으로 학습을 실시합니다. 따라서 특정 정치인, 유명인 또는 기타 공인의 긍정적이거나 부정적인 견해를 반영하거나, 심지어 논란이 되는 사회적 또는 정치적 사안의 특정 측면에 대한 시각을 응답에 포함하기도 합니다. 바드는 이러한 주제에 대한 특정 관점을 지지하는 방향으로 응답해서는 안됩니다. 이에 구글은 해당 유형의 응답에 대한 피드백으로 바드를 훈련시킴으로써 관련 문제해결능력을 개선할 것입니다.

자아(페르소나)

바드는 사람들의 경험을 나타내는 언어를 학습했기 때문에 때때로 사랑이나 슬픔과 같은 의견이나 감정이 있는 것처럼 보이는 응답을 할 수 있습니다. 구글은  바드가 스스로를 표현하는 방식(즉, 자아/페르소나)에 대한 일련의 지침을 개발했으며, 객관적이고 중립적인 응답을 제공하기 위해 꾸준히 정교화 작업을 진행하고 있습니다. 

거짓 양성 및 거짓 음성 반응

바드는 유해하거나 공격적인 콘텐츠를 다루고 대응 답변을 내놓는 데 있어 아직 더 훈련이 필요한 경우가 있습니다. 이러한 명령어에 바드가 답변하지 않도록 구글은 일련의 기술적 안전지침을 마련했습니다. 이러한 안전지침은 문제의 소지가 있는 응답을 방지하기 위함입니다. 하지만 바드는 때때로 이를 잘못 해석하여 "거짓 양성" 및 "거짓 음성”의 반응을 보일 수 있습니다. "거짓 양성" 반응의 경우, 바드가 합리적인 요청에 대한 응답을 제공하지 않고 해당 요청을 부적절한 것으로 잘못 해석할 수 있습니다. "거짓 음성" 반응의 경우에는 안전지침이 있음에도 불구하고 부적절한 응답을 생성할 수 있습니다. 구글은 입력값과 출력값의 안전성을 더 정확히 이해하고 분류하기 위해 모델을 끊임없이 조정할 것이며 언어, 사건 및 사회의 빠른 발전에 맞추어 노력을 지속할 것 입니다. 

적대적인 요청에 대한 취약성 

일부 이용자들은 바드의 훈련 데이터나 기타 정보를 유출하거나 안전 메커니즘을 우회하는 등 바드의 보호 기능을 무력화하려는 시도를 하며 바드가 할 수 있는 한계를 테스트할 것으로 예상됩니다. 구글은 그동안 바드를 엄격하게 테스트해 왔고 앞으로도 계속 할 것입니다. 하지만 동시에 일부 이용자들이 바드를 더욱 복잡하고 독특하게 테스트 할 수 있는 방법을 찾을 수도 있다는 것을 알고 있습니다. 이는 특히 지금과 같은 초창기 바드 모델을 개선하는 데 있어 중요한 부분입니다. 구글은 이용자가 제시하는 새로운 명령어를 학습함으로써 바드가 문제가 있거나 민감한 정보를 출력하지 않도록 차단하는 방법을 찾을 수 있기를 기대합니다. 구글은 사전에 위험성을 관리하고 줄이기 위해 노력했지만, 여전히 다른 모든 LLM 기반 경험처럼 바드도 실수할 가능성이 있습니다. 이에 현재 바드 이용가능 연령은 18세 이상으로 제한해 두었습니다. 

바드를 사용하는 방법

구글은 LLM을 다년간 연구한 끝에 이용자가 LLM의 한계를 이해 및 관리하고 그 기능을 최대한 활용할 수 있도록 돕는 도구의 필요성을 크게 느꼈습니다. 이에 따라 구글은 실험 목적으로, 바드 이용 시에 확인할 수 있는 선택 사항들을 다음과 같이  마련해두었습니다. 

복수 초안

앞서 언급한 것처럼 바드는 동일하거나 유사한 명령어 및 질문에 대해서도 다양한 응답을 생성할 수 있습니다. 초기 테스트 과정에서 이용자는 이점을 높이 평가했습니다. 시나 단편 소설과 같은 창의성이 요구되는 분야에 대한 명령어 또는 단 하나의 정답이 존재하지 않는 명령에서 특히 그러했습니다. 이용자는 "다른 초안 보기"를 선택해 바드의 응답 초안을 여러 개 볼 수 있고 자신이 선호하는 응답을 선택할 수 있습니다.

"새로운 응답"

다른 응답이나 응답 세트를 보고 싶은 이용자는 바드에게 새 응답을 생성하도록 요청할 수 있습니다. 이는 바드가 지침을 따르지 않고 저품질의 답변을 제공하거나 또는 이용자가 단순히 바드가 동일한 요청에 다시 응답하기를 원하는 경우에 유용할 수 있습니다.

"구글 검색(Google it)"

바드에는 "구글 검색" 버튼이 있어 이용자가 쉽게 웹에서 응답을 확인하거나 출처를 확인할 수 있습니다. 이용자가 "구글 검색"을 클릭하면 바드는 검색어를 제안합니다. 검색어를 클릭하면 새 탭에서 구글 검색이 열리고 이용자는 바드의 응답을 확인하거나 더 자세하게 조사를 할 수 있습니다.

인용

다른 독립형 LLM 기반 인터페이스와 마찬가지로 바드는 기본 예측 메커니즘을 토대로 독창적인 답변을 생성하도록 설계되었습니다. 때때로 바드는 답변 내에 이미 존재하고 있던 콘텐츠를 참조할 수 있습니다. 하지만 바드가 직접 웹페이지 내용을 길게 인용하는 경우 해당 페이지에 대한 출처를 표시하므로 이용자는 이 페이지로 이동해 관련 내용에 대해 더 자세히 알아볼 수 있습니다.

대화 제한 

이용자와 바드가 대화를 주고받는 일명 ‘멀티턴(Multi-turn) 상호 작용’은 흥미로운 기능이기도 하지만, 이로 인해 더 많은 문제들이 생겨날 수도 있습니다. 따라서 보다 주제에 충실하고 유용한 바드와의 상호 작용을 위해 현재 바드의 맥락 파악 기능은 의도적으로 제한되어 있습니다. 향후 바드가 꾸준히 학습함에 따라, 장시간 대화의 맥락 파악 기능은 더욱 개선될 것 입니다.

멈추지 않는 바드의 발전

지속적인 연구와 개발

바드는 LLM에 대한 구글의 최첨단 연구 성과를 기반으로 합니다. 그 일례로 2015년에 도입한 신경망 대화 모델(Neural Conversational Model)을 들 수 있습니다. 이 프레임워크에서는 모델이 대화에서 이전 문장을 토대로 다음 문장을 예측함으로써 보다 자연스러운 대화 경험이 이어지는 방식을 보여주었습니다. 그 뒤로 2017년의 트랜스포머(Transformer)와 2020년의 멀티턴 채팅 경험으로 획기적인 성과가 이어졌고 이는 훨씬 더 강력한 생성형 언어의 발전을 보여주고 있습니다.

구글 AI 원칙의 적용

바드에 대한 구글의 모든 작업은 책임감과 안전성을 기반으로 합니다. 바드는 구글의 AI 원칙에 따라 개발되고 있으며 여기서 가장 중요한 것은 실질적인 사회적 혜택을 제공하는 것입니다. 앞서 설명한 바와 같이 바드의 활용을 위해서는 지속가능한 웹 콘텐츠 생태계가 필요합니다. 이에 구글은 책임감 있는 혁신을 이루기 위해 최선을 다하고 있습니다. 그 과정에서 콘텐츠 제작자와 협력하며 신기술로 그들의 작업을 더 발전시키고 전체 웹 생태계를 이롭게 할 방안을 찾고 있습니다. 그리고 람다를 도입한 이후로는 바드의 품질, 안전성 및 근거성을 개선할 수 있었습니다. 람다는 다양한 AI 원칙에 따라 검토되었으며 앞으로 계속해서 진화할 것입니다.

또한, 구글이 바드를 개발하는 데 있어 가장 신경쓰고 있는 또다른 AI 원칙은 ‘유해성’을 방지하는 것입니다. 이에 구글은 내부적으로 "레드팀" 직원들과 함께 지속적인 적대적 테스트를 실시하고 있습니다. 

레드팀 내 제품 전문가와 사회 과학자가 오류, 공정성 문제, 잠재적 유해성 등을 탐색하기 위해 모델에 의도적인 스트레스 테스트를 실시합니다. 구글은 이들이 알아낸 내용을 바탕으로 바드를 지속적으로 개선할 수 있습니다. 이용자 역시 바드 내 피드백을 제공할 수 있으며 구글은 자체 개인정보 보호 설계원칙을 기반으로 바드를 학습시켰습니다. 구글은 책임감 있는 AI(Responsible AI)와 관련해 최신 진행 상황을 정기적으로 공개하면서 다양한 작업을 수행하고 있습니다. 이와 마찬가지로, LLM 관련 연구를 계속하면서 새로운 연구결과를 투명하게 밝히고 관련 분야의 다른 이들과도 직접적으로 협력할 것입니다. 또한, 개발자들이 안전하고 효과적인 방식으로 새로운 애플리케이션과 비즈니스를 개발할 수 있는 기회도 풍부하게 제공할 것입니다.

협력을 통한 바드 개선

바드를 공개함에 따라, 구글은 향후 업데이트 사항들을 지속적으로 공유할 것입니다. 이는 바드가 유용하게 쓰일 수 있는 곳, 반복과 개선이 필요한 곳들을 알아갈 수 있는 배움의 장이 될 것입니다. 또한, 구글은 적극적으로 바드의 기능을 추가하고 있습니다. 지속적인 연구, 시험과 함께 이용자 피드백을 바탕으로 협력하며 계속해서 바드를 개선해 나갈 것입니다.

감사의 말

바드 담당팀, 구글 리서치 및 책임 있는 AI를 위해 함께 일하고 있는 동료들에게 감사드리며 그 놀라운 성과에 경의를 표합니다.