[GA4]3. 구글 애널리틱스 4 데이터 수집과 계정 구조

Share This Post

구글 애널리틱스 데이터 수집


GA4 추적코드 설치


지난 글([GA4]2. 구글 애널리틱스 4 설치하기)에서는 GA 계정을 생성하고 속성 단위에서 발급된 GA 추적코드(Google Analytics Tracking Code, GATC)를 확인, 복사해서 웹사이트에 설치하는 방법을 다뤘습니다.

웹사이트에 추적코드를 심어 놓으면, 사용자가 웹사이트를 방문하여 액션을 취할 때마다 웹사이트와 사용자 간 상호작용(interactions) 정보가 수집됩니다. 웹사이트에서 고유한 하나하나의 사용자 상호작용을 GA4에서는 이벤트(event)라고 합니다. 페이지 조회, 링크/버튼의 클릭, 스크롤 내리기, 동영상 조회 등이 이벤트에 포함됩니다.

데이터 수집 프로세스


GA4 데이터 수집 프로세스


GA4에서 데이터를 수집하는 프로세스를 담은 도식도입니다.

사용자가 웹사이트의 특정 페이지를 방문하면 해당 페이지가 로드되면서 그 안에 설치된 GA 추적코드가 실행됩니다. 추적코드가 실행되면서 수집된 데이터는 GA서버로 전송되고, 미리 정해진 규칙에 따라 데이터베이스에 저장됩니다.

이들 데이터는 GA 속성에서 다양한 형태의 보고서를 통해 확인할 수 있습니다.

수집 정보


구글 애널리틱스는 기본 추적코드 설치만으로도 수백가지에 이르는 많은 데이터를 자동으로 수집해서 제공합니다. 이들 데이터는 크게 사용자, 채널(유입 경로), 행동(이벤트), 그리고 전환(conversion) 네 가지 카테고리로 구분할 수 있습니다.


<데이터 수집 카테고리>


먼저 사용자 정보는 사용자의 연령과 성별 등 인구통계 정보, 기기 카테고리, 브라우저, 운영체제 등 기술 정보를 포함합니다.

채널 정보는 소스와 매체, 기본 채널 그룹, 캠페인 등 유입 경로 정보를 포함합니다.

사용자 행동과 관련해서는 웹사이트에 도달에서 떠날 때까지 조회한 페이지 정보를 자동으로 수집합니다. UA 버전의 경우 페이지 조회 이외의 사용자 행동 데이터 즉, 이벤트 데이터는 모두 수동으로 추가 설정을 해야만 수집이 가능했습니다. 반면 GA4에서는 향상된 측정 기능이 도입되어, 스크롤 깊이(90%), 유튜브 동영상 조회, 사이트 검색, 파일 다운로드, 양식 상호작용, 아웃바운드 링크 클릭 이벤트를 자동으로 수집해 줍니다.

하지만 기본 추적코드를 통해 수집되는 정보가 분석에 필요한 모든 정보를 포함하지는 않습니다. 비즈니스 관점에서 중요하다고 생각되는 사용자 행동 데이터 즉 전환(conversion) 데이터는 대체로 자동 수집 항목에서 빠져 있습니다.

전환 데이터는 웹사이트 유형에 따라 조금씩 다를 수 있지만, 대체로 아래와 같은 사용자 행동 데이터를 예로 들 수 있습니다.

  • 전자상거래 사이트: 결제/구매 데이터
  • 커뮤니티/매체 사이트: 회원가입 및 구독신청
  • B2B나 오프라인 기반의 서비스 웹사이트: 견적문의/상담신청/서비스예약 등

이들 전환 데이터는 자동으로 수집되지 않기에, 전자상거래 추적 설정 또는 맞춤 이벤트 추적 설정과 같은 추가 이벤트 설정을 통해 별도로 데이터를 수집해 주어야 합니다.

측정 프로토콜(Measurement Protocol)


측정 프로토콜은 이벤트를 수집하고 구글 애널리틱스 서버로 직접 전송하는 과정에 대한 일련의 표준 규칙입니다. 소스 코드에 직접 GA 추적코드를 설치하든, 구글 태그관리자(GTM)를 통해 GA 태그를 설치하든 모든 애널리틱스 데이터는 측정 프로토콜 방식으로 GA 서버에 전송됩니다.


<측정 프로토콜>


측정 프로토콜은 크롬 개발자도구를 열고(웹페이지에서 마우스 우클릭, 검사 메뉴 선택 또는 단축키 F12 클릭), 네트워크(Network) 탭을 선택한 후, 필터 영역에서 collect로 검색을 하면 쉽게 확인할 수 있습니다.


<측정 프로토콜: Headers>


좌측 Name 영역에서 collect 로 시작되는 부분을  클릭하면 나타나는  새 창에서 “Request URL”로 표시된 부분이 바로 측정 프로토콜입니다.

측정 프로토콜을 사용하여 구글 애널리틱스로 데이터를 전송하는 작업은 1) 전송과 2) 페이로드 두 부분으로 구성되어 있습니다.

1) 전송(Transport)

전송은 데이터를 전송하는 위치와 방법을 지정하는 것을 말합니다. 다음의 URL 엔드포인트(https://google.analytics.com/g/collect)에 대해 HTTP POST 요청을 수행하여 측정 프로토콜을 통해 데이터를 전송합니다.

2) 페이로드(Payload)


페이로드는 측정 프로토코로을 통해 구글 애널리틱스 서버로 전송되는 데이터를 말합니다. 아래와 같이 “Payload” 탭을 선택하면 보기 쉽게 정리된 데이터를 확인할 수 있습니다.


<측정 프로토콜: Payload>

참조: 측정 프로토콜 참조


페이로드 내용 중 몇 가지 항목을 살펴보면 아래와 같습니다.

  • v – 버전(Version). 1은 유니버설 애널리틱스 2는 GA4 버전을 의미함
  • tid – 측정 ID(Tracking ID)
  • cid – 고객ID(Client ID). 고유의 쿠키 값을 의미함
  • sr – 화면 해상도(Screen Resolution)
  • sid – 세션 ID(Session ID)
  • sct – 세션 수(Session Count)
  • dl – 페이지 주소(Document Location)
  • dr – 페이지 리퍼러(Document Referrer)
  • dt – 페이지 제목(Document Title)
  • en – 이벤트 이름(Event Name)


측정 프로토콜과 관련하여 또 하나 기억해야 할 부분은 측정 프로토콜을 사용하면 키오스크나 POS 단말기와 같이 추적코드나 SDK가 작동되지 않는 환경에서도 개발자가 구글 애널리틱스 서버에 이벤트를 직접 전송하도록 HTTP 요청을 할 수 있다는 점입니다. 이를 통해 개발자는 HTTP 통신이 가능한 모든 환경에서 사용자가 비즈니스와 상호작용하는 방식을 측정할 수 있습니다. 예를 들어, 개발자는 측정 프로토콜을 사용하여 다음과 같은 작업을 할 수 있습니다.

  • 온라인 행동을 오프라인 행동과 연결
  • 클라이언트 측과 서버 측 모두의 상호작용 측정
  • 일반 사용자 상호작용 외부에서 발생하는 이벤트(예: 키오스크 사용, POS 결제 등 오프라인 전환) 전송


참조: 측정 프로토콜(구글 애널리틱스 4)

측정기준과 측정항목


애널리틱스 데이터는 크게 측정기준(dimensions)과 측정항목(metrics)으로 나뉩니다. GA 속성에서는 이들 측정기준과 측정항목을 조합하여 다양한 유형의 보고서를 제공하는데, 이를 기본 보고서(basic reports)라고 합니다.


<측정기준(dimensions)과 측정항목(metrics)>

측정기준(dimensions)


측정기준은 데이터의 속성을 의미하며, 측정기준을 갖고 데이터를 구분합니다. 데이터를 설명하며 일반적으로 숫자가 아닌 텍스트로 되어 있습니다. 연령, 성별, 기기 카테고리, 소스/매체, 기본 채널 그룹, 방문 페이지, 이벤트 이름, 거래 ID, 항목 이름 등 구글 애널리틱스의 보고서를 구성하는 각각의 항목이 측정기준에 포함됩니다.

측정항목(metrics)


측정항목은 합계, 비율, 시간 또는 금액으로 측정될 수 있는 양적 측정 요소를 말합니다. 우리가 흔히 지표라고 부르며, 항상 텍스트가 아닌 숫자로 되어 있습니다. 측정항목의 특징 중 하나는 수학 연산을 적용할 수 있다는 점입니다. 사용자, 새 사용자 수, 참여 세션수, 참여율, 평균 참여 시간, 이벤트 수, 전환, 총 수익 등의 지표가 측정항목에 포함됩니다.

참조: 애널리틱스 측정기준 및 측정항목

이벤트, 세션, 사용자


<구글 애널리틱스 데이터 계층구조>


구글 애널리틱스의 데이터는 또한 이벤트(events), 세션(sessions), 사용자(users) 세 가지 요소를 포함하는 위계형 구조로 구성되어 있습니다.

1) 이벤트


<이벤트>


이벤트 구글 애널리틱스에서 가장 작은 데이터 수집 단위로 사용자가 웹사이트나 앱에서 행하는 모든 개별적 상호작용을 말합니다. 첫 방문(first_visit), 세션 시작(session_start), 페이지 조회(page_view), 참여(user_engagement), 클릭(click), 스크롤(scroll), 구매(purchase) 등의 사용자 상호작용을 이벤트 예시로 들 수 있습니다.

2) 세션


<세션>


세션은 사용자가 웹사이트를 방문한 시점부터 웹사이트를 떠난 시점까지의 기간을 의미합니다. 달리 표현하자면, 동일한 사용자가 1회 방문 동안 발생시킨 이벤트 집합을 말합니다. 사용자의 활동성을 토대로 이벤트를 그룹화하며(하나의 세션으로 묶으며) 30분 동안 활동이 없는 경우 해당 세션이 종료됩니다.

3) 사용자


<사용자>


사용자는 웹사이트나 앱에서 상호작용하는 사용자를 하나의 사용자로 인식하는 단위를 의미합니다. 유저 ID(User-ID), 구글 신호데이터(Google Signals) 및 기기 ID(Device-ID)를 토대로 사용자를 식별합니다.


구글 애널리틱스에서 수집하는 가장 작은 단위의 사용자 행동을 이벤트라고 합니다. 이벤트가 모여서 1회 방문 즉 세션을 구성합니다. 그리고 세션이 모여서 1명의 사용자를 구성합니다. 여기서 사용자는 기본적으로 쿠키 정보를 토대로 식별한 사용자를 의미합니다. 따라서 동일한 사용자가 여러 기기/브라우저를 통해 유입되는 것을 온전하게 측정하기 위해서는 유저 ID 설정을 해주어야 합니다.

측정기준과 측정항목의 범위(scope)


애널리틱스의 측정기준(dimension)과 측정항목(metrics)은 이들 지표가 속한 범위(scope)가 존재합니다. 앞에서 설명한 바 있는 이벤트, 세션, 사용자 개념이 범위(scope)에 해당하며, 전자상거래 데이터의 경우 제품(product) 범위가 있습니다.

어떤 측정기준의 값이 이벤트가 발생할 때마다 달라질 수 있으면 이 측정기준은 이벤트 범위에 속합니다. 같은 이치로 측정기준의 값이 세션이 달라질 때마다 달라질 수 있으면 세션 범위, 사용자가 달라질 때마다 값이 달라지면 사용자 범위에 속하게 됩니다.

설명을 돕기 위해 예시를 하나 들어 보겠습니다.


<측정기준의 범위>


  • 사용자 A
  • 연령: 30세(25~34세)
  • 성별: 여성
  • 소스/매체1: google/display (어제 방문)
  • 소스/매체2: google/organic (오늘 방문)
  • 페이지 경로: /1, /2, /3 … /10 (오늘 방문에서 1페이지부터 10페이지까지 차례대로 총 10페이지를 조회함)


이 예시에서 ‘페이지 경로’라는 측정기준의 값은 이벤트가 발생할 때마다 즉 페이지가 조회될 때마다 달라질 수 있습니다. 따라서 페이지 경로는 이벤트 범위의 측정기준에 해당합니다.

소스/매체 측정기준은 어떤가요? 사용자 A가 금일 google/organic 소스/매체를 통해 사이트를 방문해서 1페이지부터 10페이지까지 차례로 조회를 했다고 가정을 했는데요, 페이지 조회 이벤트가 발생할 때마다 페이지 경로는 달라지지만, 유입 경로가 되는 google/organic란 소스/매체 측정기준의 값은 달라지지 않습니다. 따라서 소스/매체 측정기준은 적어도 이벤트 범위의 지표는 아닙니다.

사용자 A는 어제도 방문한 이력이 있는데요, 어제는 google/display를 통해 방문을 했습니다. 이를 통해 소스/매체 측정기준 값은 사용자가 방문할 때마다 즉 세션이 발생할 때마다 달라질 수 있다는 걸 알 수 있습니다. 즉, 소스/매체 측정기준은 세션 범위의 지표입니다.

마지막으로 연령과 성별 측정기준을 보겠습니다. 사용자 A가 각각의 페이지를 조회할 때마다, 혹은 사이트를 방문할 때마다 30세라는 연령, 여성이라는 성별 값이 달라지나요? 이들 지표는 이벤트 또는 세션의 발생과 무관하고, 사용자가 바껴야 달라지는 지표입니다. 따라서 연령과 성별 측정기준은 사용자 범위에 속합니다.

  • 사용자 범위: 연령 및 성별
  • 세션 범위: 소스/매체
  • 이벤트 범위: 페이지 경로


기존 유니버설 애널리틱스에서는 맞춤 측정기준을 만들 때 이벤트(히트), 세션, 사용자 그리고 제품(product) 네 개의 범위를 사용했습니다. GA4에서는 현재 맞춤 측정기준 생성 시 이벤트와 사용자 두 개의 범위만 사용할 수 있는데요, GA4에서 세션 개념이 UA 대비 많이 약해지긴 했지만 여전히 존재하고, 구매 데이터와 관련 제품 단위의 데이터 또한 필요한 만큼 향후 세션과 제품 범위(scope)도 다시 도입이 될 것으로 예상됩니다.

범위(scope) 개념은 GA를 시작하는 분들에게는 생소하고 다소 어렵게 느껴질 수도 있지만 보고서를 구성하고 데이터를 해석하는 데 있어서 매우 중요한 개념입니다. 이번 글에서는 그 개념만 간략하게 설명을 하고 추후 좀 더 자세하게 다뤄보도록 하겠습니다.

참조: 트래픽 소스 측정기준의 범위

구글 애널리틱스 계정 구조


<애널리틱스 계정 구조1>


구글 애널리틱스 계정은 구글 계정으로 만들 수 있습니다. GA 계정이 생성되면 최상위 레벨에 계정(account)가 있고 그 아래 속성(property)이 만들어집니다.

일반적으로 함께 분석해야 하는 데이터(제품 라인, 브랜드, 애플리케이션)는 하나의 속성에 존재해야 합니다. 하나의 브랜드에서 웹사이트와 함께 Android 및 iOS 앱을 모두 운영한다고 하면 이들 세 개 소스의 데이터를 하나의 속성에 담아 분석을 하게되며, 이러한 데이터 소스를 데이터 스트림(data stream)이라고 합니다.


<구글 애널리틱스 계정 구조2>

1) 계정(Account)


계정은 구글 애널리틱스의 계정 구조의 최상위 레벨에 해당하며 속성을 포함합니다. 애널리틱스에 접속하려면 하나 이상의 계정이 있어야 합니다. 보통 회사/조직 별로 하나의 계정을 운영합니다.

2) 속성(Property)


속성은 추적코드가 발급되는 단위이자, 이 코드를 통해 수집한 데이터를 다양한 보고서를 통해 확인할 수 있는 곳입니다. 데이터의 수집과 분석이 속성 단위에서 이뤄진다고 생각하면 쉽습니다. 이에 따라 보통 웹사이트(브랜드) 별로 속성을 만들어 운영합니다.

속성 설정, 데이터 스트림 설정, 데이터 설정(수집/보관/필터), 기여 분석 설정 등 주요 설정뿐만 아니라 구글애즈, 빅쿼리, 서치 콘솔 등 구글 제품과의 연동도 속성 단위에서 이뤄집니다.

3) 데이터 스트림(Data stream)


속성 내에 위치하며 앱 또는 웹사이트의 데이터 소스를 말합니다. 속성마다 최대 3개의 데이터 스트림을 사용하는 것이 좋습니다.

정리하자면, 보통 회사별로 하나의 GA 계정을 만들어 사용합니다. 다수의 브랜드 즉 다수의 웹사이트를 운영하는 경우 브랜드 별로 속성을 만들어 운영하며, 각 속성이 개별 분석 단위가 됩니다. 물론 여러 브랜드가 상호 유기적으로 운영된다면 하나의 속성을 운영하는 것도 방법입니다.

하나의 브랜드에서 웹사이트와 앱을 함께 운영한다면 데이터 스트림을 통해 이들 소스 데이터는 하나의 속성에 담아 통합적으로 분석할 수 있도록 합니다.

지금까지 구글 애널리틱스에서는 어떤 데이터를, 어떤 방식으로 수집하여, 어떤 구조 하에 담아내는지를 살펴보았습니다. 다음 글에서는 이렇게 수집된 데이터들을 애널리틱스의 어떤 메뉴, 어떤 보고서를 통해 확인할 수 있는지 GA4의 주요 메뉴와 보고서에 대해 알아 볼 예정입니다.

# 국내 대표적인 온라인마케팅 커뮤니티/매체인 아이보스에서 구글 애널리틱스 4(GA4) 강의를 진행하고 있습니다. 커리큘럼 등 자세한 사항은 아래 링크를 참조하세요.

GA4 실무과정: https://www.ibossedu.co.kr/edu-goods-3

블로그 구독하기

이메일을 남겨주시면 새로 발행되는 블로그 글을 받아보실 수 있습니다.

믿을 만한 GA4 구축/교육 업체를 찾으시나요?

오컴데이터와 함께 시작하세요!