iamkanguk.dev

[HTTP] HTTP Header PART1 - 일반 헤더 (~특별한 정보) 본문

CS지식/Network

[HTTP] HTTP Header PART1 - 일반 헤더 (~특별한 정보)

iamkanguk 2024. 1. 9. 01:44
해당 포스팅은 김영한님의 모든 개발자를 위한 HTTP 웹 기본 지식 강의를 토대로 작성된 글입니다.

 

HTTP Header 개요

(1) HTTP Header

 

- header-field = field-name ":" OWS field-value OWS (OWS는 띄어쓰기 허용을 의미한다)

- field-name은 대소문자를 구분하지 않는다. 하지만 value는 구분한다.

(2) HTTP 헤더의 용도

- 기본적으로 HTTP 전송에 필요한 모든 부가정보를 담는다.

- 예를 들어 메시지 바디의 내용, 메시지 바디의 크기, 압축, 인증, 캐시관리 정보 등이 있다.

- 그리고 우리는 필요시 임의의 헤더를 추가할 수 있다. (key-value)

(3) HTTP Header 추가 정보

RFC2616(과거헤더) -출처: https://developer.mozilla.org/ko/docs/Web/HTTP/Messages

 

위의 사진은 RFC2616 기준인 과거 헤더의 모습이다. 과거에는 HTTP Header를 총 4가지로 분류했다.

 

- General 헤더: 메시지 전체에 적용되는 정보이다. (ex. Connection: close)

- Request 헤더: 요청 정보 (ex. User-Agent: Mozilla/5.0 (Mac..)) (웹 브라우저 정보 등)

- Response 헤더: 응답 정보 (ex. Server: Apache) (요청을 받아서 처리하는 서버 정보가 무엇인지?)

- Entity 헤더: 엔티티 바디 정보 (ex. Content-Type: text/html)

 

RFC2616(과거 메세지 바디)

 

위의 사진은 과거의 HTTP Body 구조를 가져온 사진이다.

 

- 메시지 본문은 엔티티 본문을 전달하는데 사용한다 (메시지 본문 안에 엔티티 본문을 담아서 전송한다)

- 엔티티 본문은 요청이나 응답에서 전달할 실제 데이터를 의미한다

- 엔티티 헤더는 엔티티 본문의 데이터를 해석할 수 있는 정보를 제공하는 것이다. 대표적으로는 데이터의 유형, 길이 그리고 압축 정보가 있을 것 같다.

(4) RFC2616 폐기로 인한 변화

2014년, RFC2616이 폐기되면서 RFC7230~7235가 등장했다. 어떠한 점이 변화되었는지 살펴보자.

 

- Entity -> Representation (엔티티 -> 표현). 엔티티라는 용어 대신 표현이라는 용어를 사용하게 된다.

- Representation = Representation Metadata + Representation Data = 표현 메타데이터 + 표현 데이터. 참고로 헤더의 항목 중 표현 데이터를 해석할 수 있는 정보를 제공하는 것을 표현 메타데이터라고 한다. 표현 메타데이터는 헤더를 구성하는 항목 중 하나이다.

RFC7230 최신 메시지 바디

 

 

위의 사진은 최신 메시지 바디 구조를 보여준다.

 

  -- 메시지 본문을 통해 표현 데이터를 전달한다

  -- 메시지 본문 = 페이로드(Payload)

  -- 표현은 요청이나 응답에서 전달할 실제 데이터를 의미한다

  -- 표현 헤더는 표현 데이터를 해석할 수 있는 정보를 제공한다

 

그냥 엔티티에서 표현으로 용어가 바뀐거 말고 크게 차이점은 없다.

 

표현 (Representation)

 

- Content-Type: 표현 데이터의 형식

- Content-Encoding: 표현 데이터의 압축 방식

- Content-Language: 표현 데이터의 자연 언어

- Content-Length: 표현 데이터의 길이

- 참고로 표현 헤더는 전송 및 응답 둘다 사용한다.

- 그리고 표현 헤더표현 데이터를 해석하기 위한 정보임을 알고 있어야 한다.

 

(1) Content-Type: 표현 데이터의 형식을 설명하는 헤더

 

우리가 흔히 알고 있는 application/json이 대표적이다. 대표적으로 text/html, application/json, image/png 등이 있고 그 외에도 아주 여러가지 value가 들어올 수 있다.

(2) Content-Encoding: 표현 데이터 인코딩 헤더

 

- 보통 표현 데이터를 압축하기 위해 사용한다.

- 데이터를 전달하는 곳에서 압축을 하고 인코딩 헤더를 추가한다.

- 데이터를 읽는 쪽에서는 인코딩 헤더의 정보를 가지고 압축을 해제한다.

- gzip, deflate, identity

(3) Content-Language, Content-Length

 

- Content-Language: 표현 데이터의 자연 언어. 대표적으로 ko, en, en-US가 있다.

- Content-Length: 표현 데이터의 길이. 바이트 단위를 사용하며 Transfer-Encoding(전송 코딩)을 사용하게 되면 Content-Length를 사용하면 안된다.

 

협상 (Negotiation)

클라이언트가 선호하는 표현 요청이다.

 

- Accept: 클라이언트가 선호하는 미디어 타입 전달

- Accept-Charset: 클라이언트가 선호하는 문자 인코딩

- Accept-Encoding: 클라이언트가 선호하는 압축 인코딩

- Accept-Language: 클라이언트가 선호하는 자연 언어

- 참고로 협상 헤더는 요청 시에만 사용한다. 아래 설명을 보면 왜 이런지 알 수 있을 것이다.

 

Accept-Language를 적용해서 예시를 들어보자.

 

 

Accept-Language를 적용하지 않고 요청을 하게 되면 서버에서는 클라이언트 요청에 아무 정보가 없기 때문에 서버는 기본 지원 언어로 응답을 하게 된다.

 

 

만약에 Accept-Language를 적용하고 요청을 하게 되었다고 해보자. 서버는 기본 언어 지원은 영어지만 한국어도 지금 지원을 하고 있기 때문에 Content-Language를 ko로 설정하고 실제 메시지 바디에 한국어 데이터를 넣어서 응답하게 된다.

 

 

만약 요청 시 Accept-Language를 넣었지만 서버에서 다중 언어를 지원하지만 요청으로 받은 언어는 지원하지 않는 경우 기본인 독일어로 응답을 하게 된다. 우리는 이런 상황에서 협상과 우선순위라는 것을 고려해볼 수 있을 것 같다.

 

협상과 우선순위 1

- Quality Values(q) 값을 사용한다.

- 0부터 1까지 소수점으로 표현이 가능하며 클 수록 높은 우선순위를 가진다.

- 생략하면 기본 1이다.

- Accept-Language: ko-KR, ko;q=0.9, en-US;q=0.8,en;q=0.7

   -- 1. ko-KR;q=1 (q가 생략되었기 때문에 우선순위 1을 가진다)

   -- 2. ko;q=0.9

   -- 3. en-US;q=0.8

   -- 4. en;q=0.7

 

이처럼 클라이언트에서 우선순위로 보낸 경우 서버에서는 우선순위를 확인하고 그에 맞게 응답한다.

협상과 우선순위 2

- 구체적인 것이 우선이다.

- Accept: text/*, text/plain, text/plain;format=flowed, */*

   -- 1. text/plain;format=flowed

   -- 2. text/plain

   -- 3. text/*

   -- 4. */*

협상과 우선순위 3

- 구체적인 것을 기준으로 미디어 타입을 맞춘다.

- Accept: text/*;q=0.3, text/html;q=0.7, text/html;level=1, text/html;level=2;q=0.4, */*;q=0.5

 

위의 표를 해석해보겠다. 표에서 text/plain은 quality가 0.3으로 측정이 되어있다. 이는 text/*와 mapping이 되기 때문이다. 그렇다면 image/jpeg는 무엇과 mapping이 될까? */*와 mapping 될 것이고, 이는 quality가 0.5이기 때문에 표에 0.5라고 표기가 된 것이다.

 

전송 방식

(1) 단순 전송

- 요청에 대한 응답을 한번에 받는다.

- Content-Length를 지정해서 전송을 하기 때문에 Content의 길이를 알고 있어야 한다.

(2) 압축 전송

- 압축을 하게 되면 용량이 많이 줄어든다.

- 압축을 하게 되면 Content-Encoding을 넣어주어야 한다.

- 압축 전송은 gzip과 같은 방식으로 컨텐츠를 압축했을 때 사용하는 전송 방식이다.

- 마찬가지로 Content-Encoding을 지정해서 전송을 해야 클라이언트 측에서 받아서 압축을 풀 수 있다.

(3) 분할 전송

- Chunk: 덩어리

- Transfer-Encoding: chunked를 설정해야 한다. Content-Length를 설정하면 안된다! (Content-Length가 예상이 되지도 않고, Chunk마다 Length가 포함이 되어있기 때문이다)

- 보통 대용량 데이터를 클라이언트에 보낼 때, 요청이 모두 처리되기 전까지 총 크기를 알 수 없을 때 사용한다.

(4) 범위 전송

 

- Range를 설정해서 요청을 보내고, Content-Range를 설정해서 응답한다.

- 어떠한 이유로 중간에 재요청해야할 때, 범위를 지정해서 사용한다. 예를 들어 서버로부터 데이터를 절반 정도 받은 상태에서 끊겼을 때 처음부터 다시 받을 필요가 없기 때문에 이후 부분부터 받을 때 사용한다.

- Range: bytes=클라이언트가 요청한 데이터의 범위

- Content-Range: bytes 클라이언트가 요청한 데이터의 범위 / 전체 데이터의 길이

- Content-Length: 실제 전송된 데이터의 길이

올라와 있는 질문 정리

범위 전송에서 클라이언트가 어느 지점부터 다시 데이터를 이어서 받아야 하는지 어떻게 알 수 있을까? 예를 들어 파일을 다운로드 받을 때는 2가지의 과정을 거친다. 임시 저장소에 저장한 이후 다운로드가 완료되면 최종 디렉토리(사용자가 다운로드 받기로 결정한 경로)로 옮기게 된다.

 

만약 임시 저장소에 저장을 할 때 문제가 생긴 경우, 임시 파일이 아직 남아있는 상태이기 때문에 이 파일의 사이즈를 체크해서 이어받기를 시도한다.

 

일반 정보와 특별한 정보

<일반 정보>

출처: https://hseungyeon.tistory.com/446

 

From (요청)

유저 에이전트의 이메일 정보이다. 일반적으로 잘 사용하지는 않는다. 검색 엔진같은 곳에서 주로 사용한다고 한다.

Referer (요청)

현재 요청된 페이지의 이전 웹 페이지 주소이다. 정말 많이 사용하는 헤더이다. A라는 사이트에서 B라는 사이트로 이동하는 경우 B를 요청했다고 했을 때 Referer: A를 포함해서 요청한다. 이는 유입 경로 분석에 많이 사용한다.

 

참고로 단순히 referer만 가지고 유입경로 분석을 하기에는 변수가 너무 많아서 자바스크립트에 로그를 심거나 특별한 파라미터를 넘기는 등 서로 약속을 해서 진행한다. 그리고 Referer는 Referrer의 오타라고 한다.. (ㅋㅋ)

User-Agent (요청)

- 유저 에이전트 (클라이언트) 애플리케이션 정보이다. 웹 브라우저의 정보라고 생각하면 편하다. 보통 장애가 발생하는 브라우저를 파악하고나 통계 정보를 사용할 때 사용한다.

- ex) user-agent: Mozilla/5.0 (Macintosh; Intel Mac 어쩌구어쩌구)

Server (응답)

- 요청을 처리하는 Origin 서버의 소프트웨어 정보를 의미한다.

- Origin 서버는 실제로 응답을 보낸 서버를 의미한다. HTTP 요청을 보내게 되면 실제로 많은 프록시 서버를 거쳐서 응답을 받게 된다.

Date (응답)

- 메세지가 발생한 날짜와 시간

 

<특별한 정보>

출처: https://hseungyeon.tistory.com/446

 

Host (요청)

- 요청한 호스트 정보 (도메인)

- 필수적인 헤더라서 아주 중요하다!

- 하나의 서버가 여러 도메인을 처리해야 할 때(하나의 IP주소에 여러 도메인이 적용되어 있을 때) 사용한다.

 

Host 예제

[1] 가상 호스트를 통해 여러 도메인을 한 번에 처리할 수 있는 서버가 있다. IP가 200.200.200.2인 서버는 aaa.com, bbb.com, ccc.com 도메인을 처리할 수 있는 것이다.

 

[2] 만약에 클라이언트에서 Host를 지정하지 않고 서버에 /hello 요청을 보내는 경우, 서버에서는 /hello가 aaa.com, bbb.com, ccc.com 중 어떤 도메인에 관한 요청인지 구분을 할 수 없다. 왜냐햐면 IP로 통신을 하기 때문이다!!

 

[3] 클라이언트가 만약 aaa.com이라고 Host를 지정하고 서버에 /hello 요청을 보내게 되면 서버에서는 /hello가 Host의 aaa.com에 관한 요청인지 인지를 할 수 있게 된다.

 

Location (응답)

- 페이지 리다이렉션을 의미한다.

- 3XX(Redirection)의 Location 값: 요청을 자동으로 리다이렉션하기 위한 대상 리소스를 의미한다. (이동할 위치)

- 201 Created의 Location 값: 요청에 의해 생성된 리소스의 URI

Allow (응답)

- 허용 가능한 HTTP 메서드를 의미한다.

- 405 Method Not Allowed 에서 응답에 포함해야 한다.

- 서버에서 많이 구현되어 있지 않기 때문에 참고만 하자!

Retry-After

- 유저 에이전트가 다음 요청을 하기까지 기다려야 하는 시간을 의미한다.

- 503 Service Unavailable로 서비스가 언제까지 불능인지 알려줄 수 있다.

- 날짜 표기 및 초단위 표기 모두 가능하다.

올라와 있는 질문 정리

(1) 구글에서 hello를 검색하고 위키피디아에 들어가면 referer가 www.google.com/search?q=hello가 아닌 www.google.com인 이유는 무엇일까?

- 개인정보 보호를 위해 도메인을 제외한 추가 정보를 referer에서 지우고 제공할 수 있다. 구글의 검색 쿼리가 이에 해당한다.

 

(2) Host 예제에서 200.200.200.2 IP에 aaa.com, bbb.com, ccc.com 도메인을 사용한다는 것은 DNS 서버에 IP에 3개의 도메인이 등록되어 있다는 것인가?

- 강의에서 언급된 것은 가상호스트를 사용한 여러 도메인을 사용하는 것이다. 가상호스트와는 별개로 도메인을 여러개 구매한 뒤 도메인과 연결될 IP를 지정하게 되는데 이 때 여러개의 도메인을 하나의 서버로 바라보게 할 수 있다. 그리고 하나의 서버 내에서 도메인을 기준으로 서로 다른 서비스를 제공하려면 가상호스트 지정을 통해 도메인 별로 서로 다른 서비스를 제공하게 설정할 수 있다.


참고자료

- https://hseungyeon.tistory.com/445

 

[모든 개발자를 위한 HTTP 웹 기본 지식] 07. HTTP 헤더1(일반헤더) - 전송 방식

(인프런) 김영한님의 모든 개발자를 위한 HTTP 웹 기본 지식을 공부하고 리뷰한 글입니다. 4. 전송 방식 1. HTTP 메시지 전송 방식 1) 단순 전송 Content-Length 설정 - 데이터 전체를 한 번에 보낼 때 사용

hseungyeon.tistory.com