'BackEnd/kafka' 카테고리의 글 목록

BackEnd/kafka

Message Bus & Message Queue 2019.09.14
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(5) 2019.08.24
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(4) 2019.08.17
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(3) 2019.08.17
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(2) 2019.08.17
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(1) 2019.08.17
kafka 설치 2019.08.01
kafka 개념 2019.07.31

Message Bus & Message Queue

아이스크린 2019. 9. 14. 15:02

2019. 9. 14. 15:02

Message Bus & Message Queue

Message Queue 와 Message Bus의 차이

Message Queue

두 개 이상의 프로세스 가 공통 시스템 메시지 큐에 대한 액세스를 통해 정보를 교환

하나 이상의 어플리케이션에서 만들어진 데이터들을 FIFO 방식으로 사용될수 있다.

A,B,C 의 어플리케이션이 있을경우에는 각 어플리케이션 마다 별도의 메세지 큐가 추가된다.

메세지는 일반적으로 읽을때 삭제되므로 여러 다른 종속응용 프로그램간에 대기열을 공유하는것이 일반적이지 않다.

일반적으로는 메시지 큐와 종속 응용프로그램 간에는 1:1 의 통신 관계가 있다.

Message Bus

다른 시스템이 통해 통신 할 수 있도록 메시징 인프라 인터페이스를 공유 세트 ( 메시지 버스 ).

메시지 버스 또는 서비스 버스는 하나 또는 그 이상의 응용프로그램이 하나 이상의 다른 응용 프로그램에 메시지를 전달하는 방법을 제공

선입 선출의 주문이 보장 되지 않을 수 있으며, 버스 가입자는 메시지 발신자의 지식 없이도 출입이 가능하다.

보내는 응용 프로그램이 모든 큐에 메시지를 명시적으로 추가하는 큐와 달리 메세지를 게시 하면 버스로 보내고, 버스에 연결된 어플리케이션들이 메시지를 각자 가지고가는 방식

참고

https://ardalis.com/bus-or-queue

https://stackoverflow.com/questions/7793927/message-queue-vs-message-bus-what-are-the-differences

저작자표시 비영리 (새창열림)

'BackEnd > kafka' 카테고리의 다른 글

인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(5) (0)	2019.08.24
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(4) (0)	2019.08.17
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(3) (0)	2019.08.17
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(2) (0)	2019.08.17
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(1) (0)	2019.08.17

Message Bus & Message Queue (0)	2019.09.14
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(4) (0)	2019.08.17
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(3) (0)	2019.08.17
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(2) (0)	2019.08.17
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(1) (0)	2019.08.17

Message Bus & Message Queue (0)	2019.09.14
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(5) (0)	2019.08.24
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(3) (0)	2019.08.17
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(2) (0)	2019.08.17
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(1) (0)	2019.08.17

kafka 설치

아이스크린 2019. 8. 1. 14:08

2019. 8. 1. 14:08

kafka 설치

카프카 프로듀서, 브로커, 컨슈머, 주키퍼로 분류

이전에 jdk가 설치 되어 있어야 한다.

Zookeeper 설치

$wget https://archive.apache.org/dist/zookeeper/zookeeper-3.4.8/zookeeper-3.4.8.tar.gz

주키퍼는 서버 여러대를 클러스터로 구성하고, 분산 애플리케이션들이 각각 클라이언트가 되어 주키퍼 서버들과 커넥션을 맺은후, 상태 정보를 주고받음

상태정보들은 znode라 불리는곳에 key-value형태로 저장

znode에 key-value형태로 저장된 것을 이용하여 분산 애플리케이션들은 서로 데이터를 주고 받음

znode는 데이터를 저장하기 위한 공간의 이름으로 컴퓨터의 파일이나 폴더의 개념

znode에 저장하는 데이터 크기는 byte에서 kilobyte정도로 매우 작음

디렉토리와 비슷한 형태로 자식노드를 가지고 있는 계층형으로 구성

지노드는 데이터 변경 등에 유효성 검사 등을 위해 버전 번호를 관리, 데이터가 변경될 때마다 지노드의 번호가 증가

주키퍼에 저장되는 데이터는 모두 메모리에 저장되어 처리량이 크고 속도도 빠르다.

주키퍼는 별도의 디렉토리를 사용

디렉토리에는 지노드의 복사본인 스냅샷과 트랜잭션 로그들이 저장

(지노드의 변경이 일어나면 트랜잭션 로그에 추가 됨) 로그가 어느정도 커지면 모든 지노드의 상태 스탭샷이 파일시스템에 저장

주키퍼 설치시에 위와 같은 스냅샷과 트랜잭션을 저장할 디렉토리가필요

$mkdir -p ~/zdata

주키퍼 노드를 구분 하기 위한 id를 만들어야한다.

zookeeper에서는 myid라고 부르며 정수 형태로 만들어주면된다.

$cd ~/zdata
$echo 1 > myid

다른 주키퍼 아이디들도 myid를 각자 붙여준다.

Zookeeper_home/config/zoo.cfg 파일

# The number of milliseconds of each tick 주키퍼가 사용하는 시간에 대한 기본측정단위
tickTime=2000
# The number of ticks that the initial 
# synchronization phase can take 초기 연결하는 시간에 대한 타임아웃 tick의 수 
initLimit=10
# The number of ticks that can pass between 
# sending a request and getting an acknowledgement 팔로워가 리더와 동기화 하는 시간에 대한 타임아웃 tick의 수 
syncLimit=5
# the directory where the snapshot is stored.
# do not use /tmp for storage, /tmp here is just 
# example sakes. 주키퍼 트랜잭션 로그와 스냅샷이 저장되는 데이터 저장경로
dataDir=/home/morriskim/kafka/data
# the port at which the clients will connect 주키퍼 TCP 사용 포트
clientPort=2181
...
server.1=localhost:2888:3888 // 주키퍼 앙상블을 위산 서버 설정, server.id 형식으로 사용

여기서 아이디를 잘 기억해야하는데 이 아이디는 서버의 id로 !!

2888포트와 3888포트는 노드끼리 연결하고, 리더 선출에 사용됨

Zookeeper 실행

$zkServer.sh start

service 등록해서 실행도 가능

Kafka 설치

$wget http://apache.mirror.cdnetworks.com/kafka/2.1.0/kafka_2.11-2.1.0.tgz

$./kafka-topics.sh --topic morris --create --zookeeper 127.0.0.1:2181 --partitions 1 --replication-factor 1

OpenJDK 64-Bit Server VM warning: If the number of processors is expected to increase from one, then you should configure the number of parallel GC threads appropriately using -XX:ParallelGCThreads=N
Created topic "morris".

Producer

[morriskim@localhost bin]$ ./kafka-console-producer.sh --broker-list localhost:9092 --topic morris
OpenJDK 64-Bit Server VM warning: If the number of processors is expected to increase from one, then you should configure the number of parallel GC threads appropriately using -XX:ParallelGCThreads=N
>hi
>are you there?
>

consumer

[morriskim@localhost bin]$ ./kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic morris --from-beginning
OpenJDK 64-Bit Server VM warning: If the number of processors is expected to increase from one, then you should configure the number of parallel GC threads appropriately using -XX:ParallelGCThreads=N
hi
are you there?

저작자표시 비영리 (새창열림)

'BackEnd > kafka' 카테고리의 다른 글

인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(4) (0)	2019.08.17
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(3) (0)	2019.08.17
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(2) (0)	2019.08.17
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(1) (0)	2019.08.17
kafka 개념 (0)	2019.07.31

kafka 개념

아이스크린 2019. 7. 31. 23:07

2019. 7. 31. 23:07

메세징 시스템

메세지라고 불리는 데이터 단위를 보내는 측(publisher 또는 producer)에서 카프카에 토픽이라는 각각의 메시지 저장소에 저장하면 가져가는 측(subscribe, 컨슈머) 이 원하는 토픽에서 데이터를 가져가세 되어있음

중앙에서 메세징시스템서버를 두고 이렇게 메세지를 보내고 받는 형태의 통신을 펍섭 모델이라고 한다.

비동기 메시징 전송 방식으로 발신자의 메세지에는 수신자가 정해져 있지 않는 상태로 발행. 구독을 신청한 수신자만이 정해진 메시지를 받을수 있다.
수신자는 발신자 정보가 없어도 원하는 메시지만을 수신할 수 있다. 이러한 구조 덕분에 다이나믹한 네트워크 토폴로지와 높은 확장성을 확보 할 수 있다.

다대다 통신이 아니라 메시징 시스템을 중심으로 연결되기 때문에 확장성이 용이하다.

교환기의 룰에 의해서 데이터가 수신처의 큐에 정확하게 전달되므로 메시지 데이터 유실의 염려가 없다.

다만 펍섭의 단점은 직접 통신을 하지 않기 때문에 메시지가 정확하게 전달되었는지 확인하려면 코드가 좀더 복잡해지고, 중간에 메시징 시스템이 있기 때문에 메시지 전달 속도가 빠르지 않다는점

원래 pub/sub 모델은 대규모 데이터를 전달하는것보다 간단한 이벤트를 서로 전송하는데 주로 사용됨. 왜냐하면, 큐관리, 큐에 전달되고 가져가는 메시지의 정합성, 전달결과를 정확하게 관리하기 위한 내부 프로세스가 아주 다양하고 복잡하기 때문.

기존의 메시지 시스템은 메시지 보관, 교환, 전달과정에서 신뢰성을 보장하는 것을 중점으로 맞췄기 때문에 속도와 용량은 크게 중요하지않았음.

Kaka는 메세징 시스템이 지닌 성능의 단점을 극복 하기 위해

메시지 교환전달의 신뢰성을 프로듀서와 컨슈머쪽으로 넘기고, 부하가 많이 걸리는 교환기 기능 역시, 컨슈머가 만들수 있게 함으로써 메시징 시스템내에서 작업량을 줄이고, 이렇게 절약한 작업량을 메시징 전달 성능에 집중시켜서 고성능 메시징 시스템을 만들었음.

프로듀서와 컨슈머는 각자의 역할이 정확히 구분됨
기존 메시징 시스템과 동일한 비동기 시스템

메세지 전달 순서

프로듀서는 새로운 메세지를 카프카로 보냄
프로듀서가 보낸 매시지는 카프카에 컨슈머 큐에 도착해 저장됨
컨슈머는 카프카 서버에 접속하여 새로운 메시지를 가져간다.

카프카의 특징

프로듀서와 컨슈머의 분리

각 서비스 서버들은 모니터링이나 분석 시스템의 상태 유무와 관계 없이 카프카로 메시지를 보내는 역할만 하면되고, 마찬가지로, 분석 시스템들의 서비스들의 상태 유무와 관계 없이 카프카에 저장되어 있는 메시지만 가져 오면 된다.

웹서버나 다른 것이 추가 되더라도 카프카로만 보내면 되기 떄문에 서버 추가에 대한 부담도 줄일 수 있는 장점이 있다.

멀티 프로듀서, 멀티 컨슈머

카프카는 하나의 토픽에 여러 프로듀서 또는 컨슈머들이 접근 가능한 구조로 되어있다.

하나의 프로듀서가 하나의 토픽에만 메시지를 보내는 것이 아니라, 하나 또는 하나 이상의 토픽으로 메시지를 보낼 수 있다.

디스크에 메시지 저장

카프카가 기존의 메시징 시스템과 가장 다른특징 중 하나는 바로 디스크에 메시지를 저장하고 유지하는 것.

일반적인 메시징 시스템들은 컨슈머가 메시지를 읽어가면 큐에서 바로 메시지를 삭제한다.

카프카는 컨슈머가 메시지를 읽어가더라도 정해져 있는 보관 주기 동안 디스크에 메시지를 저장해둠

(컨슈머의 처리가 늦어지더라도 카프카의 디스크에 안전하게 보관되어 있기 때문에 메시지 손실 없이 가져갈 수 있다.)

확장성

카프카는 확장이 매우 용이하도록 설계

카프카 클러스터는 3대의 브로커로 시작해 수십 대의 브로커로 확장 가능하다.

높은 성능

고성능을 유지 하기 위해 카프카는 내부적으로 분산 처리, 배치 처리 등 다양한 기법을 사용

용어 정리

Kafka : 아파키 프로젝트 애플리케이션 이름, 클러스터 구성이 가능하며, 카프카 클러스터라고 부름

Broker : 카프카 애플리케이션이 설치 되어 이는 서버 또는 노드를 말한다.

Topic : 프로듀서와 컨슈머들이 카프카로 보낸 자시들의 메시지를 구분 하기 위한 네임으로 사용한다.

많은 수의 프로듀서, 컨슈머들이 동일한 카프카 를 이용하면, 메시지들이 서로 섞이는데, 토픽이라는 이름으로 구분하여 사용하게 됩니다.

Partition : 병렬처리가 가능하도록 토픽을 나눌 수 있고, 많은 양의 메시지 처리를 위해 파티션의 수를 늘려줄 수 있다.

Producer : 메시지를 생산하여 브로커의 토픽이름으로 보내는 서버 또는 애플리케이션등을 말한다.

Consumer : 브로커의 토픽이름으로 저장된 메시지를 가저가는 서버 또는 애플리케이션

저작자표시 비영리 (새창열림)

'BackEnd > kafka' 카테고리의 다른 글

인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(4) (0)	2019.08.17
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(3) (0)	2019.08.17
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(2) (0)	2019.08.17
인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(1) (0)	2019.08.17
kafka 설치 (0)	2019.08.01

PREV 이전 1 NEXT 다음

기본이 제일 중요해!!

BackEnd/kafka

Message Bus & Message Queue

'BackEnd > kafka' 카테고리의 다른 글

인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(5)

'BackEnd > kafka' 카테고리의 다른 글

인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(4)

'BackEnd > kafka' 카테고리의 다른 글

인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(3)

'BackEnd > kafka' 카테고리의 다른 글

인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(2)

'BackEnd > kafka' 카테고리의 다른 글

인기 검색어 순위 만들기 (Kafka Spark Dstreaming)-(1)

'BackEnd > kafka' 카테고리의 다른 글

kafka 설치

'BackEnd > kafka' 카테고리의 다른 글

kafka 개념

'BackEnd > kafka' 카테고리의 다른 글

+ Recent posts

티스토리툴바