data
-
인덱스 샤드 설정에 대해Elasticsearch 2025. 3. 22. 02:04
유튜브 데이터에 특화된 분석기가 업데이트되어 데이터를 재색인 해야하는 일이 생겼다. 이로인해 새로운 인덱스를 생성해야 했는데이 과정에서 샤드를 어느정도 설정해야 이상적일까에 대해 생각해보았다. 사용환경 : 크론탭유튜브 데이터의 하루 색인량은 약 1000건이며 기능 명세상 사용자 쿼리에 의해 업데이트되는 기능은 아니다. Elasticsearch Shard에 대해Elasticsearch 쿼리는 샤드당 단일 스레드로 실행된다. 각각의 Shard는 Lucene 인덱스의 인스턴스이며 Lucene 인덱스는 내부적으로 다수의 세그먼트로 구성되어 있다.노드가 더 많은 힙공간을 가질수록 처리할 수 있는 데이터와 샤드가 늘어난다.시계열 데이터 기준 적정 샤드 크기는 10GB~50GB이다. 하나의 노드에 저장할 수 ..
-
NiFi Index to Index Data PipelineNiFi 2024. 11. 20. 21:12
오늘은 Nifi 데이터 파이프라인을 소개하려고 합니다! NiFi는 Attribute, Content로 이루어진 FlowFile을 활용하며, 직관적으로 파악할 수 있는 UI 제공과 코드 없이도 기존 프로세서를 사용하여 데이터 파이프라인을 개발할 수 있습니다. (기존 프로세서 외에도 Jar, Nar 파일을 프로세서로 실행시킬 수도 있습니다.)제가 소개할 NiFi를 통한 목표는 아래와 같습니다. 목표인덱스 to 인덱스 데이터 색인 (Reindex 과정)- search_after 사용- Bulk API 사용제약사항- Query를 날릴 수 있어야 함- 중복 불가 구성 환경NiFi 1.27.0Linux Centos필자의 경우 해당 프로세스를 사용하기 전에 SSL 설정, Key를 발급받아 Variables에 저장해둔..