Category (227) 썸네일형 리스트형 [2주차 스터디 노트] 프로세스, 프로세스의 메모리 구조, 문맥 교환 프로그램과 프로세스 프로그램은 저장장치에 존재하는 컴파일된 코드의 집합이다. 이것이 실행되기 전까지는 그저 저장장치에 존재되는 데이터에 불과하지만, OS에서 명령을 받아 메모리에 적재하게 되면 그때부터는 운영체제의 관리를 받으며 CPU 자원을 통해 동작하는 '프로세스' 가 된다. 프로세스는 CPU 자원을 사용하고 운영체제의 관리를 받으며, 프로그램 코드를 실제로 실행하는 동적인 개체 이중 눈에 보이지 않는 백그라운드 프로세스를 유닉스 체계의 운영체제에서는 데몬(daemon)이라고 부르고, 윈도우 운영 체제에서는 서비스라고 부른다. 프로그램은 어떤 과정을 거쳐 메모리에 적재되는가? 프로그램이 메모리에 적재되는 일반적인 과정 1. 프로그램 실행 요청: 특정 프로그램을 실행하라는 명령을 운영체제에 전달 2. .. [ElasticSearch] 최종 인덱스, 중복 문제와 오탈자 검색의 고민 인덱스 최종 수정 기존에는 필터 유무로 인덱스를 나눴는데. 이는 매우 비효율적인 짓이었다. 그냥 커스텀 분석기를 하나 추가하고, 하나의 인덱스에 적용하면 된다. 특히 match_term 등의 토큰화 과정에서만 2글자 이상 토크나이징 분석기를 사용하면 될 것이다. 그리고 후에 설명할 로직으로 인해 ngram 분석기를 추가하였다. reindex 효율적으로 사용하기 와중에 데이터를 마이그레이션하는 과정에서 reindex가 timeout되는 것을 확인했다. 이는 큰 사이즈의 데이터일 경우 kibana에서 일정 시간 이상 할당한 경우 자체적으로 block하는 것으로 보인다. POST _reindex { "source": { "index": "scrap_wiki_limited_term_length_1109", "s.. 2606 바이러스[S3] 문제 https://www.acmicpc.net/problem/2606 2606번: 바이러스 첫째 줄에는 컴퓨터의 수가 주어진다. 컴퓨터의 수는 100 이하인 양의 정수이고 각 컴퓨터에는 1번 부터 차례대로 번호가 매겨진다. 둘째 줄에는 네트워크 상에서 직접 연결되어 있는 컴퓨터 쌍 www.acmicpc.net 신종 바이러스인 웜 바이러스는 네트워크를 통해 전파된다. 한 컴퓨터가 웜 바이러스에 걸리면 그 컴퓨터와 네트워크 상에서 연결되어 있는 모든 컴퓨터는 웜 바이러스에 걸리게 된다. 예를 들어 7대의 컴퓨터가 과 같이 네트워크 상에서 연결되어 있다고 하자. 1번 컴퓨터가 웜 바이러스에 걸리면 웜 바이러스는 2번과 5번 컴퓨터를 거쳐 3번과 6번 컴퓨터까지 전파되어 2, 3, 5, 6 네 대의 컴퓨터는 .. 1107 리모컨[G5] 문제 https://www.acmicpc.net/problem/1107 1107번: 리모컨 첫째 줄에 수빈이가 이동하려고 하는 채널 N (0 ≤ N ≤ 500,000)이 주어진다. 둘째 줄에는 고장난 버튼의 개수 M (0 ≤ M ≤ 10)이 주어진다. 고장난 버튼이 있는 경우에는 셋째 줄에는 고장난 버튼이 www.acmicpc.net 수빈이는 TV를 보고 있다. 수빈이는 채널을 돌리려고 했지만, 버튼을 너무 세게 누르는 바람에, 일부 숫자 버튼이 고장났다. 리모컨에는 버튼이 0부터 9까지 숫자, +와 -가 있다. +를 누르면 현재 보고있는 채널에서 +1된 채널로 이동하고, -를 누르면 -1된 채널로 이동한다. 채널 0에서 -를 누른 경우에는 채널이 변하지 않고, 채널은 무한대 만큼 있다. 수빈이가 지금 .. [정리]analyzer를 사용한 수집 정보의 유사성 계산 요약 0. 수집 데이터는 기존 데이터와 완벽 매칭되는 것이 아닌 부분 데이터 검색 결과값이다. 1차 개선 : null 배제 후 유의미한 데이터 포집 2차 개선 : 유의미 데이터 중 overview - wiki_title 매칭하여 용어 변수 비교 (동음이의어, 잘못된 설명 제거로 신뢰성 향상) 3차 개선 : attraction_name - wiki_title의 매칭 값을 기존 결과(match_term에) 보정 값으로 추가 (상위 데이터셋 중 임의 데이터 200개 수기 분석 후 보정치 적용) 이를 통해 용어 일치 비율이 20% 이상 되는 값을 신뢰성 있는 데이터로 판단하여 제공하였다. 이를 도식화한다면 다음과 같다. 최초 문제 상황 현재 기본 공공데이터 API의 지명 이름(attraction_name)과, .. 가볍게 알아보는 인덱스와 성능에 대해(개선예정) 인덱스? DataBase 분야에서 Table에 대한 동작 속도를 높여주는 자료구조. 마치 책갈피처럼, 인덱스를 설정하면 빠르게 색인을 할 수 있도록 도와준다. 인덱스의 구조 key, file, data에 맞추어 세개의 종류가 존재한다고 한다. 1. Clustered Index 대표적으로 PK 인덱스가 있다. 2. NonClustered Index 일반적인 인덱스를 지칭하며, 여러 개를 지정할 수 있다. 하지만 클러스터와 달리 줄을 세우는 느낌은 아니다. 실습(Clustered Index) alter table TBL_CODE add primary key(CODE) PK 테이블을 설정할 경우 CODE에 따라 자동 정렬된다. 클러스터드 인덱스의 특징인 줄세우기가 바로 나타남을 확인할 수 있다. 실습(Nonc.. ES 서버 Nginx 설정(xpack 보안 설정) 문제 보안 이슈로 계정을 추가하고, yml에 xpack을 추가한 이후, 스프링부트에서 연동이 되지 않는다. 이는 내 서버가 https가 적용되지 않았기 때문이다. 기존 springboot 연동 urls는 http로 시작했다. Nginx 설치 https://gist.github.com/woorim960/dda0bc85599f61a025bb8ac471dfaf7a [Nginx를 이용하여 https 적용하는 법 Nginx를 이용하여 https 적용하는 법. GitHub Gist: instantly share code, notes, and snippets. gist.github.com](https://gist.github.com/woorim960/dda0bc85599f61a025bb8ac471dfaf7a) con.. [Elasticsearch] 여행지 정보 키워드 추출, 집계 프로젝트 진행 중 가장 큰 고민은, 단순 match가 아닌, 어떻게 하면 정보를 정확하고 유사하게 뿌려줄까? 라는 고민이었다. attraction_name : 가장 높은 가산치를 줘야 할 것 같다. wiki_title match 점수 공공데이터의 description : 그 다음 높은 가산치 wiki의 description : 낮은 가산치 검색어가 있을 것이다. 단일 검색어든 뭐든.. 일단 content_id로 한번에 묶으려고 한다. 검색어가 '서울 남산공원' 이라면 우리의 데이터는 '서울' 과 '남산공원' 이 같은 contend_id로 묶여있기 때문. 이 content_id는 기본 베이스인 공공데이터의 id 번호이다 script를 써야 할 것 같은데, 먼저 content_id로 묶을 것이다. 여러 Do.. 이전 1 ··· 18 19 20 21 22 23 24 ··· 29 다음