excel 파일로 되어있던것을 tab으로 구분지어서 변경하기
탭으로 구분된 파일의 형태의 인코딩변경하기
$iconv -f cp949 -t utf-8 korean_dic.txt > korean_utf_dic.txt
참고 : iconv -l 을 사용하면 인코딩에 지원하는 모든 언어를 볼수 있다.
한글 파일들으 대부분 ECU_KR 또는 cp949 인것같지만, 인코딩이 어떤것으로 되어있는지 알수 있는 방법이 있을까???awk를 사용해서 필요한 데이터 파일 만들기
$awk -F '\t' '{print $1"\t"$3"\t"$11"\t"$16"\t"$18}' korean_utf_dic.txt
천천히 다시 해보자
1번까지를 진행하고 난후 \t를 | 로 변경하게 되면 아래와 같다.
어휘|구성 단위|고유어 여부|원어|어원|주표제어|부표제어|발음|활용|검색용 이형태|품사|공통 문형|의미 문형|공통 문법|의미 문법|뜻풀이|용례|범주|전문 분
야|속담|관용구|대역어|생물 분류군 정보|멀티미디어|관련 어휘^M
가(01)|단어|고유어||<_<_<용가>|||[가ː]|||"「명사」
"||"「1」
「2」
「3」
「4」
"||"「1」
「2」
「3」
「4」((일부 명사 뒤에 붙어))
"|"「1」경계에 가까운 바깥쪽 부분.
「2」어떤 중심 되는 곳에서 가까운 부분.
「3」그릇 따위의 아가리의 주변.
「4」‘주변’의 뜻을 나타내는 말.
"|"「3」참기름을 따를 때 가에 흘리지 않도록 조심해라.
「4」강가.
「4」냇가.
「4」우물가.
"|"「1」일반어
「2」일반어
「3」일반어
「4」일반어
"|||||||^M
가(02)|단어|고유어|||||[가]|||"「명사」
그래서 탭을 |로 변경
:%s /\t/|/g
\n을 없애고 ^M 이라는 구부자를 \n으로 변경해주면되는데 ..음 ...
우선 \n을 없앤다.
휘|구성 단위|고유어 여부|원어|어원|주표제어|부표제어|발음|활용|검색용 이형태|품사|공통 문형|의미 문형|공통 문법|의미 문법|뜻풀이|용례|범주|전문 분
야|속담|관용구|대역어|생물 분류군 정보|멀티미디어|관련 어휘^M가(01)|단어|고유어||<_<_<용가>|||[가ː]|||"「명사」"||"「1」「2」「3」「4」"||"「1」
「2」「3」「4」((일부 명사 뒤에 붙어))"|"「1」경계에 가까운 바깥쪽 부분.「2」어떤 중심 되는 곳에서 가까운 부분.「3」그릇 따위의 아가리의 주변.「4」‘주변’의 뜻을 나타내는 말."|"「3」참기름을 따를 때 가에 흘리지 않도록 조심해라.「4」강가.「4」냇가.「4」우물가."|"「1」일반어「2」일반어「3」일반어「
4」일반어"|||||||^M가(02)|단어|고유어|||||[가]|||"「명사」"||""||""|"서양 음악의 칠음 체계에서, 여섯 번째 음이름. 계이름 ‘라’와 같다."|""|"일반어"|"『음악』"||||||"의미동의어(2) : 아08(A), 에이05(A / a)"^M가(03)|단어|한자어|加|||가-하다||||"「품사 없음」"||""||""|"‘가하다01’의 어근."||"일반어"|||||||^M가(04)|단어|한자어|加||||[가]|||"「명사」"||""||""|"부여와 고구려에서, 족장이나 고관을 이르던 말. 본디 씨족이나 부족의 우두머리를 뜻하는 말
이었으나 국가의 발달과 함께 직명(職名)이 된 것으로, 부여의 마가ㆍ우가ㆍ구가ㆍ저가, 고구려의 대가ㆍ상가 따위가 있다."||"일반어"|"『역사』"||||||^M가(05)|단어|한자어|可|||가-하다|[가ː]|||"「명사」"||"「1」「2」「3」「4」"||"「1」「2」「3」「4」"|"「1」옳거나 좋음.「2」회의 따위에서, 어떤 안건에 대
하여 표결을 할 때 찬성하는 의사 표시.「3」성적이나 등급을 ‘수, 우, 미, 양, 가’의 다섯 단계로 나눌 때 가장 낮은 단계.「4」어떤 행위가 허용되거나 가능
함 또는 좋음을 이르는 말."|"「1」이 사람 말도 가요, 저 사람 말도 가요 하면 도대체 어떤 사람 말을 따라야 합니까?「2」의원 여러분께서는 본 안건에 대해
가인지 부인지를 결정해 주시기 바랍니다.「3」다른 과목들은 성적이 괜찮은 편인데, 체육만 가를 받았다.「4」연소자 관람 가.「4」분할 상환 가."|"「1」일
반어「2」일반어「3」일반어「4」일반어"|"「3」『교육』"||||||"의미반대말(2) : 「2」 부07「2」(否), 「4」 불가01「2」(不可)"^M가(06)|단어|한자어|枷||||[가]|||"「명사」"||""||""|"죄인에게 씌우던 형틀. 두껍고 긴 널빤지의 한끝에 구멍을 뚫어 죄인의 목을 끼우고 비녀장을 질렀다."||"일반어"|"『역사』"||||||"의미동의어(1) : 칼02"^M가(07)|단어|한자어|家||||[가]|||"「명사」"||""||""|"예전에, 같은 호적에 들어 있는 친족 집단을 이르던 말."|"성구는 그 대>목에서 묘하게 처절해지는 버릇이 있었다. 외할머니 교하댁의 집에 대한 소문난 집착을 가를 잇고자 하는 맹목적 집념과 동일시하려는 그 나름의 시각 때문이>었다."|"일반어"|"『사회 일반』"||||||^M
없애면 ^M만 이제 새로운 라인으로 변경해주면된다.
:%s/<Ctrl-V><Ctrl-M>/\r/g
을 사용해서 ^M을 변경해주었다
\n으로 행을 변경하는줄알았는데, \r 이 줄을 변경해주는것이다.
결과는 다음과 같다.
1 어휘|구성 단위|고유어 여부|원어|어원|주표제어|부표제어|발음|활용|검색용 이형태|품사|공통 문형|의미 문형|공통 문법|의미 문법|뜻풀이|용례|범주 >
전문 분야|속담|관용구|대역어|생물 분류군 정보|멀티미디어|관련 어휘
2 가(01)|단어|고유어||<_<_<용가>|||[가ː]|||"「명사」"||"「1」「2」「3」「4」"||"「1」「2」「3」「4」((일부 명사 뒤에 붙어))"|"「1」경계에 가 까운 바깥쪽 부분.「2」어떤 중심 되는 곳에서 가까운 부분.「3」그릇 따위의 아가리의 주변.「4」‘주변’의 뜻을 나타내는 말."|"「3」참기름을 따를 때 가에 흘리지 않도록 조심해라.「4」강가.「4」냇가.「4」우물가."|"「1」일반어「2」일반어「3」일반어「4」일반어"|||||||
3 가(02)|단어|고유어|||||[가]|||"「명사」"||""||""|"서양 음악의 칠음 체계에서, 여섯 번째 음이름. 계이름 ‘라’와 같다."|""|"일반어"|"『음악』"|||| ||"의미동의어(2) : 아08(A), 에이05(A / a)"
4 가(03)|단어|한자어|加|||가-하다||||"「품사 없음」"||""||""|"‘가하다01’의 어근."||"일반어"|||||||
5 가(04)|단어|한자어|加||||[가]|||"「명사」"||""||""|"부여와 고구려에서, 족장이나 고관을 이르던 말. 본디 씨족이나 부족의 우두머리를 뜻하는 말이> 었으나 국가의 발달과 함께 직명(職名)이 된 것으로, 부여의 마가ㆍ우가ㆍ구가ㆍ저가, 고구려의 대가ㆍ상가 따위가 있다."||"일반어"|"『역사』"||||||
6 가(05)|단어|한자어|可|||가-하다|[가ː]|||"「명사」"||"「1」「2」「3」「4」"||"「1」「2」「3」「4」"|"「1」옳거나 좋음.「2」회의 따위에서, 어떤 안건에 대하여 표결을 할 때 찬성하는 의사 표시.「3」성적이나 등급을 ‘수, 우, 미, 양, 가’의 다섯 단계로 나눌 때 가장 낮은 단계.「4」어떤 행위가 허용되거나 가능함 또는 좋음을 이르는 말."|"「1」이 사람 말도 가요, 저 사람 말도 가요 하면 도대체 어떤 사람 말을 따라야 합니까?「2」의원 여러분 께서는 본 안건에 대해 가인지 부인지를 결정해 주시기 바랍니다.「3」다른 과목들은 성적이 괜찮은 편인데, 체육만 가를 받았다.「4」연소자 관람 가.> 「4」분할 상환 가."|"「1」일반어「2」일반어「3」일반어「4」일반어"|"「3」『교육』"||||||"의미반대말(2) : 「2」 부07「2」(否), 「4」 불가01「2>
」(不可)"
이제 구분자 | 를 사용하여 필요한 정보만 가지고 와보자
$ awk -F '|' '{print $1"|"$3"|"$11"|"$16"|"$18}' korean4.txt > filter_korean5.txt
마지막 전처리한 결과는 다음과 같다.
1 어휘|고유어 여부|품사|뜻풀이|범주
2 가(01)|고유어|"「명사」"|"「1」경계에 가까운 바깥쪽 부분.「2」어떤 중심 되는 곳에서 가까운 부분.「3」그릇 따위의 아가리의 주변.「4」‘주변’의 >
뜻을 나타내는 말."|"「1」일반어「2」일반어「3」일반어「4」일반어"
3 가(02)|고유어|"「명사」"|"서양 음악의 칠음 체계에서, 여섯 번째 음이름. 계이름 ‘라’와 같다."|"일반어"
4 가(03)|한자어|"「품사 없음」"|"‘가하다01’의 어근."|"일반어"
5 가(04)|한자어|"「명사」"|"부여와 고구려에서, 족장이나 고관을 이르던 말. 본디 씨족이나 부족의 우두머리를 뜻하는 말이었으나 국가의 발달과 함께 >
직명(職名)이 된 것으로, 부여의 마가ㆍ우가ㆍ구가ㆍ저가, 고구려의 대가ㆍ상가 따위가 있다."|"일반어"
6 가(05)|한자어|"「명사」"|"「1」옳거나 좋음.「2」회의 따위에서, 어떤 안건에 대하여 표결을 할 때 찬성하는 의사 표시.「3」성적이나 등급을 ‘수, 우 , 미, 양, 가’의 다섯 단계로 나눌 때 가장 낮은 단계.「4」어떤 행위가 허용되거나 가능함 또는 좋음을 이르는 말."|"「1」일반어「2」일반어「3」일반 어「4」일반어"
7 가(06)|한자어|"「명사」"|"죄인에게 씌우던 형틀. 두껍고 긴 널빤지의 한끝에 구멍을 뚫어 죄인의 목을 끼우고 비녀장을 질렀다."|"일반어"
8 가(07)|한자어|"「명사」"|"예전에, 같은 호적에 들어 있는 친족 집단을 이르던 말."|"일반어"
'BackEnd > ElasticSearch' 카테고리의 다른 글
Elasticsearch 모니터링 툴 설치 (0) | 2019.07.30 |
---|---|
사전 만들기 프로젝트(3)-전처리된 데이터를 삽입해보자 (0) | 2019.06.29 |
사전 만들기 프로젝트(1) - 데이터 다운로드 및 template 만들기 (0) | 2019.06.29 |
[Elasticsearch] failed to obtain node locks (0) | 2019.06.21 |
SuggestAPI 소개 (0) | 2019.06.10 |