Hive 명령어

Hive 명령어 Hive 접속 Hive 마스터 노드에서 hive 를 통해서 접속! Hive LOAD DATA LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] [INPUTFORMA...

2022/03/28 hive

MLFlow on Kubernetes

MLFlow on Kubernetes 2022년 3월 MLFlow를 회사 쿠버네티스에 올린 경험을 정리합니다~ MLFlow MLFlow 란? MLFlow는 머신러닝의 실험이나 배포를 쉽게 관리할 수 있는 오픈 소스이다. 기존에 MLFlow가 없던 시절에는 연구일지에다가 Loss 측정해서 올리고 해당 베스트 모델들을 폴더에 구조화해서 정리하는 ...

2022/03/15 kubernetes

도커란?

도커와 쿠버네티스 이번 프로젝트를 진행하며 쿠버네티스에 대한 이해가 필요해져 사내 스터디를 진행한 적이 있다(아마 6~7월경에 마무리 했던것 같다). 당시 작성해둔 PT자료를 보며 복습도 하고 내 스스로 정리를 다시 해보고자 블로깅을 한다. P.S 이 글은 "시작하세요! 도커/쿠버네티스" 책을 보고 공부한 내용입니다. 도커란 무엇인가? 도커...

2021/09/23 docker

Chapter 10 - 스파크 SQL

Chapter 10 - Spark SQL Spark sql Spark sql은 DB에서 생성된 View나 Table에 SQL 질의문을 실행할 수 있으며 시스템 함수나 사용자 정의 함수를 사용할 수도 있다. Ansi-sql과 HiveQL을 모두 지원하는 자체 개발된 SQL Parser가 포함되어 있다. Spark sql과 Hive와의 ...

2021/04/30 Spark

Chapter 9 - 데이터 소스

Chapter 9 - 데이터 소스 JSON 파일 읽고 쓰기 spark.read.format('json').option('mode', 'FAILFAST')\ .option('inferSchema', 'true')\ .load('dir').show(5) csvFile.write.format('json').mode('overwr...

2021/04/30 Spark

Chapter 8 - 조인

Chapter 8 - 조인 inner_join joinExpression = person["graduate_program"] == graduateProgram['id'] joinDf = person.join(graduateProgram, joinExpression) ## or joinType = 'inner' joinExpression = per...

2021/04/29 Spark

Chapter 7 - 집계 연산

Chapter 7 - 집계 연산 집계 함수 함수 내용 count 로우 수 카운트 countDistinct 고유 레코드 수 approx_count_distinct 근사치 고유 레코드 수...

2021/04/28 Spark

Chapter 6 - 다양한 데이터 타입 다루기

Chapter 6 - 다양한 데이터 타입 다루기 불리언 타입 다루기 from pyspark.sql.functions import col ## equal df.where("InvoiceNo = 536365")\ .select("InvoiceNo", "Description")\ .show(5, False) ## not equal df.wher...

2021/04/27 Spark

Chapter 5 - 구조적 API 기본 연산

Chapter 5 - 구조적 API 기본 연산 Spark DataType - Python DataType 스파크 데이터 타입 파이썬 데이터 타입 데이터 타입 생성/접근용 API ByteType Int, long / (-2^8 ~ 2^8-1) ...

2021/04/26 Spark

MapReduce란?

MapReduce란? 맵리듀스는 간단한 단위작업을 반복하여 처리할 때 사용하는 프로그래밍 모델이다. 간단한 단위 작업을 처리하는 맵(Map) 작업과 맵 작업의 결과물을 모아서 집계하는 리듀스(Reduce) 단계로 구성된다. 맵, 리듀스 작업은 병렬로 처리가 가능한 작업으로, 여러 컴퓨터에서 동시에 작업을 처리하여 속도를 높일 수 있다. Ma...

2020/11/30 Hadoop

1
2
3
2 / 3

최근 업데이트