ORC 파일

스파크 2.3 버전부터 스파크는 새로운 ORC 파일 포맷과 함께 벡터화된 ORC 읽기 기능을 지원합니다. 이 기능을 위해 아래의 설정이 새로 추가되었습니다. spark.sql.orc.implnative 로 설정되어 있고 spark.sql.orc.enableVectorizedReadertrue로 설정된 경우, 네이티브 ORC 테이블(즉, 사용자가 USING ORC를 사용하여 생성한 테이블)에서 벡터화된 리더를 사용할 수 있습니다. Hive ORC SerDe 테이블(즉, 사용자가 USING HIVE OPTIONS (fileFormat 'ORC')를 사용하여 생성한 테이블)에서는 spark.sql.hive.convertMetastoreOrctrue로 설정하였을 때 벡터화된 리더를 사용할 수 있습니다.

속성 이름기본값의미
spark.sql.orc.impl native 사용할 ORC 구현체 이름. native 또는 hive를 사용할 수 있습니다. native는 아파치 ORC 1.4에 내장된 네이티브 ORC를 의미하며 hive는 Hive 1.2.1의 ORC 라이브러리를 의미합니다.
spark.sql.orc.enableVectorizedReader true native 구현체에서 벡터화된 ORC 읽기 기능을 활성화합니다. false인 경우, 벡터화되지 않은 ORC 리더를 사용합니다. hive 구현체에는 적용되지 않습니다.