Spark操作ElasticSearch

来源：互联网发布：满清剃发知乎编辑：程序博客网时间：2024/06/06 07:01
import org.elasticsearch.spark._

def main(args: Array[String]): Unit = {  
val conf = new SparkConf().setMaster("local").setAppName("ScalaSparkElasticSearch") 
 /**    
* 根据es官网的描述，集成需要设置：   
 *   es.index.auto.create--->true   
 *  我们要去连接es集群，要设置es集群的位置(host, port)   
 */ 
 conf.set("es.index.auto.create", "true")  
 conf.set("es.nodes", "master")
//---->如果是连接的远程es节点，该项必须要设置  
conf.set("es.port", "9200") 
 val sc = new SparkContext(conf)  
//write2ES(sc)  
readFromES(sc)  sc.stop()
}

def readFromES(sc:SparkContext): Unit = { 
 val resource = "spark-es/account"  

/**   从ES中读取出来的数据的Tuple2  
  * Tuple2._1--->es中该条记录的标识id    
* Tuple2._2--->es中该条记录的内容   
 */ 
 val accountRDD = sc.esJsonRDD(resource)  
  accountRDD.foreach(t => println(t._1 + "=== " + t._2))}
def write2ES(sc:SparkContext): Unit = {  
   val aLinesRDD = sc.textFile("E:/test/spark/sql/account.json").collect()
 //--->使用一个普通sparkContext来进行操作  
 /**  resource    
 * 指的是数据在rs中的存放的位置，由index/type(格式) 共同组成   
 */ 
  val resource = "spark-es/account"  
  sc.makeRDD(aLinesRDD).saveJsonToEs(resource)
}
0 0