Spark Streaming:TCP(基本类型)数据源
来源:互联网 发布:黑暗之魂3捏御姐数据 编辑:程序博客网 时间:2024/05/16 19:43
1 简介
在Spark Streaming的数据源中,TCP的Sockt流和文件流是支持的基本数据流,在官方文档中http://spark.apache.org/docs/1.1.0/streaming-programming-guide.html#input-dstreams,通过如下方式演示了Spark Streaming从TCP接收数据流的情况,如下
- 在一个命令行中执行如下操作
# TERMINAL 1:# Running Netcat$ nc -lk 9999hello world...
以上命令是将hello world发送到本地端口9999
- 在另一个命令行中执行如下操作
# TERMINAL 2: RUNNING NetworkWordCount or JavaNetworkWordCount$ ./bin/run-example streaming.NetworkWordCount localhost 9999...-------------------------------------------Time: 1357008430000 ms-------------------------------------------(hello,1)(world,1)...`
以上命令是Spark Streaming从本地端口9999接受数据hello word并处理
2 实现自己的nc
nc是系统自带的工具,在此不述及,下面将调用系统的Socket实现自己的TCP数据服务,代码如下
#include <sys/socket.h>#include <stdlib.h>#include <arpa/inet.h>#include <string.h>#include <stdio.h>#include <time.h>#include <unistd.h>#include <assert.h>#include <iostream>using namespace std;int main(int argc, char** argv){ time_t ticks; char buff[2048]; int socket_id; //1 定义套接口 socket_id = socket(AF_INET, SOCK_STREAM, 0); if(socket_id < 0) { cout << "socket failed." << endl; assert(-1); } //2 给套接口绑定协议地址 struct sockaddr_in ser_addr, cli_addr; bzero(&ser_addr, sizeof(ser_addr)); ser_addr.sin_family = AF_INET; //ser_addr.sin_addr.s_addr = htonl(INADDR_ANY); inet_aton("localhost",(in_addr*)&ser_addr.sin_addr.s_addr); ser_addr.sin_port = htons(9999); int bind_id = bind(socket_id, (struct sockaddr*)&ser_addr, sizeof(ser_addr)); if(bind_id < 0) { cout << "bind failed." << endl; assert(-1); } //3 建立监听 int listen_id = listen(socket_id, 1000); if(listen_id < 0) { cout << "listen failed." << endl; assert(-1); } //4 接受连接 int accept_id; socklen_t cli_len; while((accept_id = accept(socket_id, (struct sockaddr*)&cli_addr, &cli_len)) > 0) { printf("connection from %s, port %d\n", inet_ntop(AF_INET, &cli_addr.sin_addr, buff, sizeof(buff)), ntohs(cli_addr.sin_port)); while(fgets(buff, 2048, stdin)) { write(accept_id, buff, strlen(buff)); } close(accept_id); } return 0;}
假设以上代码编译的二进制文件为tcp_source,在命令行中输入如下命令
# TERMINAL 1:# Running Netcat$ tcp_source 9999hello world...
在另一个命令行启动官方文档中的Demo时,也会得到正确结果,如下
# TERMINAL 2: RUNNING NetworkWordCount or JavaNetworkWordCount$ ./bin/run-example streaming.NetworkWordCount localhost 9999...-------------------------------------------Time: 1357008430000 ms-------------------------------------------(hello,1)(world,1)...`
0 0
- Spark Streaming:TCP(基本类型)数据源
- Spark(五) -- Spark Streaming介绍与基本执行过程
- Spark Streaming基本使用介绍
- Spark Streaming实时处理TCP Sockets数据流
- Spark Streaming自定义数据源-实现自定义输入DStream和接收器
- Spark Streaming介绍与基本执行过程
- 2.Spark Streaming:基本工作原理
- Spark Streaming(下)--实时流计算Spark Streaming实战
- 实战7.Spark Streaming(上)--Spark Streaming原理介绍
- 实战7.Spark Streaming(下)--Spark Streaming实战
- Spark Streaming(下)--实时流计算Spark Streaming实战
- spark-streaming入门(一)
- spark-streaming入门(二)
- spark-streaming入门(三)
- Spark Streaming笔记(一)
- Spark Streaming学习(1)
- Spark(十) -- Spark Streaming API编程
- Spark学习之Spark Streaming(9)
- 到底应不应该上培训班
- hdu 2066 一个人的旅行(加超级源点)
- Android View重绘和更新: invalidate和requestLayout
- java继承中除了public和protected成员方法外其余的属性是拥有非继承
- 数据结构学习笔记——顺序表和链表的比较
- Spark Streaming:TCP(基本类型)数据源
- Python多进程编程
- 概率算法
- 功能测试机设计--测试模块--硬件部分
- 算法基础训练(二)
- AndroidUI-ViewPager简单demo模仿App翻页效果
- Floodligh Web UI显示的host比实际多且不会被清除的原因及解决方法
- swift入门———数组
- Codeforces Round #338 (Div. 2) B. Longtail Hedgehog(LIS)