< 笔记 > Python

来源:互联网 发布:土建材料计划软件 编辑:程序博客网 时间:2024/06/05 11:59

15 Python 网络

By Kevin Song

  • 15-01 TCP/IP
  • 15-02 TCP编程
  • 15-03 UDP编程
  • 15-04 电子邮件
    • SMTP 发送邮件
    • POP3 收取邮件

网络通信 是两台计算机上的 两个进程 之间的通信

15-01 TCP/IP

IP协议:把数据从一台计算机通过网络发送到另一台计算机

特点:

  • 按块发送
  • 途径多个路由
  • 不保证能到达
  • 不保证顺序到达

TCP协议:负责在两台计算机之间建立可靠连接,保证数据包按顺序到达

特点:

  • 握手建立连接
  • 对每个IP包编号
  • 确保对方按顺序收到
  • 如果丢包自动重发

IP包:包含要传输的数据,源IP地址和目标IP地址,源端口和目标端口

15-02 TCP 编程

Socket 表示打开了一个网络链接,打开一个Socket需要知道目标计算机的IP地址和端口号,再指定协议类型

创建TCP连接

  • 主动发起连接的叫客户端
  • 被动响应连接的叫服务器

客户端

# 导入socket库:import socket# 创建一个socket:s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)# 建立连接:s.connect(('www.sina.com.cn', 80))# 发送数据:s.send(b'GET / HTTP/1.1\r\nHost: www.sina.com.cn\r\nConnection: close\r\n\r\n')
  1. 创建Socket对象
    • AF_INET指定使用IPv4协议
      • AF_INET6指定使用IPv6协议
    • SOCK_STREAM指定使用面向流的TCP协议
  2. 发起TCP连接(参数是一个tuple)
    • 服务器的IP地址
    • 端口号
  3. 发送请求,要求返回首页的内容
    • s.send(b’GET / HTTP/1.1\r\nHost: www.sina.com.cn\r\nConnection: close\r\n\r\n’)
  4. 接收新浪服务器返回的数据
    • recv(max)方法指定一次最多接收的字节数
    • while循环反复接收
      • d不为空:加入buffer
      • d为空:接收完毕
    • close()关闭连接
# 接收数据:buffer = []while True:    # 每次最多接收1k字节:    d = s.recv(1024)    if d:        buffer.append(d)    else:        breakdata = b''.join(buffer)# 关闭连接:s.close()
  1. 打印HTTP头网页内容保存到文件
header, html = data.split(b'\r\n\r\n', 1)print(header.decode('utf-8'))# 把接收的数据写入文件:with open('sina.html', 'wb') as f:    f.write(html)

服务器

  • 绑定一个端口监听来自客户端的连接
  • 区分Socket连接和哪个客户端绑定(依靠服务器地址、服务器端口、客户端地址、客户端端口)
  • 每个连接都需要一个新的进程或者新的线程来处理

示例:接收客户端连接,把客户端发过来的字符串加上Hello再发回去

# 导入socket库:import socket# 创建一个socket:s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)# 监听端口:s.bind(('127.0.0.1', 9999))s.listen(5)print('Waiting for connection...')
  1. 创建Socket对象
    • AF_INET指定使用IPv4协议
      • AF_INET6指定使用IPv6协议
    • SOCK_STREAM指定使用面向流的TCP协议
  2. 绑定监听地址和端口
    • 地址
      • 绑定到某一块网卡的IP地址上
      • 用0.0.0.0绑定到所有的网络地址
      • 用127.0.0.1绑定到本机地址(特殊IP地址:表示本机地址,如果绑定到这个地址,客户端必须同时在本机运行才能连接外部计算机无法连接)
    • 端口
      • 标准服务:小于1024的端口号(必须要有管理员权限才能绑定)
      • 非标准服务
  3. listen()方法开始监听端口,传入的参数指定等待连接的最大数量
  4. 接受来自客户端的连接,accept()会等待并返回一个客户端的连接:
while True:    # 接受一个新连接:    sock, addr = s.accept()    # 创建新线程来处理TCP连接:    t = threading.Thread(target=tcplink, args=(sock, addr))    t.start()
  1. 每个连接都必须创建新线程(或进程)来处理
    • 连接建立后,服务器首先发一条欢迎消息,然后等待客户端数据,并加上Hello再发送给客户端。如果客户端发送了exit字符串,就直接关闭连接。
def tcplink(sock, addr):    print('Accept new connection from %s:%s...' % addr)    sock.send(b'Welcome!')    while True:        data = sock.recv(1024)        time.sleep(1)        if not data or data.decode('utf-8') == 'exit':            break        sock.send(('Hello, %s!' % data.decode('utf-8')).encode('utf-8'))    sock.close()    print('Connection from %s:%s closed.' % addr)

对应的客户端程序

s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)# 建立连接:s.connect(('127.0.0.1', 9999))# 接收欢迎消息:print(s.recv(1024).decode('utf-8'))for data in [b'Michael', b'Tracy', b'Sarah']:    # 发送数据:    s.send(data)    print(s.recv(1024).decode('utf-8'))s.send(b'exit')s.close()

15-03 UDP 编程

UDP:面向无连接的协议

特点:

  • 不需要建立连接
  • 只需要知道对方的IP地址和端口号
  • 速度快

服务端

s = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)# 绑定端口:s.bind(('127.0.0.1', 9999))
  1. 创建Socket对象
    • AF_INET指定使用IPv4协议
      • AF_INET6指定使用IPv6协议
    • SOCK_DGRAM指定使用面向流的UDP协议
  2. 绑定监听地址和端口
    • 地址
      • 绑定到某一块网卡的IP地址上
      • 用0.0.0.0绑定到所有的网络地址
      • 用127.0.0.1绑定到本机地址(特殊IP地址:表示本机地址,如果绑定到这个地址,客户端必须同时在本机运行才能连接外部计算机无法连接)
    • 端口
      • 标准服务:小于1024的端口号(必须要有管理员权限才能绑定)
      • 非标准服务
  3. 接受来自客户端的连接
    • recvfrom()方法返回数据和客户端的地址与端口
    • 服务器收到数据后,直接调用sendto()就可以把数据用UDP发给客户端
print('Bind UDP on 9999...')while True:    # 接收数据:    data, addr = s.recvfrom(1024)    print('Received from %s:%s.' % addr)    s.sendto(b'Hello, %s!' % data, addr)

客户端

客户端使用UDP时,首先仍然创建基于UDP的Socket,然后,不需要调用connect(),直接通过sendto()给服务器发数据:

s = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)for data in [b'Michael', b'Tracy', b'Sarah']:    # 发送数据:    s.sendto(data, ('127.0.0.1', 9999))    # 接收数据:    print(s.recv(1024).decode('utf-8'))s.close()

15-04 电子邮件

运作流程:

graph LR发件人 --> 发件人MUA发件人MUA --> MTAMTA --> 若干个MTA若干个MTA --> MDAMDA --> 收件人MUA收件人MUA --> 收件人

发件人:me@163.com -> MUA -> MTA -> MTA -> 若干个MTA -> MDA \<- MUA \<- 收件人:friend@sina.com

  • MUA 邮件用户代理(Mail User Agent):编写邮件
  • MTA 邮件传输代理(Mail Transfer Agent):发送到网易MTA
  • 网易MTA发送到新浪MTA
  • MDA 邮件投递代理(Mail Delivery Agent):新浪MTA发送到新浪MDA,长期保存
  • 对方通过MUA从MDA上把邮件取到自己的电脑上

编写程序来发送和接收邮件,本质上就是:

  • 编写MUA把邮件发到MTA
    • 发邮件时,MUA和MTA使用的协议就是SMTP:Simple Mail Transfer Protocol,后面的MTA到另一个MTA也是用SMTP协议
    • 配置SMTP服务器:指定发送到哪个MTA上,发件人是me@163.com的话就是smtp.163.com
    • 填写邮箱地址和邮箱口令
  • 编写MUA从MDA上收邮件
    • 收邮件时,MUA和MDA使用的协议有两种
      • POP:Post Office Protocol,目前版本是3,俗称POP3
      • IMAP:Internet Message Access Protocol,目前版本是4,优点是不但能取邮件,还可以直接操作MDA上存储的邮件,比如从收件箱移到垃圾箱
    • 填写POP3或IMAP服务器地址、邮箱地址和口令
      • MUA才能顺利地通过POP或IMAP协议从MDA取到邮件

注意:目前大多数邮件服务商都需要手动打开SMTP发信和POP收信的功能,否则只允许在网页登录

SMTP发送邮件

SMTP是发送邮件的协议:可以发送纯文本邮件、HTML邮件以及带附件的邮件

纯文本邮件:

  • 第一个参数:邮件正文
  • 第二个参数:MIME的subtype(’plain’表示纯文本,最终的MIME就是’text/plain’)
  • 第三个参数:utf-8编码
from email.mime.text import MIMETextmsg = MIMEText('hello, send by Python...', 'plain', 'utf-8')

通过SMTP发出去:

  • set_debuglevel(1)打印出和SMTP服务器交互的所有信息
  • login()方法用来登录SMTP服务器
  • sendmail()方法就是发邮件,由于可以一次发给多个人,所以传入一个list
  • 邮件正文是一个str,as_string()把MIMEText对象变成str
# 输入Email地址和口令:from_addr = input('From: ')password = input('Password: ')# 输入收件人地址:to_addr = input('To: ')# 输入SMTP服务器地址:smtp_server = input('SMTP server: ')import smtplibserver = smtplib.SMTP(smtp_server, 25) # SMTP协议默认端口是25server.set_debuglevel(1)server.login(from_addr, password)server.sendmail(from_addr, [to_addr], msg.as_string())server.quit()

有三个问题:

  • 邮件没有主题
  • 收件人的名字没有显示为友好的名字,比如Mr Green green@example.com
  • 明明收到了邮件,却提示不在收件人中

把From、To和Subject添加到MIMEText中

from email import encodersfrom email.header import Headerfrom email.mime.text import MIMETextfrom email.utils import parseaddr, formataddrimport smtplibdef _format_addr(s):    name, addr = parseaddr(s)    return formataddr((Header(name, 'utf-8').encode(), addr))from_addr = input('From: ')password = input('Password: ')to_addr = input('To: ')smtp_server = input('SMTP server: ')msg = MIMEText('hello, send by Python...', 'plain', 'utf-8')msg['From'] = _format_addr('Python爱好者 <%s>' % from_addr)msg['To'] = _format_addr('管理员 <%s>' % to_addr)msg['Subject'] = Header('来自SMTP的问候……', 'utf-8').encode()server = smtplib.SMTP(smtp_server, 25)server.set_debuglevel(1)server.login(from_addr, password)server.sendmail(from_addr, [to_addr], msg.as_string())server.quit()

HTML邮件

  • 构造MIMEText对象时,把HTML字符串传进去
  • 第二个参数由plain变为html
msg = MIMEText('<html><body><h1>Hello</h1>' +    '<p>send by <a href="http://www.python.org">Python</a>...</p>' +    '</body></html>', 'html', 'utf-8')

发送附件

  • 构造一个MIMEMultipart对象代表邮件本身
  • 后往里面加上一个MIMEText作为邮件正文
  • 再继续往里面加上表示附件的MIMEBase对象
# 邮件对象:msg = MIMEMultipart()msg['From'] = _format_addr('Python爱好者 <%s>' % from_addr)msg['To'] = _format_addr('管理员 <%s>' % to_addr)msg['Subject'] = Header('来自SMTP的问候……', 'utf-8').encode()# 邮件正文是MIMEText:msg.attach(MIMEText('send with file...', 'plain', 'utf-8'))# 添加附件就是加上一个MIMEBase,从本地读取一个图片:with open('/Users/michael/Downloads/test.png', 'rb') as f:    # 设置附件的MIME和文件名,这里是png类型:    mime = MIMEBase('image', 'png', filename='test.png')    # 加上必要的头信息:    mime.add_header('Content-Disposition', 'attachment', filename='test.png')    mime.add_header('Content-ID', '<0>')    mime.add_header('X-Attachment-Id', '0')    # 把附件的内容读进来:    mime.set_payload(f.read())    # 用Base64编码:    encoders.encode_base64(mime)    # 添加到MIMEMultipart:    msg.attach(mime)

如果构造一个MIMEText对象,就表示一个文本邮件对象,如果构造一个MIMEImage对象,就表示一个作为附件的图片,要把多个对象组合起来,就用MIMEMultipart对象,而MIMEBase可以表示任何对象。它们的继承关系如下:

Message

  • MIMEBase
    • MIMEMultipart
    • MIMENonMultipart
      • MIMEMessage
      • MIMEText
      • MIMEImage

加密SMTP

使用标准的25端口连接SMTP服务器时,使用的是明文传输,发送邮件的整个过程可能会被窃听。要更安全地发送邮件,可以加密SMTP会话,实际上就是先创建SSL安全连接,然后再使用SMTP协议发送邮件。

某些邮件服务商,例如Gmail,提供的SMTP服务必须要加密传输。我们来看看如何通过Gmail提供的安全SMTP发送邮件。

Gmail的SMTP端口是587,因此,修改代码如下:

smtp_server = 'smtp.gmail.com'smtp_port = 587server = smtplib.SMTP(smtp_server, smtp_port)server.starttls()# 剩下的代码和前面的一模一样:server.set_debuglevel(1)...

只需要在创建SMTP对象后,立刻调用starttls()方法,就创建了安全连接。后面的代码和前面的发送邮件代码完全一样。

POP3收取邮件

Python内置poplib模块,实现了POP3协议,可以直接用来收邮件

收取邮件分两步:

  • 第一步:用poplib把邮件的原始文本下载到本地
  • 第二部:用email解析原始文本,还原为邮件对象
import poplib# 输入邮件地址, 口令和POP3服务器地址:email = input('Email: ')password = input('Password: ')pop3_server = input('POP3 server: ')# 连接到POP3服务器:server = poplib.POP3(pop3_server)# 可以打开或关闭调试信息:server.set_debuglevel(1)# 可选:打印POP3服务器的欢迎文字:print(server.getwelcome().decode('utf-8'))# 身份认证:server.user(email)server.pass_(password)# stat()返回邮件数量和占用空间:print('Messages: %s. Size: %s' % server.stat())# list()返回所有邮件的编号:resp, mails, octets = server.list()# 可以查看返回的列表类似[b'1 82923', b'2 2184', ...]print(mails)# 获取最新一封邮件, 注意索引号从1开始:index = len(mails)resp, lines, octets = server.retr(index)# lines存储了邮件的原始文本的每一行,# 可以获得整个邮件的原始文本:msg_content = b'\r\n'.join(lines).decode('utf-8')# 稍后解析出邮件:msg = Parser().parsestr(msg_content)# 可以根据邮件索引号直接从服务器删除邮件:# server.dele(index)# 关闭连接:server.quit()

解析邮件

from email.parser import Parserfrom email.header import decode_headerfrom email.utils import parseaddrimport poplibmsg = Parser().parsestr(msg_content)

但是这个Message对象本身可能是一个MIMEMultipart对象,即包含嵌套的其他MIMEBase对象,嵌套可能还不止一层。

所以递归地打印出Message对象的层次结构:

# indent用于缩进显示:def print_info(msg, indent=0):    if indent == 0:        for header in ['From', 'To', 'Subject']:            value = msg.get(header, '')            if value:                if header=='Subject':                    value = decode_str(value)                else:                    hdr, addr = parseaddr(value)                    name = decode_str(hdr)                    value = u'%s <%s>' % (name, addr)            print('%s%s: %s' % ('  ' * indent, header, value))    if (msg.is_multipart()):        parts = msg.get_payload()        for n, part in enumerate(parts):            print('%spart %s' % ('  ' * indent, n))            print('%s--------------------' % ('  ' * indent))            print_info(part, indent + 1)    else:        content_type = msg.get_content_type()        if content_type=='text/plain' or content_type=='text/html':            content = msg.get_payload(decode=True)            charset = guess_charset(msg)            if charset:                content = content.decode(charset)            print('%sText: %s' % ('  ' * indent, content + '...'))        else:            print('%sAttachment: %s' % ('  ' * indent, content_type))

邮件的Subject或者Email中包含的名字都是经过编码后的str,要正常显示,就必须decode:

def decode_str(s):    value, charset = decode_header(s)[0]    if charset:        value = value.decode(charset)    return value

文本邮件的内容也是str,还需要检测编码

def guess_charset(msg):    charset = msg.get_charset()    if charset is None:        content_type = msg.get('Content-Type', '').lower()        pos = content_type.find('charset=')        if pos >= 0:            charset = content_type[pos + 8:].strip()    return charset