selenium关于正则表达式匹配webdriver.Chrome().page_source中文的问题

来源：互联网发布：大数据方向的研究生编辑：程序博客网时间：2024/04/29 05:56

本文以网站https://mm.taobao.com/self/model_album.htm?user_id=687471686 点击打开链接为例子，介绍如何匹配总页数，如下图所示。

webdriver.Chrome().page_source的类型为Unicode，所以匹配字符串也要是unicode，测试代码如下：

from selenium import webdriverimport timeimport reif __name__ == '__main__':    browser = webdriver.Chrome()    browser.get('https://mm.taobao.com/self/model_album.htm?user_id=687471686')    time.sleep(2)    r = re.findall(ur'共(\d+)页 到第', browser.page_source)    print r

输出：

[u'5']

如果re.findall(ur'共(\d+)页到第', browser.page_source)修改为re.findall(r'共(\d+)页到第', browser.page_source)将无法匹配成功。

0 0

selenium关于正则表达式匹配webdriver.Chrome().page_source中文的问题
关于Notepad++中用正则表达式匹配中文的问题
关于中文的正则表达式选择性匹配
关于正则表达式的递归匹配问题
boost中关于正则表达式在vs2008不能匹配中文的问题
匹配中文的正则表达式
匹配中文的正则表达式
正则表达式的中文匹配
Python中正则表达式对中文的匹配问题
Python中正则表达式对中文的匹配问题
Python中正则表达式对中文的匹配问题
Python中的正则表达式匹配中文问题
正则表达式关于多个数字匹配的问题
正则表达式的匹配问题
关于Selenium WebDriver的geckodriver
正则表达式匹配中文
正则表达式匹配中文
正则表达式匹配中文
j2ee Operator 操作符
最好用QRCode库--BGAQRCode-Android
H264文件的解析
Json去除某个字段
初识EXTjs（01）
selenium关于正则表达式匹配webdriver.Chrome().page_source中文的问题
2017-02-22Hibernate(4)
使用Log4Net
明确进行的静态初始化
CS1922号错误是什么
c++11-c++17展望
HttpURLConnection getContentLength();返回时-1或者是0
内核中单个.o文件的编译过程
排序算法小记