python 爬取 apache 遍历目录 文件
来源:互联网 发布:下载强力卸载软件 编辑:程序博客网 时间:2024/06/05 04:35
apache这样配置的时候可以目录遍历:
<Directory /var/www/>
Options Indexes FollowSymLinks
#Options FollowSymLinks
AllowOverride NoneRequire all
grantedDirectoryIndex index.html index.php
</Directory>
大概长这样:
python代码
#coding=utf-8import requestsimport urllibfrom bs4 import BeautifulSoupimport os'''scrapy a website using apache default folders'''URL = 'http://198.255.15.22/'#os.makedirs(r'./'+dirName)def download(URL,URI):#print '->>>>>>>>>>>>>>>>>>>>>>>>>>'+URL,'--',URIr = requests.get(URL+URI)soup = BeautifulSoup(r.text)links = soup.find_all('a')for i in links:if i.text == '[To Parent Directory]':continuename = i['href']print nameif name == '/':continue#directoryif name[-1] == '/' : download(URL, name)print nameif not os.path.exists(r'.' + name):os.makedirs(r'.' + name)#file else:try:filename = name.split('/')[-1]#print 'filename ',filenameif not os.path.exists('./' + URI + filename):urllib.urlretrieve(URL + name, './' + URI + filename)print 'download->',URL + nameelse:print 'exists', URL + nameexcept:print URL + name, 'failed!'##def downloadif __name__ == '__main__':URL = ['http://*.*.*.*/', 'http://*.*.*.*/']for url in URL:download(url,'/')
0 0
- python 爬取 apache 遍历目录 文件
- python 文件目录遍历
- python遍历文件目录
- python遍历文件目录
- python遍历目录文件
- python遍历目录,读写文件
- python文件操作遍历目录
- python 遍历目录所有文件
- python 遍历目录所有文件
- Python--文件操作之遍历目录
- python文件操作之遍历目录
- Python之文件目录遍历实例代码
- 遍历文件目录的python 代码
- Python之简单文件目录遍历
- python指定文件目录遍历方法
- 使用 python 遍历目录下的文件
- Python 遍历目录下的所有文件
- python文件操作之遍历目录
- jdk7配置
- (OK) android-5.0 sensor工作原理—sensorservice的启动(一)
- 指针与数组的区别
- Error:The number of method references in a .dex file cannot exceed 64K......
- 入门训练 Fibonacci数列
- python 爬取 apache 遍历目录 文件
- 测试csdn代码显示
- 数据结构实验之链表四:有序链表的归并
- 目标跟踪算法——KCF入门详解
- 线程实现tcp服务器
- C/C++编程小练习 大数乘方
- 常用字符串解析与处理方法
- Android SDK 更新那点事
- C udp实现c/s