用Mathematica爬取我的百度经验目录

来源:互联网 发布:java 打印byte数组 编辑:程序博客网 时间:2024/06/06 16:35

这里只爬取前10页的内容:

urlss = StringJoin[     "http://jingyan.baidu.com/user/npublic/?uid=\d1b612bceb0dc22ba8ffe137&pn=", ToString@#] & /@ Range[0, 602, 7];urls = Flatten[   Table[StringCases[URLRead[urlss[[n]], "Body"],      "<a href=\"/article/" ~~ Shortest[x__] ~~ "\" title=" :> x], {n,      1, 10}]];网址 = (StringJoin["https://jingyan.baidu.com/article/", #] & /@     Drop[urls, {2, -1, 2}]);标题 = Flatten[   Table[StringCases[URLRead[urlss[[n]], "Body"],      ".html\" title=\"" ~~ Shortest[x__] ~~ "\"" :> x], {n, 1, 10}]];Grid[Transpose[{标题, 网址}], Frame -> {All, False}, Alignment -> Right]

运行结果如下:
这里写图片描述
这里写图片描述