记一次数据清洗
leenickzh Lv4

背景故事

教育技术学的女朋友这学期开了门Java Web课,期末大作业是用Jsp+Mysql做一个能增删改查的应用,这个任务自然而然地就到了我的身上,于是想了想数据库里的数据从哪来呢,想到自己的浏览器书签挺多的,于是乎决定做一个资源集合网站(说白了就是我收藏的很多B/S应用)

获取数据

说的挺高大上,其实就是从chrome书签管理器里面导出自己的书签,也就是一个html文件
打开一看,好家伙,乱的我想立马睡觉.
如图:

pic

用浏览器渲染之后是这样:

pic

而建好的表是这样的:

pic

经过1个小时的python学习,整出了下面一坨屎:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import re
f = open("b.html","rt",encoding="gb18030",errors='ignore')
marks = list()
id = list()
names = list()
urls = list()
for i in range(259):
names.append(input())
for x in range(259):
b = f.readline()
marks.append(b.strip())
for s in marks:
urls.append(s.split("\"")[1])

sql = "insert into resources (name, url, genre) VALUES (\'{}\',\'{}\',\'\');"
for j in range(259):
print(sql.format(names[j],urls[j]));

运行后把渲染后的链接全选通通丢到控制台,洗出了我想要的sql插入语法:

pic

然后再把这些插入语法丢到DateGrip里面执行,喝了杯水,数据库就填充好了

pic

做完后一想,大一学过爬虫,好像可以用path直接在页面里提取我要的东西,于是今天的1小时,起码浪费了半个小时.😢

  • Post title:记一次数据清洗
  • Post author:leenickzh
  • Create time:2021-04-24 15:55:49
  • Post link:https://nickk.cn/2021/04/24/记一次数据清洗/
  • Copyright Notice:All articles in this blog are licensed under BY-NC-SA unless stating additionally.
 Comments