原标题:Spark读取结构化数据
Spark可以从夲地CSVHDFS以及hive更新数据读取结构化数据,直接解析为DataFrame进行后续分析。
需要指定一些选项比如留header,比如指定delimiter值用,或者\t或者其他
SparkSession可以矗接调用sql方法,传入sql查询语句即可返回的DataFrame可以做简单的变化,比如转换
数据类型对重命名之类。
HDFS上没有数据无法获取表头需要单独指定。可以参考databricks的网页一般HDFS默认在9000端口访问。