স্পার্ক স্কালায় একটি ডেটা ফ্রেমের কলামের নাম পুনরায় নামকরণ

Question 1

আমি DataFrameস্পার্ক-স্কালায় একটির সমস্ত শিরোনাম / কলামের নাম রূপান্তর করার চেষ্টা করছি । এখন পর্যন্ত আমি নিম্নলিখিত কোড নিয়ে এসেছি যা কেবলমাত্র একটি একক কলামের নাম প্রতিস্থাপন করে।

for( i <- 0 to origCols.length - 1) {
  df.withColumnRenamed(
    df.columns(i), 
    df.columns(i).toLowerCase
  );
}

Question 2

কাঠামো সমতল হলে:

val df = Seq((1L, "a", "foo", 3.0)).toDF
df.printSchema
// root
//  |-- _1: long (nullable = false)
//  |-- _2: string (nullable = true)
//  |-- _3: string (nullable = true)
//  |-- _4: double (nullable = false)

সবচেয়ে সহজ কাজটি আপনি করতে পারেন toDFপদ্ধতিটি ব্যবহার করা :

val newNames = Seq("id", "x1", "x2", "x3")
val dfRenamed = df.toDF(newNames: _*)

dfRenamed.printSchema
// root
// |-- id: long (nullable = false)
// |-- x1: string (nullable = true)
// |-- x2: string (nullable = true)
// |-- x3: double (nullable = false)

আপনি যদি স্বতন্ত্র কলামগুলির নাম পরিবর্তন করতে চান তবে আপনি এটির selectসাথে ব্যবহার করতে পারেন alias:

df.select($"_1".alias("x1"))

যা সহজেই একাধিক কলামে সাধারণীকরণ করা যায়:

val lookup = Map("_1" -> "foo", "_3" -> "bar")

df.select(df.columns.map(c => col(c).as(lookup.getOrElse(c, c))): _*)

বা withColumnRenamed:

df.withColumnRenamed("_1", "x1")

যা foldLeftএকাধিক কলামের নাম পরিবর্তন করতে ব্যবহার করে :

lookup.foldLeft(df)((acc, ca) => acc.withColumnRenamed(ca._1, ca._2))

নেস্টেড স্ট্রাকচার ( structs) দ্বারা একটি সম্ভাব্য বিকল্পটি পুরো কাঠামোটি নির্বাচন করে নাম পরিবর্তন করা হচ্ছে:

val nested = spark.read.json(sc.parallelize(Seq(
    """{"foobar": {"foo": {"bar": {"first": 1.0, "second": 2.0}}}, "id": 1}"""
)))

nested.printSchema
// root
//  |-- foobar: struct (nullable = true)
//  |    |-- foo: struct (nullable = true)
//  |    |    |-- bar: struct (nullable = true)
//  |    |    |    |-- first: double (nullable = true)
//  |    |    |    |-- second: double (nullable = true)
//  |-- id: long (nullable = true)

@transient val foobarRenamed = struct(
  struct(
    struct(
      $"foobar.foo.bar.first".as("x"), $"foobar.foo.bar.first".as("y")
    ).alias("point")
  ).alias("location")
).alias("record")

nested.select(foobarRenamed, $"id").printSchema
// root
//  |-- record: struct (nullable = false)
//  |    |-- location: struct (nullable = false)
//  |    |    |-- point: struct (nullable = false)
//  |    |    |    |-- x: double (nullable = true)
//  |    |    |    |-- y: double (nullable = true)
//  |-- id: long (nullable = true)

মনে রাখবেন এটি nullabilityমেটাডেটা প্রভাবিত করতে পারে । আর একটি সম্ভাবনা কাস্টিং দ্বারা নামকরণ করা:

nested.select($"foobar".cast(
  "struct<location:struct<point:struct<x:double,y:double>>>"
).alias("record")).printSchema

// root
//  |-- record: struct (nullable = true)
//  |    |-- location: struct (nullable = true)
//  |    |    |-- point: struct (nullable = true)
//  |    |    |    |-- x: double (nullable = true)
//  |    |    |    |-- y: double (nullable = true)

বা:

import org.apache.spark.sql.types._

nested.select($"foobar".cast(
  StructType(Seq(
    StructField("location", StructType(Seq(
      StructField("point", StructType(Seq(
        StructField("x", DoubleType), StructField("y", DoubleType)))))))))
).alias("record")).printSchema

// root
//  |-- record: struct (nullable = true)
//  |    |-- location: struct (nullable = true)
//  |    |    |-- point: struct (nullable = true)
//  |    |    |    |-- x: double (nullable = true)
//  |    |    |    |-- y: double (nullable = true)

Question 3

পিআইস্পার্ক সংস্করণে আপনার আগ্রহী তাদের জন্য (আসলে এটি স্কালায় সমান - নীচে মন্তব্য দেখুন):

    merchants_df_renamed = merchants_df.toDF(
        'merchant_id', 'category', 'subcategory', 'merchant')

    merchants_df_renamed.printSchema()

ফলাফল:

রুট
| - merchant_id: পূর্ণসংখ্যা (nullable = সত্য)
| - বিভাগ: STRING (nullable = সত্য)
| - উপবিষয়শ্রেণীটি: STRING (nullable = সত্য)
| - বণিক: STRING (nullable = সত্য)

Question 4

def aliasAllColumns(t: DataFrame, p: String = "", s: String = ""): DataFrame =
{
  t.select( t.columns.map { c => t.col(c).as( p + c + s) } : _* )
}

যদি বিষয়টি সুস্পষ্ট না হয় তবে এটি বর্তমান কলামের প্রত্যেকটির নামের সাথে একটি উপসর্গ এবং প্রত্যয় যুক্ত করে। এটি কার্যকর হতে পারে যখন আপনার এক বা একাধিক কলামের একই নামযুক্ত দুটি টেবিল থাকে এবং আপনি সেগুলিতে যোগ দিতে চান তবে ফলস্বরূপ সারণিতে কলামগুলি ছিন্ন করতে সক্ষম হবেন। "নরমাল" এসকিউএল-তে এটি করার মতো কোনও উপায় থাকলে এটি অবশ্যই দুর্দান্ত।

Question 5

ধরা যাক ডেটাফ্রেম ডিএফের 3 টি কলাম আইডি 1, নাম 1, মূল্য 1 রয়েছে এবং আপনি তাদের নামটি আইডি 2, নাম 2, মূল্য 2 এ রাখতে চান

val list = List("id2", "name2", "price2")
import spark.implicits._
val df2 = df.toDF(list:_*)
df2.columns.foreach(println)

আমি এই পদ্ধতিকে অনেক ক্ষেত্রে দরকারী বলে মনে করেছি।

Question 6

টো টেবিল জয়েন যুক্ত কীটির নাম পরিবর্তন করে না

// method 1: create a new DF
day1 = day1.toDF(day1.columns.map(x => if (x.equals(key)) x else s"${x}_d1"): _*)

// method 2: use withColumnRenamed
for ((x, y) <- day1.columns.filter(!_.equals(key)).map(x => (x, s"${x}_d1"))) {
    day1 = day1.withColumnRenamed(x, y)
}

কাজ!

Question 7

Sometime we have the column name is below format in SQLServer or MySQL table

Ex  : Account Number,customer number

But Hive tables do not support column name containing spaces, so please use below solution to rename your old column names.

Solution:

val renamedColumns = df.columns.map(c => df(c).as(c.replaceAll(" ", "_").toLowerCase()))
df = df.select(renamedColumns: _*)