পাইস্পার্ক চিটশিট

PySpark হল Apache Spark-এর Python API, এটি ওপেন সোর্স, distributed computing framework এবং রিয়েল-টাইম, large-scale data processing এর কাজে ব্যবহৃত হয়

কন্ট্রিবিউটর

শেয়ার করুন

প্রিন্ট করুন

SparkSession সেটআপ/চালু করা

SparkSession এ Pyspark initialize করুন

from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('randomName').getOrCreate()

Data Modify রিলেটেড কমান্ড সমুহ

Data ফিল্টার করা
```
df.filter(df['age']>24).show()
```
Data lambda ফাংশন দিয়ে Sort করা
```
df.sortBy(lambda x: x[1]).collect()
```
Duplicate Data ড্রপ করা
```
df.dropDuplicates()
```
null Data সরানো
```
df.na.drop().show()
```
null value replace করা
```
df.na.fill(50).show()
```
নির্দিষ্ট কলাম show করা
```
df.select('columnName').show()
```

Convert ও Output রিলেটেড কমান্ড সমুহ

DataFrame কে RDD তে রূপান্তর করা
```
rdd1 = df.rdd
```
Repartition করা
```
df.repartition(4)
```
df এর কনটেন্ট Pandas Dataframe এ করে দেখা
```
df.toPandas()
```

ফাইল Write ও Save করা

RDD.write.option('header',True).csv('/home/Data')

Text ফাইল Save করা
```
textRdd.saveAsTextFile('/home/Data')
```

ডাটাফ্রেম তৈরী ও লোড করা

ডাটাফ্রেম তৈরী করা

from pyspark.sql.types import*spark.createDataFrame([(1, 'a'), (2, 'b')], ['num', 'letter'])

CSV file লোড করা

df = spark.read.load('/home/Dataset/Case.csv', format = 'csv', sep = ',', inferScheme = True, header = True)

Txt file লোড করা
```
df = spark.read.text('people.txt')
```
JSON file লোড করা
```
df = spark.read.json('customer.json')
```

Data Inspect রিলেটেড কমান্ড সমুহ

কলামের নাম ও ডাটা টাইপ দেখা
```
df.dtypes
```
df এর কনটেন্ট show করা
```
df.show()
```
df এর প্রথম ১০টি row দেখা
```
df.head(10)
```
df এর প্রথম row দেখা
```
df.first()
```
Row এর সংখ্যা দেখা
```
df.count()
```
df এর Schema দেখা
```
df.printSchema()
```
df এর logical ও physical plan দেখা
```
df.explain()
```

SparkSession Close করা

তৈরিকৃত Session Close করা
```
spark.stop()
```