PySpark হল Apache Spark-এর Python API, এটি ওপেন সোর্স, distributed computing framework এবং রিয়েল-টাইম, large-scale data processing এর কাজে ব্যবহৃত হয়
SparkSession এ Pyspark initialize করুন
from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('randomName').getOrCreate()
Data ফিল্টার করা
df.filter(df['age']>24).show()
Data lambda ফাংশন দিয়ে Sort করা
df.sortBy(lambda x: x[1]).collect()
Duplicate Data ড্রপ করা
df.dropDuplicates()
null Data সরানো
df.na.drop().show()
null value replace করা
df.na.fill(50).show()
নির্দিষ্ট কলাম show করা
df.select('columnName').show()
ডাটাফ্রেম তৈরী করা
from pyspark.sql.types import*spark.createDataFrame([(1, 'a'), (2, 'b')], ['num', 'letter'])
CSV file লোড করা
df = spark.read.load('/home/Dataset/Case.csv', format = 'csv', sep = ',', inferScheme = True, header = True)
Txt file লোড করা
df = spark.read.text('people.txt')
JSON file লোড করা
df = spark.read.json('customer.json')
কলামের নাম ও ডাটা টাইপ দেখা
df.dtypes
df এর কনটেন্ট show করা
df.show()
df এর প্রথম ১০টি row দেখা
df.head(10)
df এর প্রথম row দেখা
df.first()
Row এর সংখ্যা দেখা
df.count()
df এর Schema দেখা
df.printSchema()
df এর logical ও physical plan দেখা
df.explain()