কীভাবে সাধারণ স্ট্রিং কনক্যাটেনেশন আপনার কোডের পারফরমেন্স নষ্ট করতে পারে


সাধারণভাবে, স্ট্রিং কনক্যাটেনেশনে কোনো সমস্যা নেই

স্ট্রিং কনক্যাটেনেশন প্রোগ্রামিংয়ের প্রথম এবং সবচেয়ে বেশি ব্যবহৃত ফিচারগুলোর একটি। আপনি যখন প্রোগ্রামিং শিখতে শুরু করেন, প্রথমেই ভেরিয়েবলের বেসিক, ইন্টিজার, বুলিয়ান এবং স্ট্রিং শেখেন। এটি এমনকি Python অফিশিয়াল ডকুমেন্টেশনেও প্রথম দিকে শেখানো হয়।

সুতরাং হ্যাঁ, স্ট্রিং কনক্যাটেনেশন খারাপ নয়, এবং এটি ছাড়া প্রোগ্রামিং করা প্রায় অসম্ভব হতে পারে। কারণ কোনো না কোনো কারণে আপনাকে স্ট্রিং জোড়া লাগাতেই হয়।

যদিও হ্যাঁ, প্রায় সব দরকারি টুল বা ফিচারের মতোই, ভুলভাবে ব্যবহার করলে এটি সত্যিই খারাপ প্রভাব ফেলতে পারে। তাই সেগুলো কীভাবে সঠিকভাবে ব্যবহার করতে হয় সে সম্পর্কে সচেতন থাকা গুরুত্বপূর্ণ।

কখন স্ট্রিং কনক্যাটেনেশন বিপজ্জনক হতে পারে?

আপনার স্ট্রিং কনক্যাটেনেশনের ব্যাপারে সতর্ক হওয়া উচিত যখন এই দুটি শর্ত পূরণ হয়:

  • ফিচারটি পারফরম্যান্সক্রিটিকাল: (উদাহরণ: একটি ওয়েব অ্যাপ্লিকেশনে টেক্সট ডেটা অ্যানালাইসিস ফিচার চলছে, এবং ওয়েবসাইট ইন্টারফেসে একজন ইউজার ফলাফলের জন্য অপেক্ষা করছে, তাই আপনার কোড যতটা সম্ভব দ্রুত হওয়া উচিত)
  • আপনি অনেক কনক্যাটেনেশন নিয়ে কাজ করছেন (১০,০০০ থেকে শুরু করে) একটি লুপের কারণে, এবং/অথবা যে স্ট্রিংগুলো আপনি জোড়া লাগাচ্ছেন সেগুলো অনেক বেশি লম্বা।

এটি মেমরি অ্যালোকেশন এবং গারবেজ কালেকশনের ক্ষেত্রে উল্লেখযোগ্য ওভারহেড তৈরি করতে পারে, আপনার কোড ধীর করে দিতে পারে, এবং সবচেয়ে খারাপ ক্ষেত্রে প্রোডাকশনে আপনার কোড ক্র্যাশ করতে পারে 😬।

এবং এর মানে এটাও যে স্ট্রিং কনক্যাটেনেশন ব্যবহার করা সম্পূর্ণ নিরাপদ যখন এই শর্তগুলো পূরণ হয় না, এবং আপনি নিশ্চিত যে ভবিষ্যতেও এই শর্তগুলো পূরণ হবে না। সুতরাং উদাহরণস্বরূপ:

firstname = "John"
lastname = "Joe"
fullname = firstname + lastname

এটি সম্পূর্ণ ঠিক আছে কারণ কারও নাম এত লম্বা হওয়ার কোনো সম্ভাবনা নেই যে পারফরম্যান্স সমস্যা তৈরি করবে। যাইহোক, এই দুনিয়ায় নয় 😅।

কেন এই ক্ষেত্রে স্ট্রিং কনক্যাটেনেশন বিপজ্জনক?

Python-, স্ট্রিং হলো immutable অবজেক্ট, যার মানে হল প্রতিবার একটি স্ট্রিং অন্য একটি স্ট্রিংয়ের সাথে জোড়া লাগানো হলে, মেমরিতে একটি নতুন স্ট্রিং অবজেক্ট তৈরি হয়।

এটি ব্যাখ্যা করার জন্য চলুন এই সাধারণ কোডটি চালাই:

my_str = "Hello"
print(f"my_str: {my_str}")
print(f"id = {id(my_str)}")
my_str += " World"
print(f"\n my_str: {my_str}")
print(f"id = {id(my_str)}")  

নোট: Python-এর id() ফাংশন একটি অবজেক্টের আইডেন্টিটি রিটার্ন করে। অবজেক্টের আইডেন্টিটি একটি ইন্টিজার, 
যা এই অবজেক্টের সবসময় unique এবং constant থাকবে।আউটপুট হবে:

python string concatenation

যেমন আপনি দেখতে পাচ্ছেন, কনক্যাটেনেশনের আগে এবং পরে স্ট্রিংয়ের আইডি একই নয়, তাই Python একটি নতুন স্ট্রিং তৈরি করেছে।

এই সমস্যার সমাধান কি?

এই পারফরম্যান্স সমস্যার সমাধানের জন্য, আপনি বিকল্প পদ্ধতি ব্যবহার করতে পারেন যেমন একটি লিস্ট ব্যবহার করে পৃথক স্ট্রিং কম্পোনেন্টগুলো ধরে রাখা এবং তারপর join মেথড ব্যবহার করে সেগুলো একসাথে জোড়া লাগানো।

Python প্রতিবার একটি এলিমেন্ট append করার সময় নতুন লিস্ট তৈরি করে না, এবং join মেথড অপটিমাইজড করা আছে যাতে লিস্টের প্রতিটি স্ট্রিংয়ের জন্য নতুন স্ট্রিং অবজেক্ট তৈরি করা এড়ানো যায়।

import time

# 1. Concatenate strings (Slower method)
start_time = time.time()
s=""
for i in range(10000):
    s += 'a'
end_time = time.time()
elapsed_time_concat = end_time - start_time
print(f"Time taken for string concatenation: {elapsed_time_concat:.6f} seconds")

# 2. Join strings (Faster method)
start_time = time.time()
lst = ['a'] * 10000
s="".join(lst)
end_time = time.time()
elapsed_time_join = end_time - start_time
print(f'Time taken for string join: {elapsed_time_join:.6f} seconds')

# Performance Gain
join_performance = (elapsed_time_concat - elapsed_time_join) / elapsed_time_concat
print(f'Performance gained with join: {join_performance * 100:.2f}%')

এই উদাহরণে, আমরা ১০,০০০ সাইজের একটি স্ট্রিং তৈরি করছি ‘a’ স্ট্রিংটি ১০,০০০ বার জোড়া লাগিয়ে, স্ট্রিং কনক্যাটেনেশন এবং join মেথড উভয় পদ্ধতি ব্যবহার করে। আউটপুট দেখায় যে join মেথড কনক্যাটেনেশন মেথডের তুলনায় অনেক বেশি দ্রুত:

যেমন আপনি দেখতে পাচ্ছেন, join ব্যবহার করে আমরা সময়ের পারফরম্যান্স প্রায় ৯৩% বৃদ্ধি করেছি যা অসাধারণ।

বিগ O নোটেশন এর মাধ্যমে বিষয়টা গভিরভাবে বুঝার চেষ্টা করি

এই আচরণটি Big O notation ব্যবহার করেও ব্যাখ্যা করা যায়, বিশেষত time complexity-এর মাধ্যমে।

আসুন আমাদের আগের কোডের কনক্যাটেনেশন অংশে ফোকাস করি।

আমাদের একটি স্ট্রিং s আছে যা আমরা M বার একটি স্ট্রিং c এর সাথে কনক্যাটেনেট করছি যার দৈর্ঘ্য N

s=""
c="a"
for i in range(10000):
    s += c

সুতরাং এখানে স্ট্রিং সাইজ N=1 এবং রেঞ্জ M=10000

এটি মনে রাখুন:

  • N দৈর্ঘ্যের একটি স্ট্রিং তৈরি করার complexity হল O(N)
  • সুতরাং যেহেতু কনক্যাটেনেশন এ শুরুতে len(s + c) দৈর্ঘ্যের একটি নতুন স্ট্রিং তৈরি করে, প্রতিটি ইটারেশনে কনক্যাটেনেশনের complexity হল আগের ইটারেশনে s-এর দৈর্ঘ্য + স্ট্রিং c এর দৈর্ঘ্য।

যেমন আপনি দেখতে পাচ্ছেন মোট complexity হল 1 + 2 + 3 + 4 + 5 + … + M

যা একটা এরিতমেটিক সিরিজ যেটার ফর্মুলা হলো (M(M+1)) /  2

এবং Big O এর নিয়ম অনুযায়ি ছোট এক্সপোনেন্ট উপেক্ষা করে পাই:

string concat time complexity

স্ট্রিং কনক্যাটেনেশন time complexity = O(M²)

আসুন join পদ্ধতির সাথে time complexity দেখার চেষ্টা করি:

lst = ['a'] * 10000 # O(n)
s="".join(lst) # O(n)

এই ক্ষেত্রে, আমাদের দুটি ধাপ আছে:

. লিস্ট তৈরি করার লুপ:

lst = ['a'] * 10000

এখানে complexity হল O(M), এবং আমাদের ক্ষেত্রে M=10000 কারণ এখানে ‘a’ স্ট্রি টি 10000 বার এপেন্ড হয়ে তারপর lst তৈরি হচ্ছে

. জয়েন s = ”.join(lst):

এখানে complexity হল O(M) কারন join তৈরি হয়েছে CPython এর উপরে যা অনেক বেশি অপ্টিমাইজ এবং জয়েন স্ট্রিং কে জোড়া লাগানোর জন্য ২ পাস নামে একটা এলগরিদম ইউস করে যেখানে এটা একবার দেখে নেয় লিস্ট এ থাকা সবগুলো স্ট্রিং এর যোগফল কত তারপর সবগুলো স্ট্রিং কে একবার কপি করে এবং যেহেতু এখানে কপি একবার ই হচ্ছে তাই এটার টাইম কমপ্লেক্সিটি হচ্ছে O(M)

যা সাধারণ কনক্যাটেনেশনের O(M²) থেকে অনেক ভাল।

উপসংহার

এই টিউটোরিয়ালের জন্য এতটুকুই। আশা করি আপনি বুঝেছেন কখন এবং কেন স্ট্রিং কনক্যাটেনেশন বিপজ্জনক হতে পারে যাতে প্রয়োজনের সময় আপনি join ব্যবহার করতে পারেন।

পড়ার জন্য ধন্যবাদ, এবং এই ব্যাপারে আরো বিস্তারিত জানার জন্য এই ইউটিউব টিউটোরিয়াল টি দেখে নিতে পারেন যেখানে স্ট্রিং কনক্যাটেনেশন এর আরো কিছু অপ্টিমাইজ পদ্ধতি সম্পর্কে আলোচনা করা হয়েছে ।


Leave a Reply

Your email address will not be published. Required fields are marked *

Thank's for visiting me!

X