Semalt ماہر: ازگر اور خوبصورتی سوپ۔ آسانی کے ساتھ سکریپ سائٹیں

جب اعداد و شمار کے تجزیہ یا مشین سیکھنے کے منصوبوں کو انجام دیتے ہوئے ، آپ کو مطلوبہ ڈیٹا حاصل کرنے اور اپنے منصوبے کو مکمل کرنے کے لئے ویب سائٹوں کو کھرچنے کی ضرورت پڑسکتی ہے۔ ازگر پروگرامنگ زبان میں ٹولز اور ماڈیولز کا ایک طاقتور ذخیرہ ہوتا ہے جسے اس مقصد کے لئے استعمال کیا جاسکتا ہے۔ مثال کے طور پر ، آپ HTML تجزیہ کیلئے بیوٹیفلسوپ ماڈیول استعمال کرسکتے ہیں۔

یہاں ، ہم بیوٹیشل سوپ پر ایک نظر ڈالیں گے اور معلوم کریں گے کہ اب ویب سکریپنگ میں کیوں اتنے بڑے پیمانے پر استعمال ہورہا ہے۔

خوبصورتی سوپ خصوصیات

- یہ پارسی درختوں کی آسانی سے نیویگیشن ، تلاش اور اس میں ترمیم کرنے کے لئے مختلف طریقے مہیا کرتا ہے اس طرح آپ کو آسانی سے دستاویز کا انضمام کرنے اور بہت زیادہ کوڈ تحریر کیے بغیر اپنی ضرورت کی ہر چیز کو نکالنے کی اجازت دیتی ہے۔

- یہ خود بخود جانے والی دستاویزات کو UTF-8 اور آنے والی دستاویزات کو یونیکوڈ میں تبدیل کردیتا ہے۔ اس کا مطلب یہ ہے کہ آپ کو انکوڈنگ کے بارے میں فکر کرنے کی ضرورت نہیں ہوگی بشرطیکہ دستاویز نے کوئی انکوڈنگ متعین کی ہو یا خوبصورت سوپ اسے خود بخود تلاش کرسکے۔

- بیوٹیشل سوپ کو دوسرے مشہور پاٹھون پارسرز جیسے HTML5lib اور lxml سے بہتر سمجھا جاتا ہے۔ یہ تجزیہ کرنے کی مختلف حکمت عملیوں کی اجازت دیتا ہے۔ تاہم ، اس ماڈیول کا ایک نقصان یہ ہے کہ یہ رفتار کی قیمت پر زیادہ لچک فراہم کرتا ہے۔

بیوٹیشل سوپ کے ذریعے آپ کو ویب سائٹ کو ختم کرنے کی کیا ضرورت ہے؟

بیوٹیشل سوپ کے ساتھ کام شروع کرنے کے ل you ، آپ کو اپنی مشین پر ازگر کا پروگرامنگ ماحول (یا تو مقامی یا سرور پر مبنی) ترتیب دینے کی ضرورت ہے۔ ازگر عام طور پر OS X میں پہلے سے انسٹال ہوتا ہے ، لیکن اگر آپ ونڈوز استعمال کرتے ہیں تو آپ کو سرکاری ویب سائٹ سے زبان ڈاؤن لوڈ اور انسٹال کرنے کی ضرورت ہوگی۔

آپ کے پاس بنیولسوپ اور درخواستوں کے ماڈیولز انسٹال ہونے چاہئیں۔

آخر میں ، ایچ ٹی ایم ایل ٹیگنگ اور ڈھانچے کے ساتھ کام کرنے سے واقف اور آرام دہ ہونا یقینا useful کارآمد ہے کیوں کہ آپ ویب سورس ڈیٹا کے ساتھ کام کریں گے۔

درخواستیں اور بینڈلیسسوپ لائبریریاں درآمد کرنا

ازگر کے پروگرامنگ کا ماحول اچھی طرح سے ترتیب دیئے جانے کے ساتھ ، اب آپ اپنی پسند کے نام کے ساتھ ایک نئی فائل (مثال کے طور پر نانو کا استعمال کرتے ہوئے) تشکیل دے سکتے ہیں۔

درخواستوں کی لائبریری آپ کو اپنے ازگر پروگراموں میں انسانی پڑھنے کے قابل فارم HTTP کا استعمال کرنے کی اہلیت دیتی ہے جبکہ بیوٹیفل سوپ سکریپنگ کو تیز رفتار سے مکمل کرلیتا ہے۔ آپ دونوں لائبریریوں کو حاصل کرنے کے لئے درآمدی بیان کا استعمال کرسکتے ہیں۔

کسی ویب صفحہ کو جمع اور تجزیہ کرنے کا طریقہ

ویب پیج کے URL کو جمع کرنے کے ل. درخواستیں۔ گیٹ () طریقہ استعمال کریں جہاں سے آپ ڈیٹا نکالنا چاہتے ہیں۔ اگلا ، ایک خوبصورت سوپ آبجیکٹ یا پارس ٹری بنائیں۔ یہ اعتراض درخواستوں سے دستاویز کو اپنے دلائل کے طور پر لیتا ہے اور پھر اس کی تجزیہ کرتا ہے۔ اس صفحے کو جمع کرنے ، ان کی تجزیہ اور بیوٹیفل سوپ آبجیکٹ کے طور پر ترتیب دینے کے بعد ، اس کے بعد آپ اپنے مطلوبہ ڈیٹا کو جمع کرنے کے لئے آگے بڑھ سکتے ہیں۔

تجزیہ کردہ ویب پیج سے مطلوبہ متن نکالنا

جب بھی آپ ویب ڈیٹا اکٹھا کرنا چاہتے ہیں ، آپ کو یہ جاننے کی ضرورت ہوگی کہ اس صفحہ کو ویب صفحہ کے دستاویز آبجیکٹ ماڈل (DOM) کے ذریعہ کس طرح بیان کیا گیا ہے۔ اپنے ویب براؤزر میں ، دلچسپی کے ڈیٹا کا حصہ بنانے والی آئٹمز میں سے کسی ایک پر دائیں کلک (اگر ونڈوز استعمال کررہے ہیں) ، یا سی ٹی آر ایل + (اگر میکوس استعمال کررہے ہو) پر کلک کریں۔ مثال کے طور پر ، اگر آپ طلباء کی قومیتوں کے بارے میں ڈیٹا نکالنا چاہتے ہیں تو ، طالب علم کے کسی ایک نام پر کلک کریں۔ ایک سیاق و سباق کا مینو پاپ اپ ہوجاتا ہے ، اور اس کے اندر ، آپ کو انسپیکٹ عنصر (فائر فاکس کے لئے) یا معائنہ (کروم کے لئے) جیسا ایک مینو آئٹم نظر آئے گا۔ متعلقہ معائنہ کریں مینو آئٹم پر کلک کریں ، اور ویب ڈویلپر کے اوزار آپ کے برائوزر میں ظاہر ہوں گے۔

بیوٹیشل سوپ ایک سادہ لیکن طاقتور ایچ ٹی ایم ایل کو تجزیہ کرنے والا آلہ ہے جو ویب سائٹوں کو کھرچتے وقت آپ کو کافی حد تک نرمی کی سہولت دیتا ہے۔ اس کا استعمال کرتے وقت ، کھرچنے کے عمومی اصولوں جیسے ویب سائٹ کے شرائط و ضوابط کی جانچ کرنا نہ بھولیں۔ باقاعدگی سے سائٹ پر نظر ثانی کرنا اور سائٹ میں کی جانے والی تبدیلیوں کے مطابق اپنا کوڈ اپ ڈیٹ کرنا۔ ازگر اور خوبصورتی سوپ والی ویب سائٹوں کو کھرچنے کے بارے میں یہ جانکاری حاصل کرنے کے بعد ، اب آپ آسانی سے اپنے پروجیکٹ کے لئے درکار ویب ڈیٹا حاصل کرسکتے ہیں۔