របៀបទាញយកអត្ថបទលើអុីនធឺណិត ដោយស្វ័យប្រវត្តិជាមួយនឹង Python & Scrapy
Python គឺជាភាសាកុំព្យូទ័រមួយដែលមានលក្ខណៈពិសេសគឺសំបូរទៅដោយកម្មវិធីមានស្រាប់ជាច្រើនដែលបន្ថែមនូវមុខងារផ្សេងៗធ្វើឲ្យ ភាសាមួយនេះកាន់តែមានឥទ្ធិពល និងមានភាពងាយស្រួល។ ជាក់ស្តែង Scrapy ជាកម្មវិធីមួយរបស់ Python ដែលអនុញ្ញាត្តិឲ្យអ្នកប្រើប្រាស់អាចទាញយកនូវមាតិការផ្សេងៗដែលមាននៅលើគេហទំព័រ ដោយស្វ័យប្រវត្តិ។ អត្ថបទនឹងបង្ហាញលោកអ្នកអំពីវិធីដំឡើង និងប្រើប្រាស់ Scrapy ដើម្បីទាញយកនូវ ឈ្មោះ និងលេខទូរស័ព្ទរបស់ធនាគារពាណិជ្ជកម្មទាំងអស់នៅក្នុងប្រទេសកម្ពុជា ពីគេហទំព័រ ធនាគារជាតិនៃកម្ពុជា ។
តម្រូវការៈ
- Python 2.7
- ចំណេះដឹងមូលដ្ឋានអំពី CSS Selector ឬ XPath ។
- កម្មវិធីកែអត្ថបទ (Text Editor) ។ ប្រសិនបើលោកអ្នកមិនទាន់មានកម្មវិធីប្រភេទនេះទេ យើងខ្ញុំសូមណែនាំកម្មវិធី Atom ដែលអាចទាញយកមកប្រើប្រាស់បានដោយឥតគិតថ្លៃតាមរយៈតំណនេះ។
ការតំឡើងៈ
ចំពោះអ្នកប្រប្រាស់ប្រព័ន្ធប្រតិបត្តិការ Windows សូមចូលទៅ Command Prompt រួចវាយនូវ Command ដូចខាងក្រោម រួចសូមរង់ចាំរហូតដល់ Command ទី១ដំណើរការចប់ ទើបបញ្ចូលនូវ Command ទី២។
ចំពោះប្រព័ន្ធប្រតិបត្តិការ Linux Ubuntu សូមចូលទៅកាន់ Terminal រួចវាយនូវ Command ដូចខាងក្រោម រួចសូមរង់ចាំរហូតដល់ Command ទី១ដំណើរការចប់ ទើបបញ្ចូលនូវ Command ទី២។
ចំពោះប្រព័ន្ធប្រតិបត្តិការ OSX សូមចូលទៅកាន់ Terminal រួចវាយនូវ Command ដូចខាងក្រោមៈ
ការប្រើប្រាស់ៈ
ដើម្បីចាប់ផ្តើម Project ថ្មីមួយដែលមានឈ្មោះថា “techfree” សូមចូលទៅកាន់ Command Prompt ឬ Terminal រួចជ្រើសរើសកន្លែងដែលលោកអ្នកចង់រក្សាទុក Project បន្ទាប់មកសូមវាយ Command ដូចខាងក្រោមៈ
បន្ទាប់មកលោកអ្នកនឹងទទួលបាន Folder មួយដែលមាន File មួយចំនួនក្នុងនោះរួចជាស្រេច។
សូមស្វែងរកនៅក្នុង Folder “techfree” ដែលស្ថិតនៅក្នុង Folder ដែលមានឈ្មោះ “techfree” ខាងដើម រួចបើកនូវ File ដែលមានឈ្មោះថា items.py តាមរយៈកម្មវិធីកែអត្ថបទណាមួយដែលលោកអ្នកមាន។ រួចធ្វើការកែតម្រូវដូចខាងក្រោម បន្ទាប់មកសូមរក្សាទុក។
នៅក្នុង Folder “spider” សូមបង្កើត File ថ្មីមួយដែលមានឈ្មោះថា “techfree_spider.py” ។ បន្ទាប់មកសូមកែតម្រូវ File នោះដូចខាងក្រោមៈ
- name គឺសំដៅលើឈ្មោះកម្មវិធីរបស់យើង។
- allowed_domains គឹជាការកំណត់ដែលឲ្យកម្មវិធីនេះអាចទាញយកមាតិការតែពី Domain ដែលបានកំណត់តែប៉ុណ្ណោះ។
- start_urls គឹជាដំណរទៅកាន់ទំព័រដែលយើងចង់យកមាតិការ។
ដើម្បីសាកល្បងដំណើរការកូដខាងលើ សូមចូលទៅកាន់ Folder “techfree” តាមរយៈ Command Prompt ឬ Terminal របស់អ្នក រួចវាយនូវពាក្យបញ្ជាដូចខាងក្រោមៈ
- ចំណាំ techfree គឺឈ្មោះកម្មវិធីដែលយើងបានកំណត់នៅខាងលើ មិនមែនជាពាក្យបញ្ជាទេ។
បន្ទាប់ពី Run កូដខាងលើហើយ លោកអ្នកនឹងទទួលបានលទ្ធផលដូចរូបខាងក្រោមនេះ
ប្រភពៈ
- Scrapy 1.1 Documentation. Scrapy