35:["$","$L2c",null,{"className":"content-sidebar paddingleft ","lg":4,"md":5,"sm":4,"children":["$","div",null,{"className":"sticky-sidebar-wrapper","children":["$","$L36",null,{"contentData":{"canonical":"https://developer.ibm.com/tutorials/scrape-data-from-the-web-using-watson-studio","updated_date":"2019-03-05T00:00:00","publish_date":"2019-03-05T00:00:00","check_date":"2026-10-15","archive_date":null,"full_slug":"scrape-data-from-the-web-using-watson-studio","slug":"scrape-data-from-the-web-using-watson-studio","content_type":"tutorials","subtype":null,"lang":"en","repo_group":"default","title":"Scrape data from the web using Python and AI","subtitle":"Extract, process, and import data to derive important entities and keywords","excerpt":"Web scraping involves using a program or algorithm to extract and process large amounts of data from the web. In this tutorial, you will learn about extracting data from the web using Watson Studio. Next, you’ll use Watson Natural Language Understanding to derive important entities and keywords.","contributors":[{"name":"Smruthi Raj Mohan","email":"smrraj32@in.ibm.com","hasAuthorProfile":false}],"editors":[{"name":"Neil MacKinnon","email":"neilmack@ca.ibm.com"}],"tags":null,"primary_category":"watson-studio","categories":["data","python","watson-studio","watson-apis"],"ibm_components":["watson-studio","watson-apis"],"content":"$37","navigation_items":"$30:props:children:props:children:0:props:children:props:navigationItems","code_sb_navigation":"

Summary

\n","code_sb_resources":null,"code_sb_related":null,"code_sb_recommended":null,"images":{"card_image":"","header_image":"","highlight_image":"","icon_image":"","social_image":"","square_image":""},"meta":{"meta_description":"Web scraping involves using a program or algorithm to extract and process large amounts of data from the web. In this tutorial, you will learn about extracting data from the web using Watson Studio. Next, you’ll use Watson Natural Language Understanding to derive important entities and keywords.","meta_keywords":"Web scraping, Watson Studio, Watson Natural Language Understanding,Python","meta_tags":"null","meta_title":"Scrape data from the web using Python and Watson Studio","og_meta":"null","twitter_meta":"null"},"github_links":null,"demo_links":null,"podcast_sources":null,"episode_source":null,"pagepost_custom_css_value":null,"pagepost_custom_js_value":null,"conference_id":null,"conference_registration":null,"has_registration":null,"conference_start_date":null,"conference_end_date":null,"session_start_date":null,"has_tracks":null,"menu_order":null,"conference_node_type":null,"disable_replay":null,"conference_start_date_offset":null,"conference_ui":null,"event_start_date":null,"event_end_date":null,"event_survey_url":null,"timezone_offset":null,"event_location":null,"event_url":null,"partners":null,"event_address":null,"embedded_slug":null,"video_service":null,"video_id":null,"video_id_type":null,"video_chat":null,"exhibit_type":null,"solutions_for":null,"featured_content_slugs":null,"also_found_in":null,"series_toc":null,"timezone_iana_zone":null,"dataset_format":null,"dataset_license_title":null,"ui_data":{"code_card_displayname":"","code_sb_navigation":"

Summary

\n","code_sb_recommended":null,"code_series_toc":"","collections":null,"component_links":null,"component_type":null,"course_duration":null,"course_url":null,"dataset_format":"","demo_links":null,"disable_replay":false,"episode_duration":null,"episode_source":null,"event_address":{"event_address_1":"","event_address_2":"","event_address_3":"","event_city":"","event_state_province":"","event_zip_postal_code":"","event_country":""},"event_location":"","event_survey_url":null,"event_url":null,"featured_content_slugs":null,"getting_started_guide":null,"is_portal_with_slack":false,"join_slack_message":null,"newportal":false,"slack_workspace_url":null},"found_in_portals":null,"is_private":"false","ibmcode_private":null,"audio_file_url":null,"listening":null,"time_to_read":null,"like_count":0,"dislike_count":0,"trial_link":[{"label":"Try watsonx.ai","url":"https://dataplatform.cloud.ibm.com/registration/stepone?context=wx&cm_sp=ibmdev-_-developer-_-trial"},{"label":"Try Watson Studio","url":"https://dataplatform.cloud.ibm.com/registration/stepone?context=cpdaas&apps=data_science_experience&cm_sp=ibmdev-_-developer-_-trial"}],"children":null,"left_nav":{"content_types":["articles","blogs","courses","learningpath_items","learningpaths","series","tutorials"],"related_topics":[{"slug":"artificial-intelligence","name":"Artificial intelligence","type":"technologies"},{"slug":"machine-learning","name":"Machine Learning","type":"technologies"},{"slug":"data","name":"Data","type":"technologies"},{"slug":"data-science","name":"Data science","type":"technologies"},{"slug":"cloud-pak-for-data","name":"IBM Cloud Pak for Data","type":"components"}],"definition":{"system_id":152,"system_created_date":"2022-03-08T17:09:11.647371+00:00","system_updated_date":"2026-07-07T09:24:20.169671+00:00","slug":"watson-studio","language":"en","taxonomy":true,"type":"components","name":"Watson Studio","description":"IBM's integrated hybrid environment that provides flexible data science tools to build and train AI models and prepare and analyze data.","featured_content_heading":null,"all_content_heading":null,"template":"component","excerpt":"Simplify and scale data science to predict and optimize your business outcomes","more_resources":[],"featured_content":[],"solutions_sections":null,"featured":true,"hide_hub":false,"adv_tool":true,"contribute_form":false,"cc_labels":["Watson Studio","Data-&-AI"],"subtype":"ibmproducts","product_link":[{"label":"Get Watson Studio","url":"https://www.ibm.com/products/watson-studio?cm_sp=ibmdev-_-developer-_-product"}],"getting_started_guide":null,"previous_slug":"watson-studio-c","experts":null,"solutions_for_header":null,"links":[],"trial_link":[{"label":"Try watsonx.ai","url":"https://dataplatform.cloud.ibm.com/registration/stepone?context=wx&cm_sp=ibmdev-_-developer-_-trial"},{"label":"Try Watson Studio","url":"https://dataplatform.cloud.ibm.com/registration/stepone?context=cpdaas&apps=data_science_experience&cm_sp=ibmdev-_-developer-_-trial"}],"deactivate":null,"strategic_content_areas":["data"],"title":null,"section":null,"url":null,"items":null,"section_order":null,"action_button_text":null,"action_button_link":null,"image_url":null,"section_item_order":null,"style":null,"ignore_prod":null,"summary":null,"action_buttons":null,"delete":null},"strategic_content_areas":["data","generative-ai","programming-languages"]}},"categories":"$35:props:children:props:children:props:contentData:categories","taxonomies":{"solutions":{"name":"Solutions","type":"tagType"},"redhat-ansible":{"name":"Red Hat Ansible Automation Platform","type":"components"},"hashicorp-vault":{"name":"HashiCorp Vault","type":"components"},"maximo":{"name":"IBM Maximo Application Suite","type":"components"},"rag":{"name":"RAG","type":"technologies"},"topics":{"name":"Topics","type":"tagType"},"docling":{"name":"Docling","type":"components"},"ibm-bob":{"name":"IBM Bob","type":"components"},"spark":{"name":"Apache Spark","type":"components"},"ci-cd":{"name":"CI/CD","type":"devpractices"},"quantum-computing":{"name":"Quantum computing","type":"depmodels"},"devops":{"name":"DevOps","type":"devpractices"},"reactive-systems":{"name":"Reactive systems","type":"depmodels"},"paas":{"name":"Platform as a service","type":"technologies"},"watsonx-data":{"name":"watsonx.data","type":"components"},"quantum-safe":{"name":"Quantum safe","type":"devpractices"},"artificial-intelligence":{"name":"Artificial intelligence","type":"technologies"},"edge-computing":{"name":"Edge computing","type":"depmodels"},"ibm-cloud-paks":{"name":"IBM Cloud Paks","type":"components"},"qradar":{"name":"IBM Security QRadar Suite","type":"components"},"section-item-courses":{"name":null,"type":"home-page-configuration"},"home-page-hero-banner":{"name":null,"type":"home-page-configuration"},"cloud-pak-for-integration":{"name":"IBM Cloud Pak for Integration","type":"components"},"natural-language-processing":{"name":"Natural language processing","type":"technologies"},"front-end-development":{"name":"Front-end development","type":"technologies"},"blockchain":{"name":"Blockchain","type":"technologies"},"data-privacy":{"name":"Data privacy","type":"technologies"},"langchain":{"name":"Langchain","type":"components"},"section-item-tutorials":{"name":null,"type":"home-page-configuration"},"depmodels":{"name":"Architectures and deployment models","type":"tagType"},"instana":{"name":"IBM Instana","type":"components"},"ibmz":{"name":"IBM Z and z/OS","type":"components"},"watsonx-ai":{"name":"watsonx.ai","type":"components"},"beeai":{"name":"BeeAI","type":"components"},"open-j9":{"name":"Eclipse OpenJ9","type":"components"},"deep-learning":{"name":"Deep learning","type":"technologies"},"redhat-enterprise-linux-ai":{"name":"RHEL AI","type":"components"},"ibm-db2-warehouse":{"name":"IBM Db2 Warehouse","type":"components"},"envizi":{"name":"IBM Envizi","type":"components"},"docker":{"name":"Docker","type":"components"},"cloud-pak-for-applications":{"name":"IBM Cloud Pak for Applications","type":"components"},"containers":{"name":"Containers","type":"technologies"},"conversation":{"name":"Conversational AI","type":"technologies"},"open-liberty":{"name":"Open Liberty","type":"components"},"jakarta":{"name":"Jakarta EE","type":"components"},"granite-models":{"name":"Granite models","type":"components"},"watsonx":{"name":"watsonx","type":"components"},"section-item-articles":{"name":null,"type":"home-page-configuration"},"cloud-pak-for-data":{"name":"IBM Cloud Pak for Data","type":"components"},"ibm-linuxone":{"name":"IBM LinuxONE","type":"components"},"node-js":{"name":"Node.js","type":"languages"},"data-prep-kit":{"name":"Data Prep Kit (DPK)","type":"components"},"vision":{"name":"Computer vision","type":"technologies"},"maximo-visual-inspection":{"name":"IBM Maximo Visual Inspection","type":"components"},"section-item-messaging":{"name":null,"type":"home-page-configuration"},"section-item-security":{"name":null,"type":"home-page-configuration"},"section-item-learning-paths":{"name":null,"type":"home-page-configuration"},"section-item-genai-demo-hub":{"name":null,"type":"home-page-configuration"},"section-item-watsonx-ai-trial":{"name":null,"type":"home-page-configuration"},"section-item-ibm-cloud-catalog":{"name":null,"type":"home-page-configuration"},"section-item-ibm-granite-code":{"name":null,"type":"home-page-configuration"},"section-item-redhat-developer":{"name":null,"type":"home-page-configuration"},"hybrid-cloud":{"name":"Hybrid Cloud","type":"depmodels"},"hyper-protect":{"name":"IBM Cloud Hyper Protect Services","type":"components"},"section-item-hashicorp-developer":{"name":null,"type":"home-page-configuration"},"section-item-call-for-code":{"name":null,"type":"home-page-configuration"},"section-item-ibm-tech-exchange-community":{"name":null,"type":"home-page-configuration"},"home-page-hero":{"name":null,"type":"home-page-configuration"},"section-item-open-source":{"name":null,"type":"home-page-configuration"},"section-item-guided-projects":{"name":null,"type":"home-page-configuration"},"section-item-ibm-developer-newsletter":{"name":null,"type":"home-page-configuration"},"android":{"name":"Android","type":"components"},"section-explore":{"name":null,"type":"home-page-configuration"},"section-code":{"name":null,"type":"home-page-configuration"},"section-item-hackathons":{"name":null,"type":"home-page-configuration"},"section-item-watsonx-dev-hub":{"name":null,"type":"home-page-configuration"},"cloud-native-apps":{"name":"Cloud-native app development","type":"devpractices"},"data":{"name":"Data","type":"technologies"},"elyra":{"name":"Elyra","type":"components"},"aix":{"name":"IBM AIX","type":"components"},"ibm-mq":{"name":"IBM MQ","type":"components"},"api":{"name":"API management","type":"devpractices"},"application-modernization":{"name":"Application modernization","type":"devpractices"},"databases":{"name":"Databases","type":"technologies"},"data-management":{"name":"Data management","type":"technologies"},"data-stores":{"name":"Data storage","type":"technologies"},"aws":{"name":"Amazon Web Services (AWS)","type":"components"},"data-science":{"name":"Data science","type":"technologies"},"cloud-ibm":{"name":"IBM Cloud","type":"components"},"cloud-code-engine":{"name":"IBM Cloud Code Engine","type":"components"},"ibm-power":{"name":"IBM Power","type":"components"},"semeru-runtimes":{"name":"IBM Semeru Runtimes","type":"languages"},"security-verify":{"name":"IBM Security Verify","type":"components"},"cloud-pak-for-security":{"name":"IBM Cloud Pak for Security","type":"components"},"cloud-pak-for-watson-aiops":{"name":"IBM Cloud Pak for AIOps","type":"components"},"home-page-hero-carousel-item-2":{"name":null,"type":"home-page-configuration"},"home-page-hero-carousel-item-3":{"name":null,"type":"home-page-configuration"},"section-learn":{"name":null,"type":"home-page-configuration"},"section-engage":{"name":null,"type":"home-page-configuration"},"section-item-ai":{"name":null,"type":"home-page-configuration"},"section-item-data":{"name":null,"type":"home-page-configuration"},"section-item-cloud-native":{"name":null,"type":"home-page-configuration"},"section-item-observability":{"name":null,"type":"home-page-configuration"},"section-item-instructlab":{"name":null,"type":"home-page-configuration"},"section-item-trials":{"name":null,"type":"home-page-configuration"},"section-item-api-hub":{"name":null,"type":"home-page-configuration"},"section-item-python":{"name":null,"type":"home-page-configuration"},"section-item-open-liberty":{"name":null,"type":"home-page-configuration"},"section-item-nodejs":{"name":null,"type":"home-page-configuration"},"section-item-pytorch":{"name":null,"type":"home-page-configuration"},"section-item-cobol":{"name":null,"type":"home-page-configuration"},"components":{"name":"Products and services","type":"tagType"},"home-page-events":{"name":null,"type":"home-page-configuration"},"devpractices":{"name":"Development practices","type":"tagType"},"section-item-java":{"name":null,"type":"home-page-configuration"},"technologies":{"name":"Technologies","type":"tagType"},"languages":{"name":"Languages, frameworks, and runtimes","type":"tagType"},"home-page-hero-carousel-item-1":{"name":null,"type":"home-page-configuration"},"section-build":{"name":null,"type":"home-page-configuration"},"storage":{"name":"Storage","type":"technologies"},"sterling":{"name":"IBM Sterling","type":"components"},"aiops":{"name":"AIOps","type":"devpractices"},"cloud":{"name":"Cloud","type":"depmodels"},"guardium":{"name":"IBM Guardium","type":"components"},"ibm-i":{"name":"IBM i","type":"components"},"analytics":{"name":"Analytics","type":"technologies"},"spss-modeler":{"name":"IBM SPSS Modeler","type":"components"},"kafka":{"name":"Apache Kafka","type":"components"},"jsphere":{"name":"IBM JSphere Suite for Java","type":"components"},"turbonomic":{"name":"IBM Turbonomic","type":"components"},"automation":{"name":"Automation","type":"technologies"},"iot":{"name":"IoT","type":"technologies"},"istio":{"name":"Istio","type":"components"},"infrastructure":{"name":"IT Infrastructure","type":"technologies"},"java":{"name":"Java","type":"languages"},"java-platform":{"name":"Java Platform","type":"components"},"javascript":{"name":"JavaScript","type":"languages"},"jupyter":{"name":"Jupyter","type":"components"},"knative":{"name":"Knative","type":"components"},"kserve":{"name":"KServe","type":"components"},"kubeflow":{"name":"Kubeflow","type":"components"},"kubernetes":{"name":"Kubernetes","type":"components"},"cobol":{"name":"COBOL","type":"languages"},"large-language-models":{"name":"Large language models (LLMs)","type":"technologies"},"linux":{"name":"Linux","type":"technologies"},"linux-on-ibm-power":{"name":"Linux on IBM Power","type":"components"},"machine-learning":{"name":"Machine Learning","type":"technologies"},"netezza-performance-server":{"name":"Netezza Performance Server","type":"components"},"mainframe":{"name":"Mainframes","type":"technologies"},"messaging":{"name":"Messaging","type":"technologies"},"microprofile":{"name":"MicroProfile","type":"components"},"microservices":{"name":"Microservices","type":"depmodels"},"generative-ai":{"name":"Generative AI","type":"technologies"},"serverless":{"name":"Serverless","type":"depmodels"},"mobile":{"name":"Mobile development","type":"technologies"},"mqtt":{"name":"MQTT","type":"components"},"multicloud-development":{"name":"Multicloud development","type":"devpractices"},"node-red":{"name":"Node-RED","type":"components"},"observability":{"name":"Observability","type":"devpractices"},"pytorch":{"name":"PyTorch","type":"components"},"quarkus":{"name":"Quarkus","type":"components"},"geolocation":{"name":"Geolocation","type":"technologies"},"opensource-ai":{"name":"Open Source AI","type":"technologies"},"open-source-development":{"name":"Open-source development","type":"devpractices"},"python":{"name":"Python","type":"languages"},"redhat-enterprise-linux":{"name":"RHEL","type":"components"},"redhat-openshift":{"name":"Red Hat OpenShift","type":"components"},"redhat-openshift-ibm-cloud":{"name":"Red Hat OpenShift on IBM Cloud","type":"components"},"redhat-openshift-ai":{"name":"Red Hat OpenShift AI","type":"components"},"security":{"name":"Security","type":"devpractices"},"software-development":{"name":"Software development","type":"devpractices"},"agentic-ai":{"name":"Agentic AI","type":"technologies"},"cloud-pak-for-automation":{"name":"IBM Cloud Pak for Business Automation","type":"components"},"tekton":{"name":"Tekton","type":"components"},"tensorflow":{"name":"TensorFlow","type":"components"},"terraform":{"name":"Terraform","type":"components"},"speech-and-empathy":{"name":"Speech and Empathy","type":"technologies"},"spring":{"name":"Spring","type":"components"},"watsonx-governance":{"name":"watsonx.governance","type":"components"},"watson-apis":{"name":"Watson APIs","type":"components"},"watson-assistant":{"name":"watsonx Assistant","type":"components"},"watson-discovery":{"name":"Watson Discovery","type":"components"},"web-development":{"name":"Web development","type":"technologies"},"zero-trust":{"name":"Zero trust","type":"technologies"},"ibm-db2-database":{"name":"IBM Db2","type":"components"},"watsonx-orchestrate":{"name":"watsonx Orchestrate","type":"components"},"watson-studio":{"name":"Watson Studio","type":"components"},"ibm-quantum-safe":{"name":"IBM Quantum Safe","type":"components"}}}]}]}]