# Access Contents of HTML Page

- Author:      Johannes Maucher & Daniel Grießhaber
- Last update: 2024-10-07

This notebook demonstrates how to parse a HTML document and access dedicated elements of the parse tree.
[Beautiful Soup](http://www.crummy.com/software/BeautifulSoup/bs4/doc/#) is a python package for parsing HTML. Download and install version 4 by typing:

> `pip install beautifulsoup4`

into the command shell. Once it is installed it can be imported by

In [1]:
from bs4 import BeautifulSoup

For accessing arbitrary resources by URL the python modul [urllib](https://docs.python.org/2/library/urllib.html) is used. Import the method `urlopen()` from this module:  

In [2]:
from urllib.request import urlopen

If these two modules are available the HTML parse tree of the specified URL can easily be generated as follows.

In [3]:
#url = "http://www.zeit.de"
url = "http://www.spiegel.de"
#url = "http://www.sueddeutsche.de"
html = urlopen(url).read()
soup = BeautifulSoup(html,"html.parser")

Now e.g. the title of the URL can be accessed by:

In [4]:
titleTag = soup.html.head.title
print(f"Title of page: {titleTag.string}")

Title of page: DER SPIEGEL | Online-Nachrichten


## Get all links in the page
All links in the page can be retrieven by the following code (only the first 20 links are printed)

In [5]:
href_links = [link for link in soup.findAll('a') if link.has_attr('href')]

for link in href_links[:20]:
    print(link['href'])

#Inhalt
https://www.spiegel.de/
https://abo.spiegel.de/?b=SPOHNAVABO&requestAccessToken=true&sara_icid=disp_upd_9h6L5hu8K1AAnttzYATx3hvk7taDkP&targetUrl=https%3A%2F%2Fwww.spiegel.de%2F
https://gruppenkonto.spiegel.de/authenticate?requestAccessToken=true&targetUrl=https%3A%2F%2Fwww.spiegel.de%2F
https://www.spiegel.de/fuermich/
https://www.spiegel.de/
https://www.spiegel.de/schlagzeilen/
https://www.spiegel.de/spiegel/
https://www.spiegel.de/audio/
https://www.spiegel.de/fuermich/
https://www.spiegel.de/schlagzeilen/
https://www.spiegel.de/plus/
https://www.spiegel.de/magazine
https://www.spiegel.de/thema/nahostkonflikt/
https://www.spiegel.de/thema/us-praesidentschaftswahl-2024/
https://www.spiegel.de/thema/ukraine_konflikt/
https://www.spiegel.de/thema/klimawandel/
https://www.spiegel.de/politik/deutschland/
https://www.spiegel.de/ausland/
https://www.spiegel.de/panorama/


## Get all news titles
Get title of all news, which are currently listed on [www.zeit.de](http://www.zeit.de):

In [6]:
all_titles = soup.findAll('h2')
all_title_links = []
for l in all_titles:
    #print(l)
    try:
        title = l.find('a')['title']
        link = l.find('a')['href']
        print('-'*40)
        print(title)
        print(link)
        all_title_links.append(link)
    except:
        pass

----------------------------------------
Kevin Kühnert tritt als SPD-Generalsekretär zurück
https://www.spiegel.de/politik/deutschland/kevin-kuehnert-tritt-als-spd-generalsekretaer-zurueck-a-07b4a07e-b914-4c55-97b8-faacbd983b76
----------------------------------------
Ihr tägliches Extra bei SPIEGEL+
https://www.spiegel.de/extra
----------------------------------------
»Wir wollen eine andere Regierung für die Menschen in Iran«
https://www.spiegel.de/politik/deutschland/iran-delegation-im-eu-parlament-hannah-neumann-ueber-die-strategie-in-nahost-a-12d64d78-d693-4480-83ff-cf3cfa8050ed
----------------------------------------
Jüdische Gemeinden berichten von mehr antisemitischen Vorfällen
https://www.spiegel.de/panorama/gesellschaft/juedische-gemeinden-josef-schuster-spricht-von-zunahme-antisemitischer-vorfaelle-a-a1aa71e9-2dbf-44a5-b378-1e954b17c096
----------------------------------------
Gelbe Schleife am Kanzleramt soll Solidarität mit Hamas-Geiseln zeigen
https://www.spiegel.de/poli

## Get all images of the page

Get url of all images, which are currently displayed on [www.zeit.de](http://www.zeit.de):

In [7]:
all_images = [img for img in soup.findAll('img') if img.has_attr('src')]

for img in all_images[:10]:
    print(img['src'])

data:image/svg+xml,%3Csvg xmlns='http://www.w3.org/2000/svg' viewBox='0 0 949 534' width='949' height='534' %3E%3C/svg%3E
https://cdn.prod.www.spiegel.de/images/07a33cdb-c94f-4205-b72d-8192d3de791e_w960_r2.194_fpx50_fpy40.jpg
https://cdn.prod.www.spiegel.de/images/07a33cdb-c94f-4205-b72d-8192d3de791e_w920_r1.778_fpx50_fpy40.jpg
https://cdn.prod.www.spiegel.de/images/07a33cdb-c94f-4205-b72d-8192d3de791e_w520_r1.33_fpx50_fpy40.jpg
data:image/svg+xml,%3Csvg xmlns='http://www.w3.org/2000/svg' viewBox='0 0 520 520' width='520' height='520' %3E%3C/svg%3E
https://cdn.prod.www.spiegel.de/images/b689cf7a-d2b0-4edb-9ee6-83bd0bd313b7_w288_r1_fpx45_fpy57.jpg
data:image/svg+xml,%3Csvg xmlns='http://www.w3.org/2000/svg' viewBox='0 0 112 112' width='112' height='112' %3E%3C/svg%3E
https://cdn.prod.www.spiegel.de/images/9265dbae-c6f2-4be8-be44-1e5d08feff31_w112_r1_fpx42.75_fpy44.99.jpg
data:image/svg+xml,%3Csvg xmlns='http://www.w3.org/2000/svg' viewBox='0 0 112 112' width='112' height='112' %3E%3C/sv

## Get entire text of a news-article

In [8]:
article_url = all_title_links[0]
try:
    html=urlopen(article_url).read() #works if subdomains are referenced by absolute path
except:
    html=urlopen(url + article_url).read() #works if subdomains are referenced by relative path

soup=BeautifulSoup(html, "html.parser")
all_paragraphs = soup.findAll('p')
for paragraph in all_paragraphs:
    print(paragraph.get_text())

SPD-Generalsekretär Kevin Kühnert: »Jeder von uns muss und wird in dieser Kampagne über sich hinauswachsens«
Urban Zintel / DER SPIEGEL
SPD-Generalsekretär Kevin Kühnert hat seinen Rücktritt erklärt. In einem Brief schreibt er, dass er außerdem nicht mehr als Kandidat für die nächste Bundestagswahl antreten werde. Als Grund für seinen Rückzug aus der Politik nennt Kühnert seinen gesundheitlichen Zustand: »Die Energie, die für mein Amt und einen Wahlkampf nötig ist, brauche ich auf absehbare Zeit, um wieder gesund zu werden. Deshalb ziehe ich die Konsequenzen.«
Genauere Angaben zu seinem gesundheitlichen Zustand macht Kühnert in der Nachricht nicht. Er erwähnt, dass er den Stichtag gut ein Jahr vor der nächsten Bundestagswahl zum Anlass genommen habe, um dem SPIEGEL ein Interview zu geben 





. Gefragt nach den Wahlchancen der SPD für 2025 habe er gesagt: »Jeder von uns muss und wird in dieser Kampagne über sich hinauswachsen.«
Aber: »Ich selbst kann im Moment nicht über mich hinauswa

## Questions and Remarks
1. This notebook demonstrates how raw-text can be crawled from news-sites. But what is the drawback of this method?
2. Execute the entire notebook also for `www.zeit.de` and `www.sueddeutsche.de`.
3. What do you observe? How to solve the problem?