Help

Welcome to the Brieven als Buit search. You can search the contents of the Brieven als Buit collection via a simple search interface and via CQL. Searches for linguistic issues, for metadata and a combination of both can be carried out. Linguistic annotation of each word in the letters allows not only searching a particular historical word form, but also Part of Speech (PoS) and Modern Lemma searching.

Simple Search

You can search for words matching one or more of the three properties: WORD FORM, LEMMA and PART OF SPEECH. Use the search boxes on the top left of the website's home page.

A word form is an occurrence of a word in the text. By typing capteijn ('captain') in the word form search box, you will find the occurrences of capteijn in the collection. Since capteijn is only one of the possible historical spellings for “kapitein”, finding all occurrences of ‘captain’ is possible by typing the Modern Dutch lemma kapitein in the lemma search box. A lemma is the corresponding Modern Dutch word form in its official spelling. A lemma presents the “dictionary form”: singular nouns and verb infinitives. In the case of pronouns, a lemma presents the subject form, for instance ik ‘I’ for the word forms ic, ick, mij, my.

Note that a lemma presents a corresponding form, for instance the historical words huijsvrouw, husfrou etc. correspond with the lemma huisvrouw; they do not correspond with the lemmas vrouw or echtgenote which are the Modern Dutch words for this notion.

It is also possible to search for words with a specific Part of Speech in the text. For example, if you would like to know which prepositions were used in the text, search for adp in the Part of Speech search field.

The list of Part of Speech tags is:

  • VRB: verb
  • NOU: noun
  • NEPER: person name
  • NEORG: organisation name, e.g. VOC
  • NELOC: location name. e.g. street name, city, region, country
  • NEOTHER: other named entities, e.g. name of a ship
  • ADJ: adjective
  • ADP: adposition
  • ADV: adverb
  • ART: article
  • NUM: numeral
  • PRN: pronoun/determiner
  • CON: conjunction
  • INT: interjection
  • RES: residual, e.g. abbreviations
  • UNRESOLVED: lemma or part of speech unclear

Combining features is possible when searching. If you are looking for the lemma leven as a verb ('to live'), type leven in the Lemma search box and vrb in the Part of Speech search box. You will find all instances of the verb leven.

Searching with a * wildcard is also possible. Searching for kind ‘child’ without wildcard results into all singular and plural forms of kind. Searching with *kind adds among other grootkind and minnekind. Searching with kind* results into the diminutive kindje (singular and plural: kindje, kindjes and kindertjes) and other derivations (kinderlijk, kinderachtig) and compounds (kinderschool, kinderdoop). Combining two wildcards such as *kind* is also possible.

Wildcard search is supported for WORDFORM, LEMMA and PART OF SPEECH searches. The * (asterisk) symbol matches zero or more characters.

Searching for a word group is also possible by simply typing the word group in the search box. Typing lief man ('sweet husband/man') in the lemma search box will give you all occurrences of words with the lemma lief immediately followed by words with the lemma man. If you want to search for the combination het leven ('the life') where leven is a noun, type the string het leven in the lemma search box and art nou in the Part of Speech search box. Some lemmas, often names, consist of combinations of words, such as Saint Kitts and the Vergulde Kroon (ship) which can be searched by using a wildcard (Saint* or *Kitts). The same applies to combinations of foreign words such as a costi ‘at your place’

Important for all searches: A search can be performed by clicking on SEARCH in the window or using ENTER on your keyboard. By clicking on RESET, all selections or information in search boxes will be cleared.

Filtering and searching by metadata

On the right hand side of the homepage you find the Filter search by item.

All the above mentioned searches are performed on the complete corpus. You can search in the same manner in a particular subset of the material by using the metadata information accompanying each letter in the collection. The metadata are data related to the letters, the senders, the addressees and the location from where the letter was sent. These distinctions correspond with the tabs LETTER, SENDER, ADDRESSEE and SENT FROM. Per tab, it is possible to specify criteria by which to search.

In the tab LETTER, you can specify your search by using the following filter criteria: YEAR (of writing), TEXT TYPE (private or business letter), AUTOGRAPH (autograph, non-autograph, uncertain), SIGNATURE (the signature in the High Court of Admiralty Archives (HCA), kept in The National Archives in Kew, UK).

Additional information: The majority of letters in the corpus are private letters. Letters to relatives and friends containing both personal and commercial information are considered private letters. Three groups of letters are distinguished according to their autograph status. In the case of autographs, it was established that the sender of the letter wrote the letter himself. In the case of non-autographs, it was determined that the sender of the letter is not identical to the person who wrote the letter. In the case of uncertain letters, research has as yet not confirmed whether the letter is an autograph or not.

In the tab SENDER, you can specify your search by using the following criteria: NAME, GENDER, CLASS, AGE, REGION OF RESIDENCE, RELATIONSHIP TO ADDRESSEE.

In the tab ADDRESSEE, you can specify your search by using the criteria NAME, PLACE, COUNTRY, REGION, SHIP.

Additional information:

  • SENDER: person who sent the letter. Note that this is not necessarily the writer of the letter, see above on autograph.
  • ADDRESSEE: person to whom the letter was sent.
  • NAME: the name of the sender or the addressee.
  • GENDER: the gender of the sender (male or female)
  • CLASS: Four social strata are distinguished, based on the stratification that is commonly used by social historians (cf. Willem Frijhoff & Marijke Spies, 1650. Bevochten eendracht. The Hague, 1999: Sdu, pp. 188-190). The four strata are: lower class (LC), lower middle class (LMC), upper middle class (UMC) and upper class (UC). 'Lower class' refers to sailors, servants, soldiers and have-nots. The lower middle class comprises petty shopkeepers, small craftsmen and minor officials. The upper middle class comprises the prosperous middle class, e.g. large storekeepers, well-to-do farmers, captains and non-commissioned officers. 'Upper class' refers to e.g. wealthy merchants, shipowners, academics, commissioned officers. Note that 'upper class' (UC) does not refer to the highest social layer that is usually distinguished, comprising the nobility and the non-noble ruling classes, which are not represented in the corpus.
  • AGE: Three age groups are distinguished: <30 (below 30), 30-50 (30 to 50 years old), and >50 (over 50).
  • REGION OF RESIDENCE refers to the region where a sender was born and raised or where he or she spent most of his or her life. The region of residence is usually a Dutch province such as Zeeland, South Holland or North Holland. The corpus contains, for example, many letters sent from the Caribbean, written by people originating from Holland and Zeeland, who are either travelling or settling in the Caribbean. In such cases, the region of residence is Holland or Zeeland (and not, for instance, Curacao). Establishing the region of residence of letter writers is important for linguistic research on regional differences. Note that the metropolis of Amsterdam, despite being part of North Holland, constitutes a separate region of residence for demographic reasons.
  • RELATIONSHIP TO ADDRESSEE: the relationship, either personal and/or professional, of the sender and the addressee (e.g. father, daughter, cousin, friend, employer).
  • In the tab ADDRESSEE we distinguish the criteria PLACE/COUNTRY/REGION/SHIP which are also found in the tab SENT FROM.
    • PLACE: the place from which or to which a letter was sent, for instance the town of Middelburg.
    • SHIP: the ship from which or to which a letter was sent, for instance De Mars.
    • COUNTRY: the country from which or to which a letter was sent. Note that for most places, regions and countries contemporary names are used, which means, for example, that Ceylon is called Sri Lanka, and Sint Christoffel is called Saint-Kitts.
    • REGION. Within the Dutch language area, 'region' refers to a province or dialect area, for instance Zeeland. For the Dutch language area, it is important to know from or to which dialect area or province the letter is sent, in order to establish regional background information and to enable research on regional variation. Outside the Dutch language area, region indicates a geographical region such as the Caribbean or Asia. Distinguishing this kind of regions allows us to select, for example, all letters sent from the Caribbean in a particular period. To illustrate our practice we give a few examples. A letter sent from Rotterdam is categorized as follows: place = Rotterdam, region = Zuid-Holland (South Holland), country = Nederland (Netherlands).

 A letter sent from Basseterre on the island of Saint Kitts is categorized as follows: place = Basseterre, country = Saint Kitts, region = Caraïbisch gebied (Caribbean). The regions distinguished outside of the language area include Noord-Europa (Northern Europe), Zuid-Europa (Southern Europe), Caraïbisch gebied (Caribbean), Noord-Amerika (North America), Noord-Afrika (North Africa), West-Afrika (West Africa), Zuid-Afrika (South Africa) and Azië (Asia).



Conclusion: it is possible to filter linguistic searches by using the metadata criteria discussed, but it is also possible to search the metadata information only. You can, for instance, search for all letters sent by women older than 50 from Amsterdam.

Practical information: The filters are presented either as text input fields where you can type one or more words, or by option lists. In the option lists, multiple items can be selected.

The text input fields work in a similar way as in Google. When entering two terms into the text input fields, e.g. Jan Pieters, the application searches for either Jan OR Pieters OR both. By using quotes ("Jan Pieters"), results will only contain the word group.

Search results

Search results can be presented in four different ways: Per hit, Per document, Hits Grouped, Documents Grouped.

Per Hit

Here the search results are presented in the form of concordances, the word searched for in context. The word that is searched for (the hit), is in bold type and supplied with the information on its Modern Dutch lemma and part of speech. The order is alphabetical. For a chronological order you have to click on Per document and subsequently on Year.

The number of concordances per page can be determined by choosing the number from the drop-down list after SHOW ME. The number of pages that can be displayed are presented above the concordances. By clicking on a number or on NEXT you can see the results of another page.

To view in which documents the hits were found, click on Show/hide titles. By clicking on Show/hide titles again, the titles disappear.

Clicking on a title is the way to view the complete document: metadata, text and images. Within the text, the hits are highlighted. By hovering over the words in the text, the linguistic annotation with the Modern Dutch Lemma is visible. The images become visible by clicking on the tab IMAGES. To go back to the text view, click on the tab TEXT.

By clicking on a concordance line, more context is presented. There are several ways in which you can change the order of the concordances. By clicking on LEFT CONTEXT and choosing "word" the concordances are sorted by ordering the word to the left of the hit text alphabetically. You can do the same for RIGHT CONTEXT. By clicking on HIT TEXT or LEMMA or PART OF SPEECH, Hits or Lemmas or PoS's are presented in alphabetical order. To go from ascending to descending alphabetical order or vice versa, simply click on the chosen item again.

Per Document

To have a better overview of the documents in which your search was successful, switch to the per-document view by clicking on PER DOCUMENT. The documents are listed, with one example accompanied by information on the date of the document and the total number of occurrences of the hit text in the document. The complete document can be viewed by either clicking on the title or on VIEW DOCUMENT.

There are several ways in which you can change the order of the documents. By clicking on DOCUMENT TITLE, the information is presented in alphabetical order. To go from ascending to descending alphabetical order or vice versa, simply click on DOCUMENT TITLE again. By clicking on YEAR, the documents are presented in chronological order. To go from chronological order to reverse chronological order and vice versa, simply click on YEAR again. By clicking on HITS, the documents are ordered by frequency. To go from low to high frequency or vice versa, simply click on HITS again.

Hits Grouped

In this view the search result can be grouped in different ways, all related to the hit text, which makes a first analysis of the search results easier. To use this view, click on HITS GROUPED. Then select in the drop down list the feature by which you want to group your search results. This can be document title, hit text, lemma, hit PoS, lemma and PoS, word left, word right or year. For instance, grouping the result of a query by lemma vrouw ('wife') by hit text will display the frequency of occurrence of each word form in the paradigm of the lemma.

It is possible to see concordances of one group in the overview by clicking on the green bar with the frequency number. In the concordance view that appears, you can get more concordances in the same view by clicking on LOAD MORE CONCORDANCES. To restore the original view without concordances, click on the same green bar again. It is possible to get a more detailed view of the concordances in a group, by clicking on VIEW DETAILED CONCORDANCES IN THIS GROUP. However, to change from the detailed concordances view back to the per-hit view, the search has to be repeated.

Documents Grouped

This view is similar to "Hits grouped" but now the data are grouped in different ways, all related to information on the document. To use this view, click on DOCUMENTS GROUPED. Then select in the drop-down list the feature by which you want to group your search results. This can be number of hits, by year and by author. Number of hits gives the number of documents per frequency of hits in a document of your search result, by year gives the number of documents per year in your search result, by author gives the number of documents per author in your search result. To see the documents per overview, do the same as described in "Hits grouped", be it that now you see an orange bar.

CQL query

Corpus Query Language

Click on the tab “CQL query” to use the Corpus Query Language. This is an advanced query language developed at IMS, University of Stuttgart in the early 1990s, designed to support very specific retrieval of phrase types in the corpus. It expresses phrase queries as sequences of token queries. It is therefore mainly useful if you want to find specific types of phrases in a larger text. An example of a simple query (note that the quotes are required):"grote" ".*heid".

This is how you search for the word “grote” followed by a word ending with “heid”, using regular expressions to specify the pattern for the second word. Equivalent to the above query is:[word="grote"] [word=".*heid"] which has the typical form of a CQL query: a phrase query built up from token queries surrounded by square brackets.

Single token queries

These typically consist of a combination of simple attribute value queries in the form of either:

  • token attribute=single token regular expression [word=".*heid"] surrounded by square brackets
  • default token attribute regular expression ".*heid"

In this corpus, the following token attributes are available for querying:

  • word - The word as it was written. This is the default attribute in this corpus, so queries in the form (2) search for word forms
  • lemma - Dictionary headword form of words
  • pos - Part of speech

A typical example using all three token attributes: [pos="adj"] [lemma="man" & word != "man"]. This is how you search for adjectives followed by the noun “man”, appearing in any form not equal to the dictionary headword form.

Phrase queries

As you have seen, phrase queries can simply consist of a sequence of single token queries. Apart from this, regular expression notations are available to express sequences of tokens. For example:"der.*"{2,}. This query finds two or more successive words starting with "der". At the token level, regular expression operators such as *, + and ? are available. Another example: [pos="a.*"]+ "man". This will find the word "man" with one or more adjectives applied to it.

Summary of Corpus Query Language support

The following CQL constructs are supported:

  • Token constraints of the form [word="koe"] or "koe" (default property). Constraint values may be regular expressions, e.g. [word="str.+"] . The regular expression operators are:
    • . (full stop) matches arbitrary character: b.k finds bok, bak, bek, bik, etc..
    • * matches zero or more occurrences of the preceding letter or bracketed group: .*schip finds words ending with schip (also matching “schip”), dia.* finds words beginning with dia, .*deel.* finds words with deel in the middle.
    • + matches 1 or more occurrences of the preceding letter or bracketed group: .+schip finds words ending with schip (not matching “schip”)
    • {n,m} matches a sequence of n to m occurrences of preceding letter or group. Use {n} to find a sequence of length n, {n,} to find at least n, {0,n} to find at most n: [word=".*[aeiou]{5,6}.*"] finds words containing a group of 5 or 6 vowels
    • ? The bracketed items are optional characters: blond(e)? finds blond and blonde
    • | Vertical bar (disjunction): paard|koe|schaap searches for all of these items
    • [] Square brackets (character groups): b[ae]k finds bak, bek
    • \Backslash To search for a full stop, use the backslash and the full stop: Dr\. finds Dr.
  • Constraints may be combined by using boolean operators, both between token specifications (e.g. "stad" | "dorp" ) and within token specifications (e.g. [lemma="zijn" & type="ww.*"] ). Supported boolean operators are ! (not), & (and) and | (or). Implication (->) is not supported yet. Parentheses may be used to group expressions.
  • Phrase searches, by putting several token specifications in sequence, e.g.: "de" [lemma="koe"]
  • You can apply regular expression operators (* + ? {a,b}) to token specifications, e.g.: [type="ww.*"]+ (one or more verbs) or "k.*"{3,} (three or more words starting with k)
  • You can use match all tokens ([]) to match any word, e.g. "koe" []{1,2} "schaap" to find "koe" and "schaap" in that order with 1-2 words between them.
  • You can search within XML tags in the following ways: <ne> "de" (word at start of ne), "poorter" </ne> (word at end of ne), <ne/> containing "de" (all NEs containing the word "de"), "de" within <ne/> (all occurrences of "de" within an NE), <ne/> (all NEs). Tags may also contain attribute restrictions, such as <ne type="per"/> containing "van" (person names containing "van")

Help

Welkom bij de zoekfunctie van Brieven als Buit. U kunt de inhoud van de Brieven als Buit- collectie doorzoeken via een simpele zoekinterface en via CQL. Er is rekening gehouden met twee soorten van zoekacties: voor taalkundige vragen en voor de metadata. Uiteraard kunnen beide soorten van zoekacties gecombineerd worden. Omdat al het brievenmateriaal taalkundig is geannoteerd, is het mogelijk om niet alleen op een specifieke historische woordvorm te zoeken, maar ook op woordsoort (PoS; Part of Speech) en op het hedendaagse lemma van ieder woord in de tekst.

Simpel zoeken

Via de zoekbalkjes in de linker bovenhoek van de homepagina kunt u woorden zoeken op:

WORD FORM, LEMMA en PART OF SPEECH.

Een word form is het woord zoals dat in de brieven voorkomt. Als u capteijn (‘kapitein’) in de zoekbalk word form intikt, vindt u alle voorkomens van capteijn in het corpus. Het woord capteijn is slechts één van de mogelijke historische spellingen voor “kapitein”. Alle andere voorkomens met verschillende spellingen zijn te vinden door in de zoekbalk lemma het hedendaags Nederlandse kapitein in te tikken. In dit geval blijken er heel veel treffers en meer dan 100 verschillende spellingen van “kapitein” te zijn. De lemma’s zijn de corresponderende vormen in modern Nederlands, gespeld volgens de officïele spellingregels. Ze geven steeds de “woordenboekvorm”: enkelvoud bij naamwoorden en infinitief bij werkwoorden. Bij voornaamwoorden is het lemma altijd de subjectvorm, bijv. ik bij de woordvormen ic, ick, mij, my.

N.B.: de lemma’s geven moderne vormequivalenten en geen betekenisequivalenten. Bijv.: huijsvrouw, husfrou etc. hebben als lemma huisvrouw, en niet vrouw of echtgenote, de moderne woorden voor dit begrip.

Het is ook mogelijk om naar woorden te zoeken met een specifieke woordsoort (Part of Speech). Bijvoorbeeld: als u wilt weten welke voorzetsels er in de tekst gebruikt zijn, zoek dan voor ADP in de zoekbalk Part of Speech. De volgende woordsoorten zijn onderscheiden:

  • VRB: verb (werkwoord)
  • NOU: noun (zelfstandig naamwoord)
  • NEPER: person name (persoonsnaam)
  • NEORG: organisation name, e.g. VOC (naam van een organisatie)
  • NELOC: location name. e.g. street name, city, region, country (naam van een locatie)
  • NEOTHER: other named entities, e.g. name of a ship (andere entiteiten met een naam)
  • ADJ: adjective (bijvoeglijk naamwoord)
  • ADP: adposition (voorzetsel of achterzetsel)
  • ADV: adverb (bijwoord)
  • ART: article (lidwoord)
  • NUM: numeral (telwoord)
  • PRN: pronoun/determiner (voornaamwoord)
  • CON: conjunction (voegwoord)
  • INT: interjection (interjectie)
  • RES: residual, e.g. abbreviations (overig, bijv. Afkortingen)
  • UNRESOLVED: lemma or part of speech unclear (ONOPGELOST: lemma of woordsoort onduidelijk)

Het is mogelijk om kenmerken te combineren terwijl u zoekt. Als u zoekt met het lemma leven als werkwoord VRB), tik dan het volgende in: leven in de Lemma-zoekbalk en VRB in de Part of Speech-zoekbalk. U vindt dan alle voorkomens van het werkwoord leven.

Ook is het mogelijk om te zoeken met een * wildcard. Bijvoorbeeld: zoeken van kind zonder wildcard levert alle enkel- en meervoudsvormen op. Met *kind krijg je o.a. grootkind en minnekind, en kind* staat voor de verkleinvorm kindje (enkel- en meervoud, dus kindje, kindjes en kindertjes) en andere afleidingen (kinderlijk, kinderachtig) en samenstellingen (kinderschool, kinderdoop). Combinatie van de laatste twee, *kind*, is ook mogelijk.

Zoeken met een wildcard is mogelijk voor zoekacties in de zoekbalkjes van WORDFORM, LEMMA en PART OF SPEECH. Het (asterisk)-symbool staat gelijk aan nul of meer letters.

Zoeken naar een woordgroep is ook mogelijk. Als u de woordgroep lief man in de lemma-zoekbalk tikt, geeft dat als resultaat de voorkomens van woorden met het lemma lief direct gevolgd door woorden met het lemma man. Als u de combinatie het leven wilt zoeken, waarbij leven een zelfstandig naamwoord is, tikt u het leven in de lemma-zoekbalk en ART NOU in de Part of Speech-zoekbalk. Er zijn ook lemma’s die uit verbindingen bestaan. Meestal zijn dat namen als Saint Kitts en de Vergulde Kroon (schip). Die moeten gezocht worden door een wildcard te gebruiken: Saint* of *Kitts. Dit geldt ook voor verbindingen van woorden uit een vreemde taal, bijv. a costi ‘op uw plaats’.

Voor alle zoekopdrachten geldt: U kunt de zoekopdracht uitvoeren door op de SEARCH-knop in het scherm te klikken, of door de ENTER-toets op uw toetsenbord in te drukken. Door op RESET te klikken, worden alle selecties of de informatie in zoekbalken verwijderd.

Filteren en zoeken op metadata

Aan de rechterkant van de homepagina staat het kopje Filter search by.

Alle bovenstaande zoekopdrachten worden uitgevoerd op het gehele corpus. Als u op dezelfde wijze wilt zoeken naar een bepaald deel van het materiaal, dan kunt u dat doen door de metadata te gebruiken die bij iedere brief horen. Die metadata zijn gegevens van de brieven, de afzenders, de geadresseerden en de plaats vanwaar de brieven zijn verstuurd. Die gegevens corresponderen met de tabbladen LETTER, SENDER, ADDRESSEE en SENT FROM. Per tabblad is het mogelijk om criteria te noemen waarop u wilt zoeken.

In het tabblad LETTER, kunt u uw zoekopdracht specificeren met de volgende filtercriteria: YEAR (jaar waarin de brief is geschreven), TEXT TYPE (teksttype namelijk privé/ private of zakelijk/ business), AUTOGRAPH (autograaf, niet-autograaf, onzeker), SIGNATURE (de signatuur van de doos waarin brieven zich bevinden in de archieven van de High Court of Admiralty (HCA) in de National Archives in Kew, Verenigd Koninkrijk).

Toelichting: Het grootste deel van de brieven in het corpus zijn privébrieven. Brieven aan vrienden en familie die zowel persoonlijke als zakelijk informatie bevatten, worden als privébrieven beschouwd. In het geval van autografen (AUTOGRAPH) is vastgesteld dat de afzender ook de brief daadwerkelijk heeft geschreven. Bij niet-autografen (NON-AUTOGRAPH) heeft de afzender de brief niet zelf geschreven, maar dat door een ander laten doen. In onzekere gevallen (UNCERTAIN) hebben we niet kunnen bepalen of de brief een autograaf is of niet.

In het tabblad SENDER, kunt u uw zoekopdracht specificeren door de volgende criteria te gebruiken: NAME, GENDER, CLASS, AGE, REGION OF RESIDENCE, RELATIONSHIP TO ADDRESSEE.

In het tabblad ADDRESSEE, kunt u uw zoekopdracht specificeren met de criteria NAME, PLACE, COUNTRY, REGION, SHIP.

Toelichting:

  • SENDER is de persoon die de brief heeft gestuurd. Let op dat dit niet altijd de daadwerkelijke scribent van de brief is (zie onder AUTOGRAPH).
  • ADDRESSEE is de persoon aan wie de brief is gestuurd.
  • NAME: de naam van de afzender of van de geadresseerde.
  • GENDER: het geslacht van de afzender (male/mannelijk of female/vrouwelijk)
  • CLASS: Er worden vier sociale lagen onderscheiden, gebaseerd op de stratificatie die gebruikelijk is onder historici (zie Willem Frijhoff & Marijke Spies, 1650. Bevochten eendracht. Den Haag 1999: Sdu, pp. 188-190). De vier sociale geledingen zijn: lower class (LC), lower middle class (LMC), upper middle class (UMC) en upper class (UC). Tot de lower class behoren bijvoorbeeld zeelui uit de laagste rangen, bedienden, soldaten en armen. De lower middle class bestaat onder meer uit kleine winkeliers, kleine boeren, zeelui uit lagere rangen, ambachtslieden. De upper middle class bestaat uit bijvoorbeeld kleine ondernemers, welvarende boeren, meester-ambachtslieden, kapiteins, lagere officieren (zoals stuurlieden). Tot de upper class behoren rijke kooplieden, reders, academici, hoge ambtenaren en hoge officieren bij leger en marine. Hierbij moet opgemerkt worden dat upper class (UC) dus niet verwijst naar de hoogste sociale klasse van adel en regenten. Die bovenlaag komt in het corpus niet voor.
  • AGE: Er worden drie leeftijdsgroepen onderscheiden namelijk <30 (jonger dan 30), 30-50 (30 tot 50 jaar) en >50 (ouder dan 50).
  • REGION OF RESIDENCE: heeft betrekking op de regio waar een afzender geboren en getogen is of waar hij of zij het grootste deel van zijn of haar leven heeft doorgebracht. De “region of residence” is meestal een Nederlandse provincie zoals Zeeland, Zuid-Holland of Noord-Holland. Het corpus bevat, bijvoorbeeld, veel brieven uit de Caraïben, gestuurd door personen die tijdelijk of langer in het Caraïbisch gebied verbleven, maar die oorspronkelijk uit Holland of Zeeland kwamen. De REGION OF RESIDENCE is dan Holland of Zeeland (en niet bijvoorbeeld Curaçao). Dit kenmerk is van belang voor het taalkundig onderzoek naar dialectverschillen.
  • N.B. Amsterdam, indertijd een metropool, wordt als aparte region of residence onderscheiden, ondanks het feit dat die stad in Noord-Holland ligt.
  • RELATIONSHIP TO ADDRESSEE: de relatie, persoonlijk en/of professioneel, die de afzender heeft met de geadresseerde (bijv. vader, dochter, neef of nicht, vriend of vriendin, werkgever).
  • Bij de ADDRESSEE worden vier plaatsaanduidingen onderscheiden PLACE/COUNTRY/REGION/SHIP die ook voorkomen onder de tab SENT FROM.
    • PLACE: de plaats waarnaar of van waaruit een brief verzonden is, bijvoorbeeld Enkhuizen of Middelburg.
    • SHIP: het schip waarnaar of van waaruit een brief verzonden is, bijvoorbeeld De Mars.
    • COUNTRY: het land waarnaar of van waaruit een brief verzonden is; hierbij worden hedendaagse namen gebruikt bijvoorbeeld Sri Lanka (en niet Ceylon) en Saint Kitts (en niet St. Christoffel).
    • REGION: heeft binnen het Nederlands taalgebied betrekking op een provincie of dialectgebied, zoals Zeeland. Binnen het taalgebied is het belangrijk om te weten uit of naar welk dialectgebied of welke provincie een brief verstuurd wordt om informatie over de regionale achtergrond vast te stellen en daarmee onderzoek naar regionale variatie mogelijk te maken. Buiten het Nederlands taalgebied duidt REGION op een geografische regio, zoals de Caraïben of Azië. Met dat onderscheid kunnen bijvoorbeeld alle brieven geselecteerd worden die in een bepaalde periode vanuit de Caraïben verstuurd zijn. Een paar voorbeelden ter illustratie. Een brief die vanuit Rotterdam verstuurd is wordt als volgt gecategoriseerd: place = Rotterdam, region = Zuid-Holland, country = Nederland. Een brief verstuurd vanuit Basseterre op het eiland Saint Kitts wordt gecategoriseerd als: place = Basseterre, country = Saint Kitts, region = Caraïbisch gebied. De regio’s die buiten het taalgebied onderscheiden worden, zijn: Noord-Europa, Zuid-Europa, het Caraïbisch gebied, Noord-Amerika , Noord-Afrika, West-Afrika, Zuid-Afrika en Azië.

Concluderend: het is dus mogelijk om taalkundige zoekacties te filteren met de hier besproken metadata-onderscheidingen, MAAR het is eveneens mogelijk om alleen de metadata te doorzoeken en zo bijvoorbeeld alle brieven van vrouwen ouder dan 50 verstuurd uit Amsterdam op te roepen.

Aanwijzing: De filters worden gepresenteerd als optielijsten of als velden waarin u tekst kunt invoeren door één of meerdere woorden in te tikken. In de optielijsten kunt u verschillende items selecteren. De velden waarin u tekst kunt invoeren, werken op een zelfde manier als Google. Als u twee woorden in de velden waarin u woorden kunt invoeren tikt, bijv. Jan Pieters, zoekt de applicatie naar Jan OF naar Pieters OF naar allebei. Door dubbele aanhalingstekens te gebruiken, verschijnen er zoekresultaten die alleen de woordgroep Jan Pieters bevatten.

Zoekresultaten

Zoekresultaten kunnen op vier manieren gepresenteerd worden: Per hit, Per document, Hits Grouped en Documents Grouped.

Per Hit

Hier worden de zoekresultaten gepresenteerd in alfabetische volgorde als lijst met het woord waarop is gezocht in een context. Het woord waarop gezocht is (de hit), is dikgedrukt en voorzien van informatie over het Modern Nederlandse lemma en de woordsoort. Om de resultaten chronologisch te ordenen moet u eerst op Per document klikken en vervolgens op Year.

Het aantal resultaten per pagina kan bepaald worden door een getal te kiezen uit het drop-downmenu dat verschijnt achter SHOW ME. Het aantal pagina’s met zoekresultaten wordt weergegeven boven de resultaten. Door op een nummer in de paginareeks te klikken, of door op NEXT te klikken, kunt u de zoekresultaten op een andere pagina bekijken.

Om te zien in welke documenten de hits gevonden zijn, klikt u op Show/hide titles. Klikt u nogmaals op Show/hide titles, dan verdwijnen de titels weer.

Door op een titel te klikken, kunt u het complete document bekijken: metadata, tekst en afbeeldingen. De hits worden in de tekst rood weergegeven. Als u uw muis over de woorden in de tekst laat gaan, wordt het Modern Nederlandse lemma getoond. De afbeeldingen worden zichtbaar door op het tabblad IMAGES te klikken. Om terug te gaan naar tekstweergave, klikt u op het tabblad TEXT.

Door op een regel in het zoekresultaat te klikken, wordt er meer tekst gepresenteerd. Er zijn verschillende manieren waarop u de volgorde van de zoekresultaten kunt veranderen. Door op LEFT CONTEXT te klikken en “word” te kiezen, worden de zoekresultaten gerangschikt door het linkerwoord van de hittekst alfabetisch te ordenen. U kunt hetzelfde doen voor RIGHT CONTEXT. Als u op HIT TEXT of LEMMA of PART OF SPEECH klikt, worden Hits of Lemma’s of PoS’s in alfabetische volgorde gepresenteerd. Door nogmaals op het gekozen item te klikken, kunt u de alfabetische volgorde van aflopend naar oplopend veranderen en andersom.

Per document

Om een beter overzicht van de documenten te hebben waarin uw zoekopdracht resulteerde, kunt u overgaan op de per-documentweergave, door op PER DOCUMENT te klikken. De documenten worden onder elkaar neergezet, met informatie over de datum van het document en het totale aantal voorkomens van de hit text in het document. U kunt het hele document bekijken door op de titel te klikken, of door op View document info te klikken.

Er zijn verschillende manieren waarop u de volgorde van de documenten kunt veranderen. Door op DOCUMENT TITLE te klikken, wordt de informatie op alfabetische volgorde gepresenteerd. Om de volgorde van oplopend naar aflopend en andersom te veranderen, klikt u nogmaals op DOCUMENT TITLE. Door op YEAR te klikken, worden de documenten in chronologische volgorde gepresenteerd. Om de chronologische volgorde van oplopend naar aflopend en andersom te veranderen, klikt u nogmaals op YEAR. Door op HITS te klikken, worden de documenten geordend aan de hand van frequentie. Om de volgorde van lage naar hoge frequentie te veranderen, klikt u simpelweg nogmaals op HITS.

Hits gegroepeerd

In deze weergave kunnen de zoekresultaten op verschillende manieren gegroepeerd worden. Deze manieren zijn allemaal gerelateerd aan de hit en maken de eerste analyse van de zoekresultaten gemakkelijker. Om deze weergave te gebruiken, klikt u op HITS GROUPED. Selecteer daarna de eigenschap uit het drop-downmenu waarop u de zoekresultaten wilt groeperen. De eigenschappen waaruit u kunt kiezen zijn: document title, hit text, lemma, hit PoS, lemma and PoS, word left, word right of year. Als u de resultaten van het lemma vrouw bijvoorbeeld groepeert op hit tekst, dan wordt de frequentie of het voorkomen van iedere woordvorm die valt onder het lemma weergegeven.

Het is mogelijk om resultaten van een bepaalde woordvorm in het overzicht te zien door te klikken op het groene balkje met de frequentie. In de resultaten kunt u meer tekst in het overzicht laten verschijnen door op LOAD MORE CONCORDANCES te klikken. Om de oorspronkelijke weergave, zonder tekstresultaten terug te krijgen, klikt u nogmaals op het groene balkje. Het is mogelijk om een gedetailleerder overzicht van de tekstresultaten in een groep te krijgen, door op VIEW DETAILED CONCORDANCES IN THIS GROUP te klikken. N.B. Om terug te gaan van de gedetailleerde weergave naar de per-hit-weergave, moet Hits grouped opniew aangeklikt worden en de zoekopdracht opnieuw uitgevoerd worden.

Documenten gegroepeerd

Deze weergave is vergelijkbaar met “Hits Grouped”, maar nu worden de data op verschillende manieren gegroepeerd. Deze data zijn allemaal gerelateerd aan informatie over het document. Klik op DOCUMENTS GROUPED om deze weergave te gebruiken. Selecteer daarna de eigenschap uit het drop-downmenu waarop u de zoekresultaten wilt groeperen. De eigenschappen waaruit u kunt kiezen zijn: number of hits, by year and by author. Als u op Number of hits klikt, krijgt u het aantal documenten per hitfrequentie in een document uit uw zoekresultaten te zien. Met by year krijgt u het aantal documenten per jaar in uw zoekresultaten te zien en met by author, krijgt u het aantal documenten per briefschrijver/ afzender in uw zoekresultaten te zien.

Om de documenten per overzicht te zien, doet u hetzelfde als is beschreven onder het kopje “Hits gegroepeerd”. Het enige verschil is dat u onder “Documenten gegroepeerd” oranje balkjes te zien krijgt, in plaats van groene.