Beanbag #169 | Project Amaze!

#169 ++I

Chapter 28 Facts

Number of paragraphs: 103
Number of sentences: 318
Number of tokens: 2,951
Number of unique tokens: 845

Number of speakers: 1
Grace : 41 tokens
Direct speech: 1.39% of tokens

Space: 3 sections; 100.00% of tokens

Words unusually frequent for Space sections:
farm, Taumoeba, xenonite, nitrogen, tennis.
Words unusually infrequent or lacking for Space sections:
he, much, say, we, room.

For the sentences count, segmentation was performed using spaCy. Tokenization is just based on whitespace, em-dash, en-dash, and ellipsis delimiters. Unique tokens are case-insensitive.

Speaker identification was done manually.

Unusually frequent or infrequent words are based on log-likelihood of lemmas (lemmatization by spaCy).

chapter-facts