Ordforråd av rappere og russiske klassikere. Om vokabularet til kjente forfattere, poeter og rockemusikere

Inspirert av ideen om det største vokabularet innen hiphop, ønsket forskningsingeniør Varun Jewalikar å lage en lignende analyse av et bredere spekter av artister fra forskjellige sjangre. Jeg gikk gjennom listen over bestselgende musikere og bestemte meg for å grave dypere. Det viste seg at Eminem har størst variasjon av ord i tekstene sine.

Listen er ganske stor (99 musikere og 25 sjangre), og for at analysen skulle være ganske interessant og liten, bestemte jeg meg for ikke å fortelle hvordan den ble gjennomført. Etter å ha samlet inn data fra nettstedet Musixmatch, kom jeg frem til følgende analyse.

De samme 93 musikerne fra den samme listen er sortert etter sjanger. (93 fordi Bruce Springsteen, Chicago, Def Leppard, Journey, The Beach Boys og The Doors fra hovedlisten 99
Artistene fikk ikke tillatelse av Musixmatch til å bruke tekstene til sangene deres. Derfor kan de ikke inkluderes i analysen).

Målet er å sammenligne størrelsen på musikernes vokabular. Noen av dem har gitt ut mange flere låter enn andre på grunn av en lengre karriere på scenen eller på grunn av musikalen deres
veibeskrivelse.

For å unngå at analysen blir feil på grunn av ulikt antall sanger, tok jeg med kun de 100 tettest formulerte sangene fra hver artist. Bare 6 av alle musikere har mindre enn 100 sanger, så det er en ganske god grense. Også 100 sanger spenner over 8-10 album som spenner over 5 til 10 års arbeid. Dette gir et sant bilde av musikernes samlede ordforråd.

Her er noen betydninger vi skal se på:

Leksikon: Antall unike ord (på hvilket som helst språk) brukt av en musiker i de 100 (eller færre) sangene med høyest antall ord i karrieren.

Tekstinnhold: Det totale antallet ord (på hvilket som helst språk) brukt av en musiker i de 100 (eller færre) sangene med høyest antall ord i karrieren.

New Word Interval (NWI): Gjennomsnittlig antall ord som en musiker bruker et nytt ord etter. Dette er koeffisienten (tekstinnhold / ordforråd). NWI fra n betyr at hvert n-ord er et nytt ord i artistens tekster som han/hun aldri har brukt i sangene sine før.

Det er bare 4 rappere på listen, og de er alle på toppen når det gjelder ordforrådsstørrelse. Blant dem er Eminem, fulgt av Jay-z, 2Pac, Kanye West og The Black Eyed Peas med god margin. Eminem har også mest
høy andel av antall ord i sangen 1018,5.

Med hvor klare og beskrivende sangene hans er, er det ikke rart Bob Dylan er rangert så høyt. Han rangerer også ganske høyt på New Word Interval (#11), med et gjennomsnitt av et nytt ord etter hvert 9. ord.

Disse superstjernene har gitt ut sanger på en rekke populære språk. Ordforrådet deres ble oppsummert, noe som førte til en ganske høy verdi i den samlede toppen. Jeg forventet ikke dette resultatet da jeg startet analysen.

Jeg forventet ikke at en popsensasjon som henne skulle rangere så høyt siden de er avhengige av enkelhet i sangene sine. Hun er også den eneste som har kommet seg inn blant de 15 beste artistene når det gjelder vokabularstørrelse og totalt antall solgte sertifiserte album.

Og hvem sa at sanger ikke kan selges uten tekster?

Gjennomsnittlig vokabularstørrelse blant alle musikere er 2677 ord. Rundt 40 musikere har et vokabular på mindre enn 400 ord i gjennomsnitt. Nå denne rekkevidden med ditt lyriske ordforråd, og du vil bli en av de bestselgende artistene.

De tre bestselgende artistene gjennom tidene rangerer ganske lavt når det gjelder vokabularstørrelse. Det er ikke rart at enkelheten i sangene deres bryter barrierer for geografi, alder og språk, og de er æret over hele verden. Tvert imot ligger Mariah Carey ganske høyt på begge listene (9. plass i salg og 20. plass i vokabularstørrelse).

Tabellen nedenfor viser gjennomsnittlig vokabular for artister i forskjellige sjangere. Antall artister som representerer denne sjangeren er oppgitt i parentes. Siden listen vår kun inneholder 93 musikere, er ikke dette den beste generaliseringen.

Noen mønstre kan merkes. Hip-hop er hode og skuldre over alle andre sjangere. Folk tar andreplassen, men siden det kun er én representant på listen (Bob Dylan), er ikke dette en indikator i det hele tatt. Pop er sjangeren med flest musikere, og dens gjennomsnittlige vokabular (2 464 ord) er nær gjennomsnittlig vokabular for alle artister (2 677 ord). Det samme gjelder rocksjangeren.

Det er stor variasjon i vokabularstørrelser innenfor de 93 bestselgende artistene, og det er i hovedsak ingen sammenheng mellom en musikers kommersielle suksess og størrelsen på vokabularet deres.

Ikke ta denne analysen som at en kunstner er bedre enn en annen, det er rett og slett et nytt blikk på arbeidet til disse fantastiske kunstnerne. Vi får bare et glimt inn i hodet til ulike låtskrivere, noen kan rive deg ut av hjertet med et par linjer, mens andre maler komplekse, intrikate bilder med tusen ord. Et sitat hentet fra en John Lennon-sang forklarer hele dilemmaet ganske godt: «Half of what I say does not sense, but I say it to reach your minds».

Alle sangtekster og andre data (bilder, album, sporlister) er hentet fra Musixmatch API. Python ble brukt til databehandling og analyse av sangtekster. Analysen kan forbedres hvis vi fjerner alle lyder som (ou, aaa osv.) og andre ord som ikke finnes i ordboken. Dataene og kodene kan publiseres hvis noen er interessert.

Det største vokabularet innen hiphop sammenligner vokabularet til ulike musikere basert på de første 35 000 ordene de skriver. I stedet for å sammenligne antall ord, tok vi de 100 sangene med flest ord. Bare av nysgjerrighet (og for litt avslutning) brukte vi samme metode for å beregne de første 10 000 ordene skrevet av hver kunstner. Resultatene fra de to studiene er ikke veldig forskjellige de fem beste musikerne har ikke endret seg. Topp ti er de samme, med en liten endring. Andrea Bocelli rykket fra nr. 8 til nr. 6, mens Black Eyed Peas rykket fra nr. 6 til nr. 7 og Julio Iglesias fra nr. 7 til nr. 8. Det er ingen mer merkbare endringer totalt sett. Så vi brukte 100 sanger som grense fordi det er mer musikalsk.

Yandex.Music-tjenesten har tegnet et kart over de mest populære ordene i russisk rap. Se den og les tjenesteundersøkelsen.

Hvordan ble dette gjort?"For hvert ord beregnet vi hvor ofte det forekommer i tekstene til rappere og alle andre utøvere (bare tekster tilgjengelig på Yandex.Music ble tatt - The Flows notat). For ikke å overvurdere frekvensen av ord som gjentas mye i en sang (for eksempel i refreng) ble ordet bare tatt i betraktning én gang for hvert spor. Den første frekvensen ble delt med den andre - jo høyere den resulterende indikatoren, desto mer karakteristisk ble ordet betraktet som bare verb og adjektiver som ble funnet i begge korpusene ble tatt i betraktning.

Hvilke er de mest populære? e rappernes ord?"De mest karakteristiske ordene for rap og hip-hop var faktisk, rap Og Hip Hop. Rappere snakker generelt mye om musikken deres og produksjonsprosessen. Ord spor, mikrofon, beat, rim eller for eksempel album er like karakteristiske for sjangeren som obskønt ordforråd eller sjargong - bil, hytte Og så videre. Minst typiske rap-ord måne, vår, fugl, regn, elv, vinge, stillhet, hjerte og så videre".

Hvordan har populære ord endret seg fra tidlig på 90-tallet til i dag?


I tillegg kan tjenesten vise de mest populære ordene i arbeidet til en individuell artist - for å gjøre dette, må du sette inn navnet hans i den aktuelle kolonnen.

Det var det vi gjorde.

På grunn av den økende interessen for battle-rap og hele hiphop-industrien generelt, presenterer vi for deg et detaljert konseptuelt apparat (rap-ordbok) om Rap slik at du kan forstå hva MC-er snakker om i kampene sine.

Automatisk tonejustering– Stemmebehandling og korrigeringsprogram, brukt til å korrigere utøverens sang i henhold til noter. Det har blitt et kjent navn innen rap og identifiserer alle stemmekorrigeringsprogrammer.

Underjordisk(underground - underground, underground) - en rekke kunstneriske bevegelser innen samtidskunst (i musikk, litteratur, kino, kunst, etc.), som motsetter seg massekulturen, mainstream.

Acapella- Tekst tatt opp på en mikrofon, separat fra minus.

Slag– Konkurranse mellom rapartister er vanligvis ledsaget av ydmykelse av motstanderen. En kampbane er ofte ikke noe mer enn en diss på en motstander. Kamper er delt inn i online-kamper (finnes på Internett) og live-kamper (alt skjer live).

Slå- Tromme-bass linje minus. Tidligere leste de til en perkusjonsdel skapt av beat-boksing eller tapping av objekter. Dette ordet ble opprinnelig brukt som en beat i rapmusikk. For øyeblikket kalles all musikk som rappes til en beat.

Beatbox– En beat skapt utelukkende med munnen, uten bruk av musikkinstrumenter.

Beatmaker– En person som lager beats i spesialiserte programmer som Cubase, FL Studio og andre. Et godt nivå av taktskaping er å bruke instrumenter som er tatt opp live og ikke bruke samples.

Biff(Beef) - Fiendskap mellom rapartister, fester eller labels, akkompagnert av diss og hyppige liveoppgjør.

Bootleg(bootleg) - en piratkopiert samling spor som artisten kanskje aldri vet om.

Becky– Et ekstra innspilt lydspor, der utøveren vanligvis bare uttaler andre del av linjen eller fremhever rim og fraser.

Backing vokalist– En person som hjelper utøveren på scenen. Som regel uttaler han den andre delen av linjen slik at utøveren har mulighet til å trekke luft på dette tidspunktet.

Mot() - En av de to mest populære live-kampene i Russland. Basert i St. Petersburg.

Ghostwriter– En spesialist som skriver tekster for penger.

Dobbel tid– Lesingen er dobbelt så rask som musikkens rytme. Fremtredende representanter for denne stilen er Ceza, Tech N9ne, FIKE, Dom1no og andre utøvere.

Doble rim(Dobbelrim) - Slutten av en linje har to ord samtidig, som vil bli brukt til å rime i neste linje, også i to ord. Det vil si at hvis den første linjen slutter med "hjerne og hjerte", må du velge en konsonans for ordet "hjerne" og en separat konsonans for ordet "hjerte". For eksempel - "en plakat for døren" (med hjernen - plakaten, med hjertet - døren).

disse(diss, disrespect) - Et spor rettet mot en annen artist eller noen eller noe med målet om å "få ham ned." I slike spor praktiseres uanstendig tale, banning mot motstanderen og hans pårørende, trusler, under-belte-vitser osv. Diss brukes ofte i biff.

EP– Et lite album, vanligvis opptil 7 sanger i størrelse.

Lyd ingeniør– En spesialist som mikser og mestrer spor.

Indabattle(Nebdyr) - Kamp finner sted på portalen indarnb.ru. Det nest største slaget i Russland. Den bærer slangnavnet "Platypus", fordi faren til hovedarrangøren av slaget (Snake) er eieren av Utkonos-butikkkjeden.

Instrumental- Synonym for den generelle betydningen av ordet bit

Dekke(omslag) – En ny versjon av et spor spilt inn (omlest) av en annen artist.

Munnbeskyttelse- Slangnavn for ordet "acapella".

Firkantede rim– Rim i teksten legges til på slutten av linjen, og rimord har samme endelser. Et eksempel er "hånd er mel", "fjell er tid". Dette anses å være den enkleste måten å rime på.

Konsertsjef– Spesialist ansvarlig for å organisere utøverkonserter.

Sveiv(Crunk) - en stil med sørlandsk rapmusikk, med repeterende fraser og raske danserytmer.

Bo(live) - Lyd- eller videoopptak fra en utøvers konsert. Som regel er "live"-merket plassert i tittelen på sporet, slik at det er tydelig at dette ikke er en studioversjon, men et opptak fra en konsert.

Merkelapp(label) - 1) I utlandet er et plateselskap et plateselskap som har rettighetene til å gi ut og distribuere artisters album. 2) I Russland kalles en rapgruppe en label. Ofte er denne gruppen først og fremst forent av studioet.

Mike– Mikrofon

Mestring- sluttfasen av arbeidet med en sang, som er designet for å gjøre en godt blandet miks høyere, lysere, renere, mer gjennomsiktig og sette den på samme nivå som populære kommersielle spor når det gjelder volum. Også på dette stadiet kan du rette opp mindre feil som er gjort under blandingen.

Blande(miks) - flere musikkstykker (spor) arrangert i en kontinuerlig sekvens. Som regel blir mikser kompilert av DJ-er for forskjellige formål (for eksempel for inkludering på radio i tematiske programmer). Vanligvis består mikser av spor som er like i sjanger, humør og andre egenskaper. I gjennomsnitt varierer varigheten av en blanding fra 25 til 74 minutter.

Mixtape(Mixtape) - 1) I utenlandsk rap betyr dette ordet en utgivelse laget av remikser eller blandede spor. 2) I russisk rap er en mixtape en samling spor som er spilt inn på backing-spor som er ulovlig hentet fra andres spor. Som regel bryter mixtapes i Russland opphavsretten til utøvere. Et mixtape er også en samling spor tatt opp på minus, lagt ut av beatmakere for offentlig bruk.

Minus- Et synonym for den generelle betydningen av ordet bit.

Uavhengig kamp- En kamp som finner sted på nettstedet hip-hop.ru, organisert ikke av forumadministrasjonen, men av forummedlemmene selv.

Ingen navn(Noname) - En utilstrekkelig populær eller ukjent utøver som ikke har et "navn". En relativt objektiv indikator i dette aspektet kan være mengden lyd i VK og antall konserter, samt antall besøkende som kom til konserten.

HP(New Rap) - Den største nyhetsrappublikummet vk.

Ny skole– En ny hip-hop-stil, hvis karakteristiske trekk er bruken av rask flyt, bindestreker og ulike plugins og effekter, som melodin og autotune.

Gammeldags(Oldschool) - En tidlig stil innen hiphop, også kalt old school. Fremtredende representanter for denne stilen er 2Pac, Wu-TangClan og Onyx. Ofte er dette en avmålt presentasjon uten bruk av mange effekter og rask flyt.

Den offisielle kampen er en kamp som finner sted på nettstedet hip-hop.ru, organisert av forumadministrasjonen. Det største slaget i Russland.

Punch, punchline(Punch) – Dette er en lakonisk frase/linje designet for å hekte en motstander. Dette kan enten være en levende metafor eller en spøk under beltet. «Tilstedeværelsen av en motstander er ikke nødvendig. Det er som å avslutte en vits. Bare en fengende setning eller linje"

Del– Skrevet del av én artist på fellesspor.

Bindestreker, akselerasjon- Den grunnleggende delen av rask flyt. Økt tekstlesehastighet.

PR– Distribusjon av kunstnerens kreativitet eller informasjon og tilbud om tjenester.

Innhopp- Følelsene investert i lesingen, plassering av intonasjoner, måten å uttale ord på, bruk av vokal, bindestreker, akselerasjon og andre spesifikke rapteknikker.

Produsent– En spesialist som er fullt involvert i promoteringen av utøveren, som håndterer alle juridiske og økonomiske spørsmål. Ofte registrerer produsenter utøverens navn (kallenavn) i navnet sitt, og når utøveren bytter produsent, blir han tvunget til å endre kallenavnet, siden alle rettigheter til det gamle kallenavnet vil tilhøre den gamle produsenten. Av denne grunn ble Loc-Dog tvunget til å endre kallenavnet sitt til Loc Dog.

Kampanje(promo) - en utgivelse for å gjøre deg kjent med arbeidet til en bestemt artist.

Utgivelse- Premiere på et album, spor, video eller samling

Remiks(Remix) - Nytt arrangement av et allerede utgitt spor.

Rapcore- en undersjanger av rockemusikk preget av bruk av rap som vokal. Rapcore kombinerer instrumental- og vokalegenskapene til sjangere som punk, alternativ rock og hip-hop.

Blande- stadiet for å jobbe med en sang, der de innspilte lydsporene (instrumenter, hovedvokal, take osv.) kombineres til én lydfil ved hjelp av ulike enheter og teknikker, som utjevning, komprimering, volummanipulering, plassering i rommet , legger til lydeffekter. Merk: vokalkorrigering, synkronisering av opptak og backings er en prosess som ikke er inkludert i miksing, det er en forløper
merk installasjonsstadiet.

Swag(swag) – Et uttrykk for kulhet og individualitet.

Skiles(Färdigheter) - Presentasjon og ulike typer rimkonstruksjon.

SlovoSpb() - En av de to mest populære live-kampene i Russland. Basert i Krasnodar.

Sammensatte rim- Slutten av linjen i neste linje rimer på flere ord samtidig. Eksempel: "Apokalypse - mens du helbreder"

Historiefortelling- et spor som beskriver en historie, samtidig som det konsekvent beskriver hendelsene, handlingene og gjerningene til ekte eller fiktive karakterer.

Prøve– Et relativt lite fragment av melodi (musikk), tatt som grunnlag for å skape et minus. Beats påføres prøvene.

Ta– innspilt fragment, forsøk. Eksempel på bruk: Jeg skrev ned det hele i ett opptak, dvs. på ett forsøk.

Spor(Spor) - Et synonym for ordet "sang" i rap.

Triplett– Dette er en musikalsk størrelse. I rap er det nå vanlig å kalle en rap med ødelagte sjetonger, som tanguist, akselerasjon, etc.

ekte(True) - En utøver som leser sannheten, det vil si hva han virkelig tenker, gjør og hva som skjedde i livet hans.

Platypus- Slangnavn for Indabattle.

Rask flyt(FastFlow) - En serveringsstil bygget på bindestreker og akselerasjoner.

Passe(ft. or feat) - Indikerer at dette er et fellesspor av to eller flere artister

Flayva(flave) - Fest, selskap, gruppe eller merke.

Strømme(Flow) - Utførelseshastighet.

Freestyle(Freestyle) - Improvisasjon i rap. Lese tekst komponert av utøveren i farten.

Forfalskning(Fake) - Utøvere hvis tekster er basert på løgner. Deres karakteristiske trekk anses å være evnen til å "ansvarlig for ord."

Hype- entusiastiske rykter, ofte bevisst blåst opp for markedsføringsformål.

mas- Enhver form for inntekt knyttet til rap eller lovbrudd (salg av narkotika osv.)

Hater– En lytter som fordømmer enhver kreativitet og har en akutt motvilje mot det.

Hjemmekoselig(Homie) - Venn eller kjær.

H.h.ru(persimmon) - Et av de mest populære fora dedikert til hip-hop kultur, hip-hop.ru.

Hvis noen trenger hele teksten, velkommen til siden. Jeg gir ikke en lenke, de vil slette den, men det er lett å finne fra hovedsiden til det nettstedet hvis du går gjennom skriftene.

Så spesifikt for nettstedet ble en rekke tekster av kjente kulturpersonligheter analysert, som skulle ha inneholdt nøyaktig 25 000 ord. Antall unike ord ble talt av et spesielt program.

Interessant konklusjon #1

Andre interessante funn (subjektiv mening)

Det dårligste vokabularet i sanger Dima Malikov(vel, dette er ikke en klage mot Malikov, mange mennesker skriver til ham der - Shaganov, etc.). Og den mest omfattende er fra forfatteren Vladimir Sorokin.

U Rosenbaum Og Lermontov omtrent de samme indikatorene, begge er nesten midt i vurderingen.

I prosa er Sorokin, en outsider til Lermontov, i ledelsen. Men selve vurderingen starter på 4000+ tusen (det er mye). Akunin scoret litt mer enn Gogol. Dovlatov og Tsjekhov er nesten like. Pelevin er nummer to etter Sorokin. Lev Nikolaevich lærer oss fra bildet - mot slutten))

I poesi lederen av Our Everything is Pushkin (forutsigbart, ikke sant?), outsideren er Mayakovsky. Den nedre grensen er rundt 2000, men Vladimir Vladimirovich er litt under den. Generelt er det ikke nok deltakere. Her gikk Lermontov utenom mange, ikke som i prosa. Han ligger imidlertid på tredjeplass, langt bak andreplass – og dette er V.S. Vysotsky.

Rap presentert ganske omfattende. Outstanderen er Dolphin (men starter fortsatt fra posisjon 2475), lederen er en viss Noggano (6584). Timati er tredje fra slutten.

Popmusikk starter naturlig nok med en indikator på mindre enn 1000 - Malikov og Na-na, Rosenbaum er i ledelsen (hva gjør han her? Vi visste ikke hvor vi skulle sette det, tror jeg). Og på andreplass - vi faller ikke - Mikhail Krug (!!! 3741, jeg tror vokabularet der er spesifikt med litt mer enn 3000 er tredjeplass). Zemfira ser gjennomsnittlig ut - like under 2000.

Endelig, rockemusikere. Det er heller ikke mange av dem. Outstanderen er Viktor Tsoi (1861), lederen er Andrei Makarevich (5874, det var her jeg ble overrasket). Rett bak ham er Yegor Letov og Grebenshchikov (jeg ble ikke overrasket over disse to). I midten er Sasha Vasiliev (nesten 4000, jeg trodde det var flere). Av en eller annen grunn nådde ikke auksjonen engang 2500, jeg trodde det ville bli mer.

Det er omtrent det. Det er tydelig at forfatterens vokabular og den kunstneriske verdien av verket ikke er det samme. Men det var likevel interessant for meg å se på beregningene.

Dele