dbo:abstract
|
- The TenTen Corpus Family (also called TenTen corpora) is a set of comparable web text corpora, i.e. collections of texts that have been crawled from the World Wide Web and processed to match the same standards. These corpora are made available through the Sketch Engine corpus manager. There are TenTen corpora for more than 35 languages. Their _target size is 10 billion (1010) words per language, which gave rise to the corpus family's name. In the creation of the TenTen corpora, data crawled from the World Wide Web are processed with natural language processing tools developed by the Natural Language Processing Centre at the Faculty of Informatics at Masaryk University (Brno, Czech Republic) and by the Lexical Computing company (developer of the Sketch Engine). (en)
- Родина корпусів ТенТен (англ. The TenTen Corpus Family) — це сукупність порівняльних веб-корпусів, укладених з лінгвістично вартісних текстів всесвітньої павутини. Доступ до корпусів реалізовано через корпусний менеджер Sketch Engine. Інструментарій цієї веб-платформи дає змогу детально досліджувати граматику, лексику та термінологію, аналізувати переклади, укладати частотні словники. До родини ТенТен входять корпуси 42 мов (за даними на квітень 2022). Цільовий розмір кожного з корпусів становить 10 мільярдів (1010) слововживань, це число й дало їм назву (1010 — «ten-ten»). Щоб отримати доступ до корпусів ТенТен, необхідно авторизуватися та купити підписку на сайті Sketch Engine. Можна скористатися 30-денним пробним періодом. (uk)
|
dbo:wikiPageExternalLink
| |
dbo:wikiPageID
| |
dbo:wikiPageLength
|
- 12210 (xsd:nonNegativeInteger)
|
dbo:wikiPageRevisionID
| |
dbo:wikiPageWikiLink
| |
dbp:wikiPageUsesTemplate
| |
dct:subject
| |
rdfs:comment
|
- The TenTen Corpus Family (also called TenTen corpora) is a set of comparable web text corpora, i.e. collections of texts that have been crawled from the World Wide Web and processed to match the same standards. These corpora are made available through the Sketch Engine corpus manager. There are TenTen corpora for more than 35 languages. Their _target size is 10 billion (1010) words per language, which gave rise to the corpus family's name. (en)
- Родина корпусів ТенТен (англ. The TenTen Corpus Family) — це сукупність порівняльних веб-корпусів, укладених з лінгвістично вартісних текстів всесвітньої павутини. Доступ до корпусів реалізовано через корпусний менеджер Sketch Engine. Інструментарій цієї веб-платформи дає змогу детально досліджувати граматику, лексику та термінологію, аналізувати переклади, укладати частотні словники. До родини ТенТен входять корпуси 42 мов (за даними на квітень 2022). Цільовий розмір кожного з корпусів становить 10 мільярдів (1010) слововживань, це число й дало їм назву (1010 — «ten-ten»). (uk)
|
rdfs:label
|
- TenTen Corpus Family (en)
- Сімейство корпусів ТенТен (uk)
|
owl:sameAs
| |
prov:wasDerivedFrom
| |
foaf:isPrimaryTopicOf
| |
is dbo:wikiPageDisambiguates
of | |
is dbo:wikiPageRedirects
of | |
is dbo:wikiPageWikiLink
of | |
is foaf:primaryTopic
of | |