Package: tm 0.7-18

Kurt Hornik

tm: Text Mining Package

A framework for text mining applications within R.

Authors:Ingo Feinerer [aut], Kurt Hornik [aut, cre], Artifex Software, Inc. [ctb, cph]

tm_0.7-18.tar.gz
tm_0.7-18.zip(r-4.7)tm_0.7-18.zip(r-4.6)tm_0.7-18.zip(r-4.5)
tm_0.7-18.tgz(r-4.6-x86_64)tm_0.7-18.tgz(r-4.6-arm64)tm_0.7-18.tgz(r-4.5-x86_64)tm_0.7-18.tgz(r-4.5-arm64)
tm_0.7-18.tar.gz(r-4.7-arm64)tm_0.7-18.tar.gz(r-4.7-x86_64)tm_0.7-18.tar.gz(r-4.6-arm64)tm_0.7-18.tar.gz(r-4.6-x86_64)
tm_0.7-18.tgz(r-4.6-emscripten)
manual.pdf |manual.html✨
DESCRIPTION |NEWS
card.svg |card.png
tm/json (API)

# Install 'tm' in R:

install.packages('tm', repos = c('https://r-forge.r-universe.dev', 'https://cloud.r-project.org'))

Bug tracker:https://r-forge.r-project.org/projects/tm

Uses libs:

c++– GNU Standard C++ Library v3

Datasets:

acq - 50 Exemplary News Articles from the Reuters-21578 Data Set of Topic acq
crude - 20 Exemplary News Articles from the Reuters-21578 Data Set of Topic crude

On CRAN:

cpp

12.74 score 91 packages 19k scripts 33k downloads 94 mentions 79 exports 7 dependencies

Last updated from:52296261a0. Checks:6 OK, 7 ERROR. Indexed: yes.

Target	Result	Time
linux-devel-arm64	OK	173
linux-devel-x86_64	OK	165
source / vignettes	OK	197
linux-release-arm64	OK	178
linux-release-x86_64	OK	165
macos-release-arm64	ERROR	188
macos-release-x86_64	ERROR	349
macos-oldrel-arm64	ERROR	166
macos-oldrel-x86_64	ERROR	376
windows-devel	ERROR	130
windows-release	ERROR	147
windows-oldrel	ERROR	122
wasm-release	OK	162

Exports:as.DocumentTermMatrix as.TermDocumentMatrix as.VCorpus Boost_tokenizer content_transformer Corpus DataframeSource DirSource Docs DocumentTermMatrix DublinCore DublinCore<-eoi findAssocs findFreqTerms findMostFreqTerms FunctionGenerator getElem getMeta getReaders getSources getTokenizers getTransformations Heaps_plot inspect MC_tokenizer nDocs nTerms PCorpus pGetElem PlainTextDocument read_dtm_Blei_et_al read_dtm_MC readDataframe readDOC reader readPDF readPlain readRCV1 readRCV1asPlain readReut21578XML readReut21578XMLasPlain readTagged readXML removeNumbers removePunctuation removeSparseTerms removeWords scan_tokenizer SimpleCorpus SimpleSource stemCompletion stemDocument stepNext stopwords stripWhitespace TermDocumentMatrix termFreq Terms tm_filter tm_index tm_map tm_parLapply tm_parLapply_engine tm_reduce tm_term_score URISource VCorpus VectorSource weightBin WeightFunction weightSMART weightTf weightTfIdf writeCorpus XMLSource XMLTextDocument Zipf_plot ZipSource

Dependencies:BH cli NLP Rcpp rlang slam xml2

Introduction to the tm Package

Rendered fromtm.Rnwusingutils::Sweave

Last update: 2024-08-13
Started: 2012-01-14

Extensions

Rendered fromextensions.Rnwusingutils::Sweave

Last update: 2017-09-10
Started: 2012-01-14

Citation

Development and contributors

Readme and manuals

Help Manual

Help page	Topics
50 Exemplary News Articles from the Reuters-21578 Data Set of Topic acq	acq
Content Transformers	content_transformer
Corpora	Corpus
20 Exemplary News Articles from the Reuters-21578 Data Set of Topic crude	crude
Data Frame Source	DataframeSource
Directory Source	DirSource
Access Document IDs and Terms	Docs nDocs nTerms Terms
Find Associations in a Term-Document Matrix	findAssocs findAssocs.DocumentTermMatrix findAssocs.TermDocumentMatrix
Find Frequent Terms	findFreqTerms
Find Most Frequent Terms	findMostFreqTerms findMostFreqTerms.DocumentTermMatrix findMostFreqTerms.TermDocumentMatrix findMostFreqTerms.term_frequency
Read Document-Term Matrices	read_dtm_Blei_et_al read_dtm_MC
Tokenizers	getTokenizers
Transformations	getTransformations
Parallelized 'lapply'	tm_parLapply tm_parLapply_engine
Inspect Objects	inspect inspect.PCorpus inspect.TermDocumentMatrix inspect.TextDocument inspect.VCorpus
Metadata Management	DublinCore DublinCore<- meta meta.PCorpus meta.PlainTextDocument meta.SimpleCorpus meta.VCorpus meta.XMLTextDocument meta<-.PCorpus meta<-.PlainTextDocument meta<-.SimpleCorpus meta<-.VCorpus meta<-.XMLTextDocument
Permanent Corpora	PCorpus
Plain Text Documents	PlainTextDocument
Visualize a Term-Document Matrix	plot.TermDocumentMatrix
Read In a Text Document from a Data Frame	readDataframe
Read In a MS Word Document	readDOC
Readers	FunctionGenerator getReaders Reader
Read In a PDF Document	readPDF
Read In a Text Document	readPlain
Read In a Reuters Corpus Volume 1 Document	readRCV1 readRCV1asPlain
Read In a Reuters-21578 XML Document	readReut21578XML readReut21578XMLasPlain
Read In a POS-Tagged Word Text Document	readTagged
Read In an XML Document	readXML
Remove Numbers from a Text Document	removeNumbers removeNumbers.character removeNumbers.PlainTextDocument
Remove Punctuation Marks from a Text Document	removePunctuation removePunctuation.character removePunctuation.PlainTextDocument
Remove Sparse Terms from a Term-Document Matrix	removeSparseTerms
Remove Words from a Text Document	removeWords removeWords.character removeWords.PlainTextDocument
Simple Corpora	SimpleCorpus
Sources	close.SimpleSource eoi eoi.SimpleSource getElem getElem.DataframeSource getElem.DirSource getElem.URISource getElem.VectorSource getElem.XMLSource getMeta getMeta.DataframeSource getSources length.SimpleSource open.SimpleSource pGetElem pGetElem.DataframeSource pGetElem.DirSource pGetElem.URISource pGetElem.VectorSource reader reader.SimpleSource SimpleSource Source stepNext stepNext.SimpleSource
Complete Stems	stemCompletion
Stem Words	stemDocument stemDocument.character stemDocument.PlainTextDocument
Stopwords	stopwords
Strip Whitespace from a Text Document	stripWhitespace stripWhitespace.PlainTextDocument
Term-Document Matrix	as.DocumentTermMatrix as.TermDocumentMatrix DocumentTermMatrix TermDocumentMatrix
Term Frequency Vector	termFreq
Text Documents	TextDocument
Combine Corpora, Documents, Term-Document Matrices, and Term Frequency Vectors	c.TermDocumentMatrix c.term_frequency c.TextDocument c.VCorpus
Filter and Index Functions on Corpora	tm_filter tm_filter.PCorpus tm_filter.SimpleCorpus tm_filter.VCorpus tm_index tm_index.PCorpus tm_index.SimpleCorpus tm_index.VCorpus
Transformations on Corpora	tm_map tm_map.PCorpus tm_map.SimpleCorpus tm_map.VCorpus
Combine Transformations	tm_reduce
Compute Score for Matching Terms	tm_term_score tm_term_score.DocumentTermMatrix tm_term_score.PlainTextDocument tm_term_score.TermDocumentMatrix tm_term_score.term_frequency
Tokenizers	Boost_tokenizer MC_tokenizer scan_tokenizer
Uniform Resource Identifier Source	URISource
Volatile Corpora	as.VCorpus VCorpus
Vector Source	VectorSource
Weight Binary	weightBin
Weighting Function	WeightFunction
SMART Weightings	weightSMART
Weight by Term Frequency	weightTf
Weight by Term Frequency - Inverse Document Frequency	weightTfIdf
Write a Corpus to Disk	writeCorpus
XML Source	XMLSource
XML Text Documents	XMLTextDocument
Explore Corpus Term Frequency Characteristics	Heaps_plot Zipf_plot
ZIP File Source	ZipSource