Struct WordSegmenter

Source

pub struct WordSegmenter {
    payload: DataPayload<WordBreakDataV1Marker>,
    complex: ComplexPayloads,
}

Expand description

Supports loading word break data, and creating word break iterators for different string encodings.

§Examples

Segment a string:

use icu::segmenter::WordSegmenter;
let segmenter = WordSegmenter::new_auto();

let breakpoints: Vec<usize> =
    segmenter.segment_str("Hello World").collect();
assert_eq!(&breakpoints, &[0, 5, 6, 11]);

Segment a Latin1 byte string:

use icu::segmenter::WordSegmenter;
let segmenter = WordSegmenter::new_auto();

let breakpoints: Vec<usize> =
    segmenter.segment_latin1(b"Hello World").collect();
assert_eq!(&breakpoints, &[0, 5, 6, 11]);

Successive boundaries can be used to retrieve the segments. In particular, the first boundary is always 0, and the last one is the length of the segmented text in code units.

use itertools::Itertools;
let text = "Mark’d ye his words?";
let segments: Vec<&str> = segmenter
    .segment_str(text)
    .tuple_windows()
    .map(|(i, j)| &text[i..j])
    .collect();
assert_eq!(
    &segments,
    &["Mark’d", " ", "ye", " ", "his", " ", "words", "?"]
);

Not all segments delimited by word boundaries are words; some are interword segments such as spaces and punctuation. The WordBreakIterator::word_type() of a boundary can be used to classify the preceding segment; WordBreakIterator::iter_with_word_type() associates each boundary with its status.

let words: Vec<&str> = segmenter
    .segment_str(text)
    .iter_with_word_type()
    .tuple_windows()
    .filter(|(_, (_, segment_type))| segment_type.is_word_like())
    .map(|((i, _), (j, _))| &text[i..j])
    .collect();
assert_eq!(&words, &["Mark’d", "ye", "his", "words"]);

Fields§

§payload: DataPayload<WordBreakDataV1Marker>§complex: ComplexPayloads

Struct WordSegmenter Copy item path

§Examples

Fields§

Implementations§

impl WordSegmenter

pub fn new_auto() -> Self

§Examples

pub fn try_new_auto_with_any_provider( provider: &(impl AnyProvider + ?Sized), ) -> Result<Self, SegmenterError>

pub fn try_new_auto_unstable<D>(provider: &D) -> Result<Self, SegmenterError>where D: DataProvider<WordBreakDataV1Marker> + DataProvider<DictionaryForWordOnlyAutoV1Marker> + DataProvider<LstmForWordLineAutoV1Marker> + DataProvider<GraphemeClusterBreakDataV1Marker> + ?Sized,

pub fn new_lstm() -> Self

§Examples

pub fn try_new_lstm_with_any_provider( provider: &(impl AnyProvider + ?Sized), ) -> Result<Self, SegmenterError>

pub fn try_new_lstm_unstable<D>(provider: &D) -> Result<Self, SegmenterError>where D: DataProvider<WordBreakDataV1Marker> + DataProvider<LstmForWordLineAutoV1Marker> + DataProvider<GraphemeClusterBreakDataV1Marker> + ?Sized,

pub fn new_dictionary() -> Self

§Examples

pub fn try_new_dictionary_with_any_provider( provider: &(impl AnyProvider + ?Sized), ) -> Result<Self, SegmenterError>

pub fn try_new_dictionary_unstable<D>( provider: &D, ) -> Result<Self, SegmenterError>where D: DataProvider<WordBreakDataV1Marker> + DataProvider<DictionaryForWordOnlyAutoV1Marker> + DataProvider<DictionaryForWordLineExtendedV1Marker> + DataProvider<GraphemeClusterBreakDataV1Marker> + ?Sized,

pub fn segment_str<'l, 's>( &'l self, input: &'s str, ) -> WordBreakIteratorUtf8<'l, 's>

pub fn segment_utf8<'l, 's>( &'l self, input: &'s [u8], ) -> WordBreakIteratorPotentiallyIllFormedUtf8<'l, 's>

pub fn segment_latin1<'l, 's>( &'l self, input: &'s [u8], ) -> WordBreakIteratorLatin1<'l, 's>

pub fn segment_utf16<'l, 's>( &'l self, input: &'s [u16], ) -> WordBreakIteratorUtf16<'l, 's>

Trait Implementations§

impl Debug for WordSegmenter

fn fmt(&self, f: &mut Formatter<'_>) -> Result

Auto Trait Implementations§

impl Freeze for WordSegmenter

impl RefUnwindSafe for WordSegmenter

impl !Send for WordSegmenter

impl !Sync for WordSegmenter

impl Unpin for WordSegmenter

impl UnwindSafe for WordSegmenter

Blanket Implementations§

impl<T> Any for Twhere T: 'static + ?Sized,

fn type_id(&self) -> TypeId

impl<T> Borrow<T> for Twhere T: ?Sized,

fn borrow(&self) -> &T

impl<T> BorrowMut<T> for Twhere T: ?Sized,

fn borrow_mut(&mut self) -> &mut T

impl<T> From<T> for T

fn from(t: T) -> T

impl<T, U> Into<U> for Twhere U: From<T>,

fn into(self) -> U

impl<T, U> TryFrom<U> for Twhere U: Into<T>,

type Error = Infallible

fn try_from(value: U) -> Result<T, <T as TryFrom<U>>::Error>

impl<T, U> TryInto<U> for Twhere U: TryFrom<T>,

type Error = <U as TryFrom<T>>::Error

fn try_into(self) -> Result<U, <U as TryFrom<T>>::Error>

impl<T> ErasedDestructor for Twhere T: 'static,

impl<T> MaybeSendSync for T

Struct WordSegmenter

pub fn try_new_auto_unstable<D>(provider: &D) -> Result<Self, SegmenterError>
where D: DataProvider<WordBreakDataV1Marker> + DataProvider<DictionaryForWordOnlyAutoV1Marker> + DataProvider<LstmForWordLineAutoV1Marker> + DataProvider<GraphemeClusterBreakDataV1Marker> + ?Sized,

pub fn try_new_lstm_unstable<D>(provider: &D) -> Result<Self, SegmenterError>
where D: DataProvider<WordBreakDataV1Marker> + DataProvider<LstmForWordLineAutoV1Marker> + DataProvider<GraphemeClusterBreakDataV1Marker> + ?Sized,

pub fn try_new_dictionary_unstable<D>( provider: &D, ) -> Result<Self, SegmenterError>
where D: DataProvider<WordBreakDataV1Marker> + DataProvider<DictionaryForWordOnlyAutoV1Marker> + DataProvider<DictionaryForWordLineExtendedV1Marker> + DataProvider<GraphemeClusterBreakDataV1Marker> + ?Sized,

impl<T> Any for T
where T: 'static + ?Sized,

impl<T> Borrow<T> for T
where T: ?Sized,

impl<T> BorrowMut<T> for T
where T: ?Sized,

impl<T, U> Into<U> for T
where U: From<T>,

impl<T, U> TryFrom<U> for T
where U: Into<T>,

impl<T, U> TryInto<U> for T
where U: TryFrom<T>,

impl<T> ErasedDestructor for T
where T: 'static,