Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
- Telegram Web
Telegram Web
😅 🤌

only at stanford
With many 🧩 dropping recently, a more complete picture is emerging of LLMs not as a chatbot, but the kernel process of a new Operating System. E.g. today it orchestrates:

- Input & Output across modalities (text, audio, vision)
- Code interpreter, ability to write & run programs
- Browser / internet access
- Embeddings database for files and internal memory storage & retrieval

A lot of computing concepts carry over. Currently we have single-threaded execution running at ~10Hz (tok/s) and enjoy looking at the assembly-level execution traces stream by. Concepts from computer security carry over, with attacks, defenses and emerging vulnerabilities.

I also like the nearest neighbor analogy of "Operating System" because the industry is starting to shape up similar:
Windows, OS X, and Linux <-> GPT, PaLM, Claude, and Llama/Mistral(?:)).
An OS comes with default apps but has an app store.
Most apps can be adapted to multiple platforms.

TLDR looking at LLMs as chatbots is the same as looking at early computers as calculators. We're seeing an emergence of a whole new computing paradigm, and it is very early.


https://x.com/karpathy/status/1707437820045062561?s=46
اینجا موافق هستین دوباره فعال شه و بیشتر درباره‌ی NLP حرف بزنیم؟
Anonymous Poll
95%
👍
5%
👎
عصای دست ما: spaCy

من بارها درباره‌ی تفاوت ابزارهایی که تو صنعت استفاده میشن با ابزارهایی که تو شبکه‌های اجتماعی ترند میشن، نوشتم. تفاوت اصلیشون در اینکه، ابزارهایی که ترند میشن شاید واقعا Cool باشن و خیلی از کارهارو ساده‌تر کنن ولی پیچیدگی‌های جدیدی رو هم با خودشون به همراه دارن که ممکنه تو طولانی مدت کار رو از جهات مختلفی سخت‌تر کنه.

یک نمونه از این ابزارها LangChain هست. در واقع LangChain با وجود قابلیت‌های خوبی که داره ولی بسیار آشفته توسعه داده شده. نسخه‌های جدید به سرعت به روز میشن و با هربار به روز رسانی به نسخه‌ی جدیدتر، چیزهای زیادی رو باید تغییر داد که مشکلات و دشواری‌های خودش رو داره.

در مقابل محصولاتی مشابه spaCy رو داریم که سال‌هاست تو پروژه‌های مختلف پردازش زبان، در صنعت بصورت جدی استفاده میشن و ابزارهایی ارایه میدن که تا حد زیادی Bullet Proof هستن.

سعی می‌کنم مطالب کوتاه و سریعی با هشتگ #spacy منتشر کنم تا شما رو بیشتر با این ابزاری که عصای دست بیشتر ما #nlp کارهاست آشنا کنم.

https://spacy.io
با ارسال هر متنی به #spacy شما یک doc ایجاد می‌کنین.

حالا شما به تک تک کلمات این جمله دسترسی دارین و می‌تونین صدها تحلیل مختلف رو روی این کلمات انجام بدین.

برای مثل درخت دستور وابستگی کلمات رو رسم کنین. درباره ی اینکه این درخت دستور وابستگی چه کاربردهایی می‌تونه داشته باشه، مفصل‌تر صحبت می‌کنیم.
تو این مدتی که این کانال فعالیتش کمتر شده بود، طبیعتا دنیای NLP دست از کار نکشیده بود.
کارپاتی یکی از بهترین آموزش‌هاش رو منتشر کرد که کمک می‌کنه به یه درک عمیق و خوب از مفهوم Tokenization برسیم. توصیه می‌کنم این دو ساعت رو از دست ندین.

https://www.youtube.com/watch?v=zduSFxRajkE&t=6433s
حالا که بحث یادگیری #spacy و آشنایی بیشتر باهاش رو قراره پیش ببریم، پیشنهاد می‌کنم خودتون دست پیش بگیرین و نگاهی به این سری آموزشی خفن و ساده بیاندازین:

https://course.spacy.io/en
یکی از ویژگی‌های جالب و پرکاربرد #spacy ابزار Span هست.

با این ابزار می‌تونین دسته‌بندی‌های دلخواه به بخش‌های مختلفی از متن اختصاص بدید.

یکی از کاربردهایی که داره برای مواقعی هست که با ابزارهای مختلف، بخش‌های مختلف متنی که در اختیار دارین رو دسته‌بندی می‌کنین و همه متادیتای بدست اومده رو داخل خود همون متن ذخیره می‌کنین! تمیز و شیک.
نسخه‌ی بهار از کورس شناخته شده‌ی CS224N دانشگاه استنفورد، مدتی هست که معرفی شده:

https://web.stanford.edu/class/cs224n

قبلا هم بارها این کورس رو معرفی کردم، بسیار کورس خوبیه و مرتب با موضوعات و مفاهیم جدیدی که تو صنعت و دانشگاه منتشر میشن، به روز میشه.

#NLP
برای اولین بار!‌ قدرتمندترین مدل زبانی دنیا، یه مدل متن بازه!

- Open Source AI Is the Path Forward

- Llama 3.1 - 405B, 70B & 8B with multilinguality and long context

- Model Card
Media is too big
VIEW IN TELEGRAM
جستجو نیاز به بازآفرینی دارد؛ آیا رقیب جدیدی برای گوگل وارد بازی شده است؟
با همین چند خط کد و بدون نیاز به openai یه سیستم RAG روی لپ‌تاپ شخصیتون راه بیاندازین

استفاده از RAG به قدری متداول شده که راه انداختن یه llm روی لپ‌تاپ شخصی و سوال و جواب کردن راجع به محتویات فایل‌ها راحت‌تر از همیشه است!
قدم اول اینکه ollama رو نصب و مدل مورد علاقتون رو دانلود کنید:


ollama run phi3


حالا با همین چند خط می‌تونین شروع به حرف زدن با فایل‌ یا فایل‌های مدنظرتون کنین:


from llama_index.core import SimpleDirectoryReader
from llama_index.core import PromptTemplate
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.core import Settings
from llama_index.core import VectorStoreIndex
from llama_index.llms.ollama import Ollama

loader = SimpleDirectoryReader(input_files=['behave.pdf'])

docs = loader.load_data()

embed_model = HuggingFaceEmbedding(
model_name="Snowflake/snowflake-arctic-embed-m",
trust_remote_code=True
)

Settings.embed_model = embed_model

index = VectorStoreIndex.from_documents(docs)

llm = Ollama(model="phi3", request_timeout=120.0)

Settings.llm = llm
query_engine = index.as_query_engine(streaming=True, similarity_top_k=4)


qa_prompt_tmpl_str = (
"Context information is below.\n"
"---------------------\n"
"{context_str}\n"
"---------------------\n"
"Given the context information above I want you to think step by step to answer the query in a crisp manner, incase case you don't know the answer say 'I don't know!'.\n"
"Query: {query_str}\n"
"Answer: "
)


qa_prompt_tmpl = PromptTemplate(qa_prompt_tmpl_str)
query_engine.update_prompts({"response_synthesizer:text_qa_template": qa_prompt_tmpl})

response = query_engine.query('What is The opposite of love?')

print(response)



البته که قطعا این صرفا فقط یه مثال ساده است که من از این توییت کپی کردم تا اگر هنوز وارد این دنیا نشدین، سریع‌تر وارد شین و تست کنینش؛ وگرنه به پروداکشن‌ بردن همین سیستم پیچیدگی‌های خاص خودش رو داره که شاید سخت‌ترین بخشش ارزیابی و صحت‌سنجی جواب‌هاییکه دریافت می‌کنیم.
Bag of Words pinned «با همین چند خط کد و بدون نیاز به openai یه سیستم RAG روی لپ‌تاپ شخصیتون راه بیاندازین استفاده از RAG به قدری متداول شده که راه انداختن یه llm روی لپ‌تاپ شخصی و سوال و جواب کردن راجع به محتویات فایل‌ها راحت‌تر از همیشه است! قدم اول اینکه ollama رو نصب و مدل…»
2024/11/03 13:50:27
Back to Top
HTML Embed Code: